信阅平台

产品特色

编辑推荐

酣畅淋漓的技术释义，轻松有趣的漫画解读，

近百个核心技术概念，为你深度解读数据智能时代背后的逻辑。

数据智能时代，万物皆可数，万物皆可连，万物皆可算。

一本书，带你认知这个时刻变化中的世界。

展开

作者简介

张燕玲，四川大学文学硕士，零点有数营销总监，历任研究总监，具有10余年数据研究工作经验，两次荣获中国市场研究行业专业论文“宝洁奖”一等奖，发表文章数百篇。在推动数据智能和算法产业应用的科普传播方面具有丰富经验。

许正军，博士，高级通信工程师，零点有数技术副总裁。从事信息通信技术、互联网、工业互联网、“互联网+政务服务”和数据智能行业应用开发20余年，在各类学术刊物上发表过40多篇论文。在数字政府、数字社会和数字经济建设领域具有丰富的理论与实践经验。

张军，中国人民大学经济学硕士，零点有数董事、首席执行官，兼任中国信息协会市场研究业分会（CMRA）副会长、欧洲民意与市场研究协会（ESOMAR）中国代表、全球移动通信系统协会(GSMA)评委等职。多年来致力于公共管理和商业服务领域的数据挖掘与咨询服务，取得丰硕成果，得到业内高度认可。

展开

内容介绍

展开

精彩书评

展开

精彩书摘

强化学习

【导读】强化学习、监督学习和半监督学习属于机器学习的三个大类。强化学习（Reinforcement Learning）又被称为再励学习、评价学习或增强学习，是除了监督学习和无监督学习之外的第三种机器学习方法。

强化学习指的是机器选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号（奖或惩）反馈给机器，机器根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化（奖）的概率增大。

接下来，将围绕小美养狗的故事，告诉你什么是强化学习，以及强化学习与监督学习、无监督学习的区别。

什么是强化学习

小美家里新养了一只宠物小狗狗，但是初来乍到的狗狗并不懂家里的规矩，于是，小美想要给它训训家规。

此处，我们请把小狗狗看作机器主体，“它不懂家里规矩”对应强化学习中的“数据无标签，机器在没有尝试前不知道什么是对什么是错。”

第一天，狗狗在家里乱尿尿了，小美打了它，并且罚它半天不能吃狗粮。下午，狗狗去厕所尿尿，小美摸了摸它，并且奖励了狗狗好吃的。不断循环往复，狗狗明白了：在厕所尿尿=主人高兴+有好吃的；四处在客厅尿尿=主人不开心+会被打一顿+没有吃的。慢慢地，狗狗再也不会在家里四处乱尿尿了，变成了一只爱干净的狗狗。

上述例子中的“狗狗在家里乱尿尿了”对应着强化学习中的“行为”，只有有了行为才有行为所对应的外界的反馈，而这个反馈就是“小美打它，并且不给他吃的”。而后面的“狗狗去厕所尿尿后，小美奖励食物”对应的是强化学习的“（正）强化信号”。

狗狗（机器）在循环往复地试错后，明白了什么是对的，什么是错的，并且不断地去趋向对的行为，寻求最佳的表现结果。

强化学习与监督学习的区别

可能有人会疑问，感觉强化学习和之前咱们提过的监督学习很相似呀，都有一个“训练导师”。

是的，虽然如此，但不同的是：监督学习的数据有标签，通过“带有答案”的数据来训练（例如，你拎着狗狗，去整个屋子的四处全都走一遍，告诉它这是可以尿尿的，而那里是不可以尿尿的）。

而强化学习的数据无标签，只有尝试了，才能得到反馈（例如，在客厅尿尿了，被打了；在厕所尿尿，被表扬了，并且奖励了好吃的），从反馈中，调整之前的行为（狗狗知道了什么是会被表扬的，就会去做，知道了做什么会被打，就不做了），就这样不断地调整，机器能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果（狗狗以后都到厕所去尿尿了）。

强化学习与无监督学习的区别

可能还有人会说，数据都是无标签的，那么强化学习和无监督学习不是很像吗？

不同的是，无监督学习是从无标签的数据集中发现隐藏的结构（例如，狗狗观察了下家里的环境，知道了马桶、垃圾桶和地毯都是圆的，衣柜、电视机、抽屉都是有棱角的）。而强化学习的目标是获得最大化奖励的结果（狗狗内心os：我知道在厕所以外的地方尿尿，会被打，在厕所尿尿会被夸，我以后要做一只被奖励的狗狗）。

总而言之，强化学习就是让计算机从什么都不懂，通过不断尝试，在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，在规律中学习的一种方法。强化学习的应用很广泛，无论是日常社交平台中的推荐、优化、猜你喜欢等，还是游戏、自动驾驶，甚至是大家所熟知的苹果智能语音助手Siri或者是战胜世界第一围棋手的阿尔法围棋（AlphaGo），都有着强化学习的相应尝试与实践。

强化学习

【导读】强化学习、监督学习和半监督学习属于机器学习的三个大类。强化学习（Reinforcement Learning）又被称为再励学习、评价学习或增强学习，是除了监督学习和无监督学习之外的第三种机器学习方法。

强化学习指的是机器选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号（奖或惩）反馈给机器，机器根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化（奖）的概率增大。

接下来，将围绕小美养狗的故事，告诉你什么是强化学习，以及强化学习与监督学习、无监督学习的区别。

什么是强化学习

小美家里新养了一只宠物小狗狗，但是初来乍到的狗狗并不懂家里的规矩，于是，小美想要给它训训家规。

此处，我们请把小狗狗看作机器主体，“它不懂家里规矩”对应强化学习中的“数据无标签，机器在没有尝试前不知道什么是对什么是错。”

第一天，狗狗在家里乱尿尿了，小美打了它，并且罚它半天不能吃狗粮。下午，狗狗去厕所尿尿，小美摸了摸它，并且奖励了狗狗好吃的。不断循环往复，狗狗明白了：在厕所尿尿=主人高兴+有好吃的；四处在客厅尿尿=主人不开心+会被打一顿+没有吃的。慢慢地，狗狗再也不会在家里四处乱尿尿了，变成了一只爱干净的狗狗。

上述例子中的“狗狗在家里乱尿尿了”对应着强化学习中的“行为”，只有有了行为才有行为所对应的外界的反馈，而这个反馈就是“小美打它，并且不给他吃的”。而后面的“狗狗去厕所尿尿后，小美奖励食物”对应的是强化学习的“（正）强化信号”。

狗狗（机器）在循环往复地试错后，明白了什么是对的，什么是错的，并且不断地去趋向对的行为，寻求最佳的表现结果。

强化学习与监督学习的区别

可能有人会疑问，感觉强化学习和之前咱们提过的监督学习很相似呀，都有一个“训练导师”。

是的，虽然如此，但不同的是：监督学习的数据有标签，通过“带有答案”的数据来训练（例如，你拎着狗狗，去整个屋子的四处全都走一遍，告诉它这是可以尿尿的，而那里是不可以尿尿的）。

而强化学习的数据无标签，只有尝试了，才能得到反馈（例如，在客厅尿尿了，被打了；在厕所尿尿，被表扬了，并且奖励了好吃的），从反馈中，调整之前的行为（狗狗知道了什么是会被表扬的，就会去做，知道了做什么会被打，就不做了），就这样不断地调整，机器能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果（狗狗以后都到厕所去尿尿了）。

强化学习与无监督学习的区别

可能还有人会说，数据都是无标签的，那么强化学习和无监督学习不是很像吗？

展开

第1章算量

本章导读

大数据

结构化数据

非结构化数据

特征工程

多源数据

网络爬虫

行为数据

元数据

数据仓库

集群系统

分布式系统

中台

数据加密

第2章算法

本章导读

人工智能

算法

模糊计算

机器学习

监督学习

无监督学习

强化学习

人工神经网络

深度学习

集成学习算法

图像识别

人脸识别

计算机视觉

无人驾驶

开源算法平台

算法偏见

算法责任

第3章算力

本章导读

新一代信息技术

数字新基建

5G

物联网

消费互联网

产业互联网

工业互联网

IPV6

集成电路

芯片

传感器

人机交互

下一代操作系统

智联网

AR、VR

数字孪生

第4章新一代信息技术

本章导读

算力

DPU

AI芯片

云，云计算，云存储

公有云，私有云，混合云

边缘计算

第5章数字化转型

本章导读

网络强国

数字中国

智慧城市

城市大脑

数字底座

数字化转型

数智化

数字政府

数字经济

数字化治理

数字民生

城市生命体征

智能制造

商业智能

数字货币

展开