酣畅淋漓的技术释义,轻松有趣的漫画解读,
近百个核心技术概念,为你深度解读数据智能时代背后的逻辑。
数据智能时代,万物皆可数,万物皆可连,万物皆可算。
一本书,带你认知这个时刻变化中的世界。
强化学习
【导读】强化学习、监督学习和半监督学习属于机器学习的三个大类。强化学习(Reinforcement Learning)又被称为再励学习、评价学习或增强学习,是除了监督学习和无监督学习之外的第三种机器学习方法。
强化学习指的是机器选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给机器,机器根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。
接下来,将围绕小美养狗的故事,告诉你什么是强化学习,以及强化学习与监督学习、无监督学习的区别。
什么是强化学习
小美家里新养了一只宠物小狗狗,但是初来乍到的狗狗并不懂家里的规矩,于是,小美想要给它训训家规。
此处,我们请把小狗狗看作机器主体,“它不懂家里规矩”对应强化学习中的“数据无标签,机器在没有尝试前不知道什么是对什么是错。”
第一天,狗狗在家里乱尿尿了,小美打了它,并且罚它半天不能吃狗粮。下午,狗狗去厕所尿尿,小美摸了摸它,并且奖励了狗狗好吃的。不断循环往复,狗狗明白了:在厕所尿尿=主人高兴+有好吃的;四处在客厅尿尿=主人不开心+会被打一顿+没有吃的。慢慢地,狗狗再也不会在家里四处乱尿尿了,变成了一只爱干净的狗狗。
上述例子中的“狗狗在家里乱尿尿了”对应着强化学习中的“行为”,只有有了行为才有行为所对应的外界的反馈,而这个反馈就是“小美打它,并且不给他吃的”。而后面的“狗狗去厕所尿尿后,小美奖励食物”对应的是强化学习的“(正)强化信号”。
狗狗(机器)在循环往复地试错后,明白了什么是对的,什么是错的,并且不断地去趋向对的行为,寻求最佳的表现结果。
强化学习与监督学习的区别
可能有人会疑问,感觉强化学习和之前咱们提过的监督学习很相似呀,都有一个“训练导师”。
是的,虽然如此,但不同的是:监督学习的数据有标签,通过“带有答案”的数据来训练(例如,你拎着狗狗,去整个屋子的四处全都走一遍,告诉它这是可以尿尿的,而那里是不可以尿尿的)。
而强化学习的数据无标签,只有尝试了,才能得到反馈(例如,在客厅尿尿了,被打了;在厕所尿尿,被表扬了,并且奖励了好吃的),从反馈中,调整之前的行为(狗狗知道了什么是会被表扬的,就会去做,知道了做什么会被打,就不做了),就这样不断地调整,机器能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果(狗狗以后都到厕所去尿尿了)。
强化学习与无监督学习的区别
可能还有人会说,数据都是无标签的,那么强化学习和无监督学习不是很像吗?
不同的是,无监督学习是从无标签的数据集中发现隐藏的结构(例如,狗狗观察了下家里的环境,知道了马桶、垃圾桶和地毯都是圆的,衣柜、电视机、抽屉都是有棱角的)。而强化学习的目标是获得最大化奖励的结果(狗狗内心os:我知道在厕所以外的地方尿尿,会被打,在厕所尿尿会被夸,我以后要做一只被奖励的狗狗)。
总而言之,强化学习就是让计算机从什么都不懂,通过不断尝试,在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,在规律中学习的一种方法。强化学习的应用很广泛,无论是日常社交平台中的推荐、优化、猜你喜欢等,还是游戏、自动驾驶,甚至是大家所熟知的苹果智能语音助手Siri或者是战胜世界第一围棋手的阿尔法围棋(AlphaGo),都有着强化学习的相应尝试与实践。
强化学习
【导读】强化学习、监督学习和半监督学习属于机器学习的三个大类。强化学习(Reinforcement Learning)又被称为再励学习、评价学习或增强学习,是除了监督学习和无监督学习之外的第三种机器学习方法。
强化学习指的是机器选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给机器,机器根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。
接下来,将围绕小美养狗的故事,告诉你什么是强化学习,以及强化学习与监督学习、无监督学习的区别。
什么是强化学习
小美家里新养了一只宠物小狗狗,但是初来乍到的狗狗并不懂家里的规矩,于是,小美想要给它训训家规。
此处,我们请把小狗狗看作机器主体,“它不懂家里规矩”对应强化学习中的“数据无标签,机器在没有尝试前不知道什么是对什么是错。”
第一天,狗狗在家里乱尿尿了,小美打了它,并且罚它半天不能吃狗粮。下午,狗狗去厕所尿尿,小美摸了摸它,并且奖励了狗狗好吃的。不断循环往复,狗狗明白了:在厕所尿尿=主人高兴+有好吃的;四处在客厅尿尿=主人不开心+会被打一顿+没有吃的。慢慢地,狗狗再也不会在家里四处乱尿尿了,变成了一只爱干净的狗狗。
上述例子中的“狗狗在家里乱尿尿了”对应着强化学习中的“行为”,只有有了行为才有行为所对应的外界的反馈,而这个反馈就是“小美打它,并且不给他吃的”。而后面的“狗狗去厕所尿尿后,小美奖励食物”对应的是强化学习的“(正)强化信号”。
狗狗(机器)在循环往复地试错后,明白了什么是对的,什么是错的,并且不断地去趋向对的行为,寻求最佳的表现结果。
强化学习与监督学习的区别
可能有人会疑问,感觉强化学习和之前咱们提过的监督学习很相似呀,都有一个“训练导师”。
是的,虽然如此,但不同的是:监督学习的数据有标签,通过“带有答案”的数据来训练(例如,你拎着狗狗,去整个屋子的四处全都走一遍,告诉它这是可以尿尿的,而那里是不可以尿尿的)。
而强化学习的数据无标签,只有尝试了,才能得到反馈(例如,在客厅尿尿了,被打了;在厕所尿尿,被表扬了,并且奖励了好吃的),从反馈中,调整之前的行为(狗狗知道了什么是会被表扬的,就会去做,知道了做什么会被打,就不做了),就这样不断地调整,机器能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果(狗狗以后都到厕所去尿尿了)。
强化学习与无监督学习的区别
可能还有人会说,数据都是无标签的,那么强化学习和无监督学习不是很像吗?
第1章 算量
本章导读
大数据
结构化数据
非结构化数据
特征工程
多源数据
网络爬虫
行为数据
元数据
数据仓库
集群系统
分布式系统
中台
数据加密
第2章 算法
本章导读
人工智能
算法
模糊计算
机器学习
监督学习
无监督学习
强化学习
人工神经网络
深度学习
集成学习算法
图像识别
人脸识别
计算机视觉
无人驾驶
开源算法平台
算法偏见
算法责任
第3章 算力
本章导读
新一代信息技术
数字新基建
5G
物联网
消费互联网
产业互联网
工业互联网
IPV6
集成电路
芯片
传感器
人机交互
下一代操作系统
智联网
AR、VR
数字孪生
第4章 新一代信息技术
本章导读
算力
DPU
AI芯片
云,云计算,云存储
公有云,私有云,混合云
边缘计算
第5章 数字化转型
本章导读
网络强国
数字中国
智慧城市
城市大脑
数字底座
数字化转型
数智化
数字政府
数字经济
数字化治理
数字民生
城市生命体征
智能制造
商业智能
数字货币