★中科院陆汝钤院士作序推荐。
★《机器学习》作者周志华教授、中科院王飞跃教授、复旦大学严锋教授联合推荐。
★从开脑到烧脑的科普:有诗、有歌、有画、有乡愁,不乏幽默的人工智能科普。
★霍金说过,科普书每多一个数学公式,书的销量将减少一半。
★这本书没公式。
智能是什么?二十一世纪以来,人工智能有了飞速发展,在各行各业如互联网、安防、多媒体等都有了广泛且有效的应用。但这是否意味着人类就能制造超出人类自身的智能体呢?作者在科普性地介绍了人工智能前沿进展的同时,着重从犯错的角度,浅显易懂地剖析了智能体在视、听、语言等方面存在的各种错觉和犯错。并指出,理解我们很少关注的犯错,才有利于智能体的研究和发展。
书中从分析生物人的感知功能谈起,以生动的例子介绍了人的视觉、听觉、触觉和体觉的解剖学知识及其基本原理。之后又进入人的感情世界,从人的情感、回忆、梦境,一直谈到灵感和错觉。在这个过程中,作者又适时讨论计算机在处理人的感知世界时会遇到的麻烦及处理原则,还不忘介绍一下讨论对象的数学背景。高斯、黎曼、莱布尼茨、庞加莱、爱因斯坦、图灵等大师级人物的名字频频出现。作者不费力地游弋于生命、计算机、数学、物理等几大学科之间,让读者经历一次目不暇接的跨学科科学旅游。再加上一个个有趣的故事,还有诗,画,歌,甚至还有乡愁!这样的科普,很新鲜、很解惑,又易于接受。
看不见的萨摩耶
“我家附近曾经有只白色的萨摩耶,大约 12 岁,挺安静温顺的,基本不怎么吠叫。听说主人身体不好,行动不便,于是就放任其在外乱逛。它虽然个头不小,马路什么都过得好好的,就这么自顾自地生活着。可某天它过人行横道的时候,一辆左转的车辆速度和它过马路的速度一致,导致它进入了驾驶员的 A 柱盲区。等萨摩耶反应过来时,车已经对着它冲了过来,左前轮压了一次,左后轮又压了一次……它躺在车后,无助地颤抖着、哀号着。两旁的行人默默地看着它。车主坐在车里,没开窗没下车,不知道是何反应。过了一会儿,狗用力翻身站了起来,摇摇晃晃走起来了,准备回家。观望的行人们都松了一口气,有人笑了,说狗没事了。车主见状,赶紧一溜烟开车跑了。可是,狗走了不到 200 米,便慢了下来,实在是走不动了,满嘴的鲜血。于是,它便安静地躺在人行道上,还像平日逛街一样,一声不吭……希望它下辈子,不要走得这么凄惨。”
作为智能体,人的视觉和机器视觉是存在区别的。其中一个非常特别的区别是,人会根据情况或上下文有意无意地忽略眼中看到的目标。
1999 年两位权威心理学专家克里斯托弗·F. 查布里斯(Christopher F.Chabris)和丹尼尔·J. 西蒙斯(Daniel J. Simons)曾做过一次“看不见的大猩猩”的实验 a。因为这个传说中心理学史上最强大的“大猩猩实验”,两人荣获了 2004 年的“搞笑诺贝尔奖”。在播放的视频中,有几个人一起打篮球,在投篮的过程中还会有一只人扮演的大猩猩从右向左走过,并在视频的中间位置稍作停留。而测试者观看视频时,给他们分配的任务是统计打篮球的人投篮命中的次数。当视频播放完,测试者报告的进球数基本都是准确的。可是,当问他们,有没有注意到视频中有只人扮的大猩猩从视频中走过时,却有不少人没能回想起来。类似的实验,英国赫特神德大学的心理学怪才、理查德·威斯曼(Richard Wiseman)教授也做过,叫变色纸牌游戏(The colour changing card trick)b。他和一位女助手一起在摄像机前表演玩牌的魔术。表演的过程中,身上的衣服、背景、桌布都被换掉了。但由于有多台摄像机的切换,人的关注焦点一直被诱导,结果观测者只注意了两位“魔术师”手中扑克牌的变化,而压根没发现视频中换掉的物品。
如果利用人工智能算法来跟踪并区分变化的目标,会很轻松发现其中的区别。因为计算机在检测目标时,会计算像素位置上的光的强度变化。所以,当视频中出现大猩猩,或者变换桌布、背景、衣服时,都意味着视频中帧与帧之间出现了大面积像素的强度变化。这种变化,很容易超过图像变化程度的阈值,导致被人工智能算法检测和发现。值得指出的是,检
测这类变化也是现在做视频摘要、视频关键内容提取的基本手段之一。
反观人类,却容易出现忽略目标的情况。其原因在于,当人关注某个目标时,目标将成像于视网膜的焦点即中央凹区域,而目标周围的内容则分布在中央凹的周边,由视杆细胞来负责感知。而视杆细胞主要负责运动,对具体细节不敏感。所以,在这一前提下,大猩猩就被大脑视觉中枢视为没有多大意义的像素点运动,甚至被篮球的运动所掩盖。换衣服、桌布等也是类似的原因。
除此以外,也许是因为人类其实是一种能偷懒就会偷懒的智能体。如果能够在不经过缜密思维就能保证大部分判断成功的话,人类会倾向于优先采用更简易的判断,而不是进行过多的细致分析。就像平时走路一样,我们也没有像机器人一样去区分路面的高低差异、纹理差异、光强差异,但却能非常有效和快速地形成决策。即使存在例外,那也是极个别的情况。
这种现象,在日常生活中,则有可能带来潜在的危险。比如交通中,在一个平时很少有行人经过而车辆较多的十字路口,驾驶员的关注焦点往往是行驶的汽车,其目的以避让汽车为主。在成年人经常走过的人行横道附近,则驾驶员的关注视角会以成人为主。第一个例子可能导致的危险是,如果某天突然出现非机动车或行人时,司机会注意不到,不容易形成应急反应;第二种情况则可能会导致对矮小目标(如儿童)的忽视。
这种危险能避免吗?有心理学家指出,如果关注的焦点不变,这样的定式或习惯性思维会一直存在,且很难避免。结果,当驾驶员发现危险来临时,已经缺乏足够的反应时间,极易发生交通事故,造成不必要的人员伤亡 [9]。
那如何解决呢?最简单的办法就是,驾驶员在经常经过的路口不要形成定式思维。但凡碰到这类路线时,不妨想想,这里可能有条看不见的萨摩耶;不妨多变化下关注的视野,如左右晃下头,避开 A、B 柱盲区和看不见的“盲区”,最大程度地避免这类事故的发生。
看不见的盲点
人的视觉不仅有视而不见的特点,也有弥补先天不足的能力。我们的视神经感受周围环境后,还需要将信号送到大脑。送的方式挺聪明,大脑将输送信号的视神经像头发一样扎成左边一股,右边一股,在每个眼球视网膜中央凹偏外约 20°处集中起来,向大脑输送信号。
遗憾的是,视网膜这个位置上就没法生长感光细胞,于是形成了生理性盲点,如图 3.1 所示。
要检测盲点的具体位置,不妨试试图 3.2 这个经典的盲点测试图。首先,捂住左眼,用右眼盯着图上的圆点,将图片逐渐拉远或拉近,会发现在某个位置时十字会消失。这个位置,就对应于你的右眼盲点。类似的,捂住右眼,用左眼盯着右边的十字形,移动图片远近,会发现圆点在某个位置消失了。它对应于左眼的盲点位置。
虽然有盲点,所幸人是双目视觉,所以两只眼睛的盲区会通过双目视觉来相互弥补。结果,日常生活中,人就感觉不到盲点的存在。不过,如果单眼存在眼疾,如患上白内障,那盲点的影响就比较大了,毕竟有个位置的信息是缺失的,这就需要通过多调整视角来消解这个困扰。
看不见的笔——单眼与复眼
除了盲点外,还有种情况,人也会对目标视而不见。各位不妨试着拿起一支笔,竖直放在左眼前面。一开始,你会感受到笔对视野造成的遮挡。再将眼睛盯着远处某目标,将笔缓慢远离眼睛,你将会发现这支笔并没有对你观察远处的景象形成任何障碍,笔似乎凭空消失了。显然,这并非是生理性盲点造成的。它和人的视网膜结构有关,可以从单眼与复眼的关系来解释。
众所周知,人有两只眼睛,而昆虫如蜻蜓、苍蝇的眼睛则是由非常多的小眼睛组成的,俗称复眼。如果是昆虫的复眼,那么笔的存在不会对想观测的目标形成遮挡,因为昆虫的整体视觉可以通过拼接每只小眼睛关注的内容来获得,少数几只眼睛的视角被遮挡不影响全局感知。可人是双目视觉,为什么也会有类似的情况呢?实际上,人的视网膜上的感光细胞数
量众多,每个细胞都分担了一部分的视觉检测。在处理笔遮挡的任务时,会通过感光细胞间的相互填充,实现类似昆虫复眼的功能。
但要注意的是,人是很难像昆虫那样演化出复眼的。因为昆虫复眼上的每只眼睛负责的视角和频率都很窄,如果要在人的头部形成如同昆虫一样具有全角度检测能力的复眼,著名物理学家费恩曼曾经做过粗略的计算,他的结论是复眼的大小会超过现在人类头部的尺寸,人的脑袋很可能承受不了眼睛的重量 [10]。
当然,除了这些情况看不见外,人过于关注某些人或事情时会对周围情形视而不见,人不关注某些人或事情时也会对其视而不见或熟视无睹。这些依赖于情感和心灵的视而不见和熟视无睹,比起单从视觉上发生的,就要复杂多了,也是人工智能目前还完全找不到北的研究方向之一。
简单视觉错觉 / 1
1 视觉倒像 / 2
2 颠倒的视界 / 7
3 看不见的萨摩耶 / 13
4 看得见的斑点狗 18
5 火星人脸的阴影 / 23
6 外国的月亮比较圆 / 32
复杂视觉错觉 / 39
7 眼中的黎曼流形与距离错觉 / 40
8 由粗到细、大范围优先的视觉 / 53
9 抽象的颜色与高层认知 / 61
10 自举的视觉与智能 / 70
11 主观时间与运动错觉 79
听觉、体感和语言 / 89
12 听觉错觉与语音、歌唱的智能分析 / 90
13 视听错觉与无限音阶中的拓扑 / 101
14 我思故我在? / 114
15 可塑与多义 / 122
梦、顿悟与情感 / 133
16 庄周梦蝶与梦境学习 / 134
17 灵光一闪与认知错觉 / 144
18 情感与回忆错觉 / 153
群体智能 / 161
19 群体的情感共鸣:AI 写歌,抓不住回忆 / 162
20 群体智能与错觉 / 169
总结 / 181
21 平衡:机器 vs 智能 / 182
附录 / 201
附录一:深度学习,你就是那位 116 岁的长寿老奶奶! / 200
附录二:童话(同化)世界的人工智能 / 205
参考文献 / 209
图片来源 / 229
国内人工智能领域一线青年专家撰写的关于视听觉感知的通俗科普作品,全书未出现数学公式。
——周志华(南京大学计算机系主任、人工智能学院院长、欧洲科学院外籍院士)
本书别出心裁,从犯错的角度解释了人工智能。展现趣味性的同时,还全面深刻地阐述了人工智能的原理、进展、不足及进一步的思考,是一本值得阅读的优秀科普著作。
——王飞跃(中国科学院自动化研究所教授,平行智能的提出者,IEEE Fellow,AAAS Fellow)
这是一位计算机教授对人类常犯的认知错误所作的生动阐释,作者从自己精通的人工智能专业出发,左手人文,右手科学,上下古今,旁征博引,对于什么是智能这一问题提供了富有启示性的思考路径。
——严锋(《新发现》主编,复旦大学中文系教授)