第1章 导论
当人工智能(artificial intelligence,AI)作为一个研究问题被正式提出来的时候,创始人约翰?麦卡锡(John McCarthy,Lisp语言发明者、图灵奖得主)于1956年夏天在美国汉诺斯小镇达特茅斯学院提出把计算机国际象棋和机器翻译作为两项标志性的任务,认为只要计算机国际象棋系统能够打败人类世界冠军,机器翻译系统达到人类翻译水平,就可以宣告人工智能的胜利。1997年,IBM公司的超级计算机“深蓝”(Deep Blue)已经能够打败当时的国际象棋世界冠军加里?卡斯帕罗夫(Garry Kasparov),而机器翻译水平到现在仍无法与人类翻译水平相比。制约机器翻译研究的主要是语言计算,机器翻译属于语言计算研究领域,而语言计算研究中还有很多问题尚未解决。只有语言计算取得突破性进展,才能促进机器翻译研究大步向前。
为了让读者有一个更明晰的概念,这里先介绍一下学术领域的大致研究方向,首先是人工智能包含的研究领域。清华大学与中国人工智能学会联合发布了《2019中国人工智能发展报告》,报告遴选了人工智能的重点领域:自然语言处理、机器学习、知识工程、计算机视觉、语音识别、计算机图形学、多媒体技术、人机交互、机器人、数据库技术、可视化、数据挖掘、信息检索与推荐等。这里明确了人工智能领域包括自然语言处理,也就是语言计算,但是数据挖掘、机器学习与自然语言处理之间存在着交集,有很深的联系,同时知识工程、信息检索与推荐属于自然语言处理的一部分,而手语计算则是自然语言处理的一个分支学科。
其实这里还有一个公众熟知的研究领域,即信息处理。那么信息处理又包含哪些研究方向呢?信息处理包含语言计算、机器翻译、语音识别等等。
信息,作为宇宙中*基本的存在之一,虽然无形,却无时无刻不存在着。信息也是人类文明赖以发展的基础。在人类的漫漫历史长河中,得信息者得天下。其实我们的祖先很早就开始使用和传播信息了。语言和数学的产生都是为了同一个目的—记录和传播信息。
语言、文字都是信息的载体,它们之间原本有着天然的联系。人类社会文明的发展过程包含了语言阶段、文字阶段、印刷阶段和数字阶段,在这四个阶段中,语言和文字就占了两个,这说明了语言和文字的重要性。语言是思想的直接反映,是人类思维的载体,对语言进行信息处理是人工智能时代的需要。因此,攻克语言计算中的难题是人类社会发展、走向科学进步必须跨越的障碍。
实际上现代社会的人类几乎每天都在与互联网接触,或多或少地都在使用和享受语言计算的成果。比如我们肚子饿了,可以随时网上叫餐;想去其他地方,可以随时叫辆出租车;想买什么,可以随时网上购物;只要手机上绑定家用电器的信息,在外面点一下操作指令就可以将信息传递给电器。但凡我们有信息需求,就可以随时打开手机或电脑寻找解决办法。人工智能时代的语言计算正在改变我们的生活。
语言计算就是研究计算机如何完整地翻译和传达语言信息。简单来说即是计算机接受用户自然语言形式的输入,并在内部运用人类所定义的算法进行加工、计算等系列操作,以模拟人类对自然语言的理解,并返回用户所期望的结果。正如机械解放人类的双手一样,语言计算的目的在于用计算机代替人工来处理大规模的自然语言信息,它是从大数据里获取知识的重要手段,也是帮助人类研究获取的大数据里的信息的重要手段。
语言是外部对象的符号,传达的是信息,文字是信息的编码。只有语言计算才有可能促进信息的流动,促进历史的传承。人工智能时代作为数字化的新阶段,是人类走向文明的第四个里程碑。语言计算是人工智能、计算机科学、信息工程的交叉领域,涉及统计学、语言学等知识。正因为语言是人类思维的证明,故语言计算是人工智能的*高境界,被誉为“人工智能皇冠上的明珠”。
1.1 什么是手语计算?
“语言计算”这一术语*早由孙茂松先生于2005年提出,随后开始有很多的文献采纳这一术语,但均未给出清晰的定义。俞士汶等(2015)认为语言计算与自然语言处理没有实质性区别 ,认为语言计算包括词法分析、句法分析和语义计算,并不包括语音处理,即不包括语音识别和语音合成。
本书借鉴语言计算的说法,将以手语为研究对象的自然语言处理称为手语计算,并将其与包括手语识别与手语合成在内的手语图像处理区分开来。正如语音识别与合成不属于语言计算的范畴,但它需要利用有声语言的计算理论一样,手语识别与合成也不属于手语计算的范畴,但手语识别与合成需要利用手语计算的知识,具体研究类别阐述如下。
手语识别、手语合成并不是单纯的手语动作识别、手语动作合成。手语识别包括手势动作识别和手势意义识别,其中手势动作识别属于计算机图形学领域,而手势意义识别属于自然语言处理领域。手语合成是计算机根据输入文本的语义(属于自然语言处理领域),合成出手语动作的连续图片或者动画(属于计算机图形学领域),即研究如何计算动画参数使动画虚拟人表达的动作与输入文本在语义上保持一致。手语合成还有一类方向,即研究增强动画虚拟人模型的视觉形象真实感,此方向与手语计算无关,所以不在本书讨论之列。
由此可以看出,手语识别或合成需要用到手语计算的知识,是手势动作识别、合成与手势意义识别、理解的综合,是一种人类操作计算机进行识别、理解、合成手语的方法。因此我们将手语动作识别、合成从手语识别、合成中分离出来,限定手语动作识别、合成均没有语言的成分,属于计算机图形学的范畴,将“手语计算”归属于自然语言处理的范畴,是对手势意义的识别和理解。为了更好地说明情况,本书为这一领域勾勒出一个相对全面的框架,见表1.1,不过表1.1中的各个研究对象虽然是属于不同的子领域,但有时候会发生相互作用,因而不同领域之间的边界并不是绝对分明的,可能会有交融。
表1.1 根据语言类别和符号性质的差异对语言计算的对象进行分类
根据以上分析,我们可以给出手语计算的定义:手语计算(sign language computing)或计算手语学(computational linguistics of sign language)是用计算机研究和处理手语的一门新兴边缘学科,涉及语言学、计算机科学、数学等多个领域,旨在通过建立形式化的数学模型来分析处理手语,并在计算机上用程序来实现分析和处理的过程,从而使机器能够模拟人脑部分乃至全部的语言能力。
手语和有声语言都属于人类的自然语言,是随着人类社会的发展自然而然地演变而来的,不是人造的语言,它是人类学习生活的重要工具。概括说来,自然语言是指由人类社会约定俗成的、区别于如程序设计的语言的人工语言。在整个人类历史上,以语言文字形式记载和流传的知识占到知识总量的80%以上;就计算机应用而言,用于数学计算的仅占10%,用于过程控制的占不到5%,其余85%左右都是用于语言文字的信息处理。
认知心理学研究表明,人类运用自然语言进行交流取得的效果中,纯语言仅占7%,语气和语调占38%,而面部表情和肢体动作却占了55%,如图1.1,其中纯语言就是目前的有声语言计算研究内容,语气和语调涉及情感的加工计算,面部表情和肢体动作涉及手语和行为语言的加工计算。广义上的手语计算除了研究听障群体广泛使用的自然手语外,还研究健听群体广泛使用的占整个语言效果55%的行为语言。
图1.1 自然语言交流效果比例
手语计算作为自然语言处理的一项重要研究内容,实际上被运用于我们生活的方方面面,特别是随着人工智能时代的来临,手语计算的作用更加明显。以下众多学科都需要手语计算的参与。
(1)人机交互:随着计算机在现代生活中的日益普及,以键盘和鼠标为基础的传统人机交互方式日益凸显出弊端,多模态自然人机交互是下一代人机交互的发展趋势,因为融合视觉、听觉等多模态交互方式比单模式能传达更多的信息,表达效率更高。多模态人机交互的研究内容包括语音识别、手势识别、人脸识别、唇读识别、肢体动作识别,后面四个识别都是手语识别和手语计算的研究内容。只有解决手语计算的问题,未来的人机交互模式才有可能是自由的、智能的、自然的。
(2)信息无障碍:信息无障碍是指任何人在任何情况下都能平等、方便、无障碍地获取信息、利用信息。2003年在瑞士日内瓦召开的联合国大会信息社会世界峰会论坛上提出的《日内瓦行动计划》将“信息无障碍”放在了国家通信战略、信息通信技术设备和服务内容的重要位置;目前发达国家均已进入信息无障碍社会,建立了完整成熟的信息无障碍法规和技术体系,使得很多失能患者、老年人能够在身体残疾的情况下或退休后继续工作,并通过互联网继续为社会创造价值,减少对国家和社会的依赖。当前中国正在向信息无障碍社会过渡,要为聋人无障碍地提供信息,就不得不依靠手语计算的支持。
(3)虚拟现实:手语计算可应用于虚拟现实中可视化、分析、训练或体验的实践方面。网络化虚拟环境、虚拟社区和虚拟会议的构想中,都需要有替代真人的动画虚拟人按照真人的行为和方式进行活动。在各种真实感强的3D游戏场景中加入逼真的动画虚拟人模型,将在使整个游戏成为真正的3D游戏的同时增加用户的沉浸感。在各种娱乐项目中,如果有一个智能虚拟人和用户交流的话,用户将感到更加真实和亲切。
(4)运动分析:对运动员或残障人士的运动进行跟踪,并在事后进行重现分析,可以让他们的动作更加完美或更加标准。常用的方法是用摄像机获取他们的运动图像,并根据这些运动图像中的二维信息重构他们的3D运动数据,根据这些数据来分析他们的姿态、运动速度、加速度、所受力矩和力,这时就需要用手语计算来分析和生成相关信息,目前也可以采用运动跟踪设备直接获取真人运动的3D数据,然后应用手语计算对这些数据进行分析和重用。
(5)仿真研究:由于动画虚拟人可以逼真地模拟人在各种环境下的反应和动作,因此被广泛地应用于仿真研究与运动分析中。比如工作空间评估,在设计新的工作环境(如太空飞船或太空舱)时,设计师们或人机功效分析师常常需要先研究、评估、分析并审视人在其中的操作性能,以及评估设计是否合理,以在真正建造该环境之前,及早发现设计上的缺陷,及时修改。应用手语计算理论,将手语动作识别与理解加入动画虚拟人的工作环境中,并通过虚拟的交互,进行动态测试,可以评估测试设计方案的合理性与设计环境的舒适性。
(6)机器人:自2009年由国家高技术研究发展计划(863计划)支持的助老/助残机器人项目实施以来,助老/助残机器人与智能辅助系统的研究和推广显著地提高了残障人士和老年人的生活质量,并促成了相关的机器人产业的发展。然而现有的助老/助残机器人相关技术研究仍然存在很多不足,比较典型的缺点就是助残机器人在智能认知与感知等关键技术上达不到智能化要求,因此没法提供精准化服务。随着“工业4.0”理念的深入及《中国制造2025》和《国家中长期科学和技术发展规划纲要(2006—2020年)》将智能服务机器人列入重点发展的核心技术之一,让机器人具备智能已成为趋势,使机器人的感知和认知能力更接近于人脑将会成为未来研发的目标,其中手势感知和手语计算是其关键的支撑技术。
(7)人机融合:当前谷歌围棋人工智能AlphaGo战胜了人类,代表了人工智能走向新的阶段,人工智能也逐渐地从概念向实际应用转化。目前脑机接口技术已帮助人类掌控人造耳蜗、人工心脏、假肢等技术,且为大脑受损患者植入人造芯片可以助其恢复记忆,有利于中风等脑部疾病的治疗。在不远的将来,机器将成为人的身体的一部分,以手语计算为代表的科技进步将会把人机关系推进到人机融合的新阶段。
(8)其他应用:手语计算还在其他方面有广泛的应用,如在网络通信中,运用手语多信道编码理论来实现动画虚拟人合成技术可以减少网络传输的带宽,实现实时传输;在远程教育方面,除了可以实时传输学习内容外,利用虚拟教师还将提高儿童的学习兴趣;在文化传承、安全防护、智能家居、医疗教育等方面,手语计算都有广泛的应用前景。
1.2
展开