第1章 绪论
1.1概述
1.1.1公共安全事件类型
公共安全是指多数人的生命、健康和公私财产的安全。公共安全事件是指突然发生,造成或者可能造成严重社会危害,需要采取应急处置措施予以应对的自然灾害、事故灾难、公共卫生事件和社会安全事件。自然灾害主要包括水旱灾害、气象灾害、地震灾害、地质灾害、海洋灾害、生物灾害和森林草原火灾等。事故灾难主要包括工矿商贸等企业的各类安全事故、交通运输事故、公共设施和设备事故、环境污染和生态破坏事件等。公共卫生事件主要包括传染病疫情、群体性不明原因疾病、食品安全和职业危害、动物疫情,以及其他严重影响公众健康和生命安全的事件。社会安全事件主要包括恐怖袭击事件、经济安全事件和涉外突发事件等。各类突发公共安全事件按照其性质、严重程度、可控性和影响范围等因素,一般分为四级:I级(特别重大)、II级(重大)、III级(较大)和IV级(一般)。
世界范围内的公共安全事件频发,例如,2020年8月4日下午6时左右,在黎巴嫩首都贝鲁特港口区发生巨大爆炸,爆炸接连发生两次,导致多栋房屋受损,玻璃被震碎,天上升起红色烟雾。专家指出,引发这场事故的“元凶”^2750t硝酸铵,爆炸所产生的威力相当于引爆1650t烈性炸药[2,4,6-trinitrotoluene(TNT),2,4,6-三硝基甲苯],所引发的地震波相当于3.3级地震,威力巨大。起先是一股浓烟向天上弥漫,随后浓烟当中出现零星的爆炸火光,大约5s后,巨大的火龙冲天而起,夹杂着小型爆炸的冲击波在Is内席卷了视线内可见的建筑物。外围的白色烟尘率先向外扩散,火红色的蘑菇云紧随其后。爆炸导致贝鲁特多个街区严重受损,到处可见破损的建筑物和散落的玻璃碎片。图1.1为黎巴嫩首都贝鲁特港口区发生爆炸前后照片。
2010年11月22日是柬埔寨传统节日“送水节”的最后一天。清早,在刚开张的商业区钻石岛上,人们张灯结彩,准备着盛大的音乐会,全国各地约300万人涌进了首都金边,但没人想到会以惨剧结束,踩踏事件造成399人死亡、735人受伤。
1.1.2公共安全事件研究意义
公共安全事件的发生往往相对复杂,它是在众多因素的推动下逐渐演化发生的,各因素之间相互影响、关系复杂,并且其在时间上表现出一定的突发性,前阶段表现出较强的“潜伏性”,这也在一定程度上为开展公共安全事件的预测增加了难度。因此,为了有效应对突发性的公共安全事件,及时制订应急预警预案,对公共安全事件的发生机制及时空演化特征需要提前做到深入了解。
对突发事件中的个体行为和群体事件进行理解、建模和演化预测一直是全球关注的热点和难点。美国是第一个将数据用于紧急预防研究的国家。1931年,美国著名安全工程师海因里希(Heinrich)在他的《一个科学的方法》一书中,通过分析55万起公共安全事件的概率,提出了著名的“海因里希法则”(游鹏飞等,2008)。这是第一个使用大数据样本统计分析安全事件发生并实施隐患预测的用例。美国国家科学基金于2005年开始资助“人类与社会动态(human and social dynamics)”项目,该项目致力于利用计算技术理解人类及社会行为变化(胡潇,2016)。马里兰大学利用中东地区118个极端组织的历史行为数据(包括各种暴力袭击行为)及相关社会文化背景因素和机器学习方法,对中东的恐怖行为进行预测分析(李希若,2016)。目前,国内外研究人员釆用空间数据挖掘、神经网络、模糊聚类等方法对犯罪热点时空的分布模式、成因、时空转移及预测等方面进行研究,并取得了良好的研究效果。
随着科学技术的发展,利用大数据和人工智能进行突发公共安全事件的预测正在变成现实。例如,谷歌(Google)公司通过分析搜索指令准确地预测了2009年甲型H1N1流感的爆发,比美国疾病控制与预防中心(Centers for Disease Control and Prevention,CDC)依靠传统方法的预测提前了两周。美国政府在国家安全战略中引入大数据技术,对恐怖主义活动、黑客攻击、公共卫生事件、舆情危机等进行监测和预警。美国在“941”事件后建立的禁飞系统,能够预测搭乘飞机的旅客是否有发动恐怖袭击的可能性。在洛杉矶,大数据系统每天会提供给警员一幅犯罪热点地图。但受限于事物本身的复杂性和不确定性及认知模型的限制,目前大数据分析出错的事例屡见不鲜,美国禁飞系统从2003~2006年至少发生过5000次将无辜者识别为恐怖分子,因此大数据在公共安全方面真正要实现预测预警任道重远。
国内方面,我国通过金盾工程、公安大数据分析、高分公安遥感应用等各自取得了相当大的成果,但总体上使用大数据技术还处于探索阶段,真正发挥大数据强大功能的实际应用案例还不多;数据孤岛问题突出,大数据预测技术亟待提高,通过空天地一体化,利用新型机器学习方法,变被动处置为主动预测是未来的发展趋势。在大数据时代,由于个体的各种行为都可以被数据化,通过大数据技术分析突发公共安全事件中个体行为模式构筑了突发事件管理的基础,通过分析大量个体的言论和行为从而预测群体性事件发生的可能性。在大数据环境下,利用新一代人工智能技术(深度学习、强化学习、迁移学习等)研究智能化的突发公共安全事件的个体行为和群体理解与预测是公共安全领域必须解决的问题之一。
1.2国内外研究现状与发展趋势
1.2.1国内外研究现状
1.公共安全事件表达与识别
公共安全事件表达与识别是事件表达的一部分。事件是客观世界的活动,是指在某个特定的时间和环境下发生的,由若干角色参与,表现出若干动作特征的事情。如何将公共安全事件特征进行抽取、理解和存储,使其表达成计算机可以接受的用于描述知识的数据结构,一直是人工智能领域中知识表示的研究方向和热点。知识表示研究客观世界知识的建模,以方便机器识别和理解,既要考虑知识的表示与存储,又要考虑知识的使用和计算(焦李成等,2016)。
知识的表征可分为符号主义和联结主义。符号主义的基础是纽威尔(Newell)和西蒙(Simon)提出的物理符号系统假说,他们认为人类认知和思维的基本单位是符号,认知过程是对符号表征的操作。联结主义认为,人类的认知是由具有一定活动价值的相互连接的神经单元组成的网络的整体活动。知识信息并不存在于某个特定点,而是存在于神经网络的连接或权重中(苏丽等,2022)。
总的来说,公共安全事件知识表示的方法可以概括为基于符号逻辑的知识表示、面向互联网的知识表示和基于知识图谱的知识表示等。
1)基于符号逻辑的知识表示
基于符号逻辑进行知识表示和推理,主要包括谓词逻辑表示法(如一阶逻辑、描述逻辑)、产生式表示法和框架表示法等。
(1)谓词逻辑表示法。谓词逻辑表示法建立在形式逻辑的基础上,它是指各种基于形式逻辑(ormalogic)的知识表示方式,用逻辑公式描述对象、性质、状况和关系。使用谓词逻辑法表示知识,将以自然语言描述的知识通过引入谓词、函数来加以形式描述,得到有关的逻辑公式,而以机器内部代码表示。在谓词逻辑表示法下可采用归结法或其他方法进行准确的推理。谓词逻辑表示法的优点包括两个方面。①对如何由简单说明构造复杂事物的方法有明确、统一的规定,且有效地分离了知识和处理知识的程序,结构清晰。②一阶谓词逻辑具有完备的逻辑推理算法;逻辑推理可以保证知识库中新旧知识在逻辑上的一致性和演绎所得结论的正确性;逻辑推理作为一种形式推理方法,不依赖于任何具体领域,具有较大的通用性。同时,谓词逻辑表示法具有三个方面的缺点:①难于表示过程和启发式知识;②由于是弱证明过程,当事实的数目增大时,证明过程中可能产生组合爆炸;③表示的内容与推理过程的分离,推理按形式逻辑进行,内容所包含的大量信息被抛弃,这样使得处理过程加长、工作效率低。
(2)产生式表示法(焦李成等,2016)。产生式表示法是常用的知识表示方式之一,它是依据人类大脑记忆模式中各种知识之间大量存在的因果关系,以“IF-THEN”的形式、产生式规则表示出来。这种形式的规则捕获了人类求解问题的行为特征,通过认识-行动的循环过程求解问题。产生式表示法具有非常明显的优点。①自然性好。产生式表示法用“IF-THEN”的形式表示知识,这种表示形式与人类的判断性知识基本一致,直观,自然,便于推理。②把对求解问题有意义的各种启发式知识引入系统。③表示的格式固定,形式单一,规则间相互独立,整个过程只是前件匹配,后件动作,匹配一般无递归,没有复杂的计算。④由于规则库中的知识具有相同的格式,规则可以被统一处理。⑤模块性好,产生式规则是规则中最基本的知识单元,各规则之间只能通过全局数据库发生联系,不能互相调用,增加了规则的模块性,有利于对知识的增加、删除和修改。⑥既可以表示确定的知识单元,又可以表示不确定的知识单元;既有利于表示启发式知识,又可方便地表示过程性知识;既可以表示领域知识,又可以表示元知识。但是,产生式表示法也存在缺点:①推理效率低下,由于规则库中的知识都有统一格式,并且规则之间的联系必须以全局数据库为媒介,推理过程是一种反复进行的“匹配一冲突消除一执行”的过程,而且随着规则数量的增加,效率低的缺点会越来越突出,甚至会出现组合爆炸问题;②数据库中存放的是一条条相互独立的规则,相互之间的关系很难通过直观的方式查看;③灵活性差,产生式表示的知识有一定的格式,规则之间不能直接调用,因此较难表示那些具有结构关系或层次关系的知识,也不能提供灵活的解释。
(3)框架表示法。框架表示法的最大特点是有利于表达结构性知识,能够表达知识的内部结构关系和知识之间的特殊关系,能够将某个实体或集合的相关特征集合在一起。框架表示法具有的优点:①框架结构表达能力强,层次结构丰富,提供了一种高效的知识组织方式,只要对某些细节进行更详细的描述,就可以扩展到其他框架;②过去获得的知识可以用来预测未来。框架表示法存在的不足:①缺乏形式化理论,没有明确的推理机制来保证问题解决的可行性和推理过程的严谨性;②由于很多实际情况和原型差异较大,该方法适应性不强;③如果框架系统各个子帧的数据结构不一致,会影响整个系统的清晰度,造成推理困难。
总的来说,基于符号逻辑的知识表示技术虽然可以很好地描述逻辑推理,但是机器生成推理规则的能力很弱,往往需要大量的人力,而且传统方法对数据的质量要求较高。因此,在大数据时代,基于符号逻辑的方法已经不能很好地解决知识表示的问题。
2)面向互联网的知识表示
随着互联网的发展,Bemers-Lee等(2008)提出了基于语义网的知识表示的想法。在语义网中,网络内容具有精确的含义,可以很容易地被计算机理解、获取和整合。互联网信息的描述主要包括基于可扩展标记语言(extensiblemarkuplanguage,XML)标签的半结构化标记语言、资源描述框架(resource description framework,RDF)、基于描述逻辑的Web本体语言(Web notology language based on description logic)等。可扩展标记语言通过标记内容促进数据交换;资源描述框架通过三元组(主语、谓语和宾语)来描述互联网资源之间的语义关系;基于描述逻辑的Web本体语言建立在资源描述框架之上,是一种表达和解释能力更强的语言。这些技术可以在万维网上表示机器理解和处理的语义信息,目前工业上大规模应用的是基于资源描述框架三元组的表示方法。在面向互联网的知识表示中,语义网络和基于本体的知识表示是重要的基础。
(1)语义网络知识表示法。语义网络知识表示法是一种坚实而灵活的知识表示方法。语义网络使用由节点和标记边组成的有向图来描述事件、概念、条件、动作和对象之间的关系。标记的有向图可以很自然地描述对象之间的关系。语义网络具有的优点:①以清晰简洁的方式表达节点之间的联系,是一种直观的知识表示方法