第1章 绪论
本章对城市画像研究的演进路径进行深入分析,在充分调研社会化标签研究进展的基础上,指出当前以标签资源为载体的城市画像研究中存在的一系列问题,提出基于标签语义挖掘的城市画像研究方法,并对研究内容、技术路线及创新之处进行阐述。
1.1 社会标注视域下的城市画像研究背景与价值
本书系国家自然科学基金重大课题“国家安全大数据综合信息集成与分析方法”(71790612)、国家自然科学基金青年项目“基于标签语义挖掘的城市画像计算与应用模型研究”(71804055)成果之一。一方面,构建基于标签语义挖掘的城市画像计算模型,有助于拓展标签在公众认知发掘中的有效利用场景及理论方法;另一方面,面向城市治理的典型场景,设计基于城市画像的多维分析算法,有助于推动城市画像衍生性应用的创设。所以,研究基于标签语义挖掘的城市画像具有重要的理论意义和实践价值。
1.1.1 研究背景
当前许多智慧城市建设项目主要关注城市基础设施布局,着力通过新一代信息技术来提升城市硬件的智能化程度,但随着智慧城市建设热度的不断上升,城市间基础设施的差距正在逐步缩小,“如何培育城市形象,改善公众印象”已成为新时期城市智慧化管理和服务的焦点议题。
随着移动网络和政务社交媒体的融合发展,面向公众的交互式服务平台越来越多,它们正逐步发展成为公众“连接政务”的重要窗口。据中国互联网络信息中心发布的第46次《中国互联网络发展状况统计报告》,截至2020年6月,我国在线政务服务用户规模达到7.73亿个,占总体网民的82.2%,微信城市服务、政务微博等政务服务平台不断扩张服务范围,上线并完善多类服务,并向县域下沉。与此同时,平台本身所集聚的标签、评论等语义资源也正呈指数级增长,这既给信息保管带来了极大的挑战,又给城市画像研究提供了大数据分析的契机。目前美国联邦机构、英国国家图书馆与档案馆、加拿大图书档案馆等都已开展政务社交媒体信息保管项目(如美国“总统奥巴马社交媒体归档”项目),呼吁从管理、司法、技术与人文等方面识别目前的挑战与构建适用的策略。标签作为政务社交媒介资源中*为轻量级的语义片段,承载着公众对城市某一特征的看法、认知、评价和情感。基于标签语义挖掘的城市画像正是基于大数据分析、机器学习、交互可视化等创新应用获取的公众对城市整体特征的群体性描述,是大多数人对城市拥有的共同心理图像,是具有社会化权重的城市印象集合。这种由公众依据自我认知形成的共同记忆,就像城市的一张名片,能够充分反映城市个性与特征,展现城市形象与内涵,对驱动新型社会治理模式的形成具有重要作用。
1.1.2 研究价值
随着数据共享技术和政务信息公开制度的发展,公众形式上可参与社会治理的途径日趋完善,但公众认知在决策分析中的有效权重还未充分展现,而如今政务社交媒介平台的发展正不断强化与提升公众认知在城市治理中的影响力。本书以此为契机,探究基于标签语义挖掘的城市画像计算模式,并围绕城市画像进行深度语义聚合和内容分析,透视公众认知的时序变化及情感倾向,发掘潜在城市关系及其社群结构。本书研究具有重要的理论价值和实践价值,寄望在理论基础、计算模型和实际应用中取得创新性成果。
1. 理论价值
构建基于标签语义挖掘的城市画像计算模型,有助于拓展标签在公众认知发掘中的有效利用场景及理论方法。城市画像是标签语义挖掘的可视结果,是表达公众认知视角下城市多维特征的结构视图。该结构视图的形成需要经历数据采集、数据整合、数据分析、数据可视化等一系列计算环节,涵盖个体认知特征智能提取与分面融合、城市画像特征计算等核心内容。城市画像计算模型可为城市网络社群发掘、公共政策有效性评估等一系列交互式服务提供数据支撑和评测尺度,同时拓展标签数据建模与挖掘方法的应用场景,形成从标签整合到特征选择,再到特征计算的分析模式。
2. 实践价值
设计基于城市画像的多维分析算法,推动城市画像衍生性应用的创设。通过城市画像计算模型可获取目标城市多个连续周期的数据画像,借此可挖掘城市画像的演化路径及诱发机理。城市画像关联到的特征标签具有情感极性,借助相关算法和领域词典可对公众认知的情感倾向进行分析,同时标签词间还存在着客观知识联系,通过语义关系及强度分析可对不同分面下的城市耦合网络进行深度语义挖掘。时序分析、情感分析、网络分析等共同形成了城市画像多维分析的计算内核,面向城市治理的典型场景,该内核可为城市画像衍生性应用的创设提供基础方法支撑,规范和推动现有城市画像应用基础研究。
1.2 城市画像研究的历史演进过程
基于标签语义挖掘的城市画像研究融合了数据科学、网络科学、计算科学等多主题领域的研究成果,以城市画像演进路径为脉络,本书从城市画像的传统社会学研究、社会化标签的多维度分析和自媒体时代的城市画像研究等主题来解析国内外研究现状及发展动态。
1.2.1 城市画像的传统社会学研究
20世纪60年代,麻省理工学院城市规划大师Lynch(1960)*次将印象(mental-image,或译为意象)的概念应用于城市画像研究,认为印象是观察者与城市之间双向作用的产物。他采用绘制认知地图的方法,详细分析了美国波士顿、泽西城和洛杉矶三地的城市画像,将城市画像的构成要素概括为五种:道路、边沿、区域、节点和标识(林奇,1990)。此后,很多学者普遍采用与之相似的问卷调查、深度访谈、意向草图等社会学调查方法,对城市画像的构成要素、区域分布及品质特征展开研究。由于印象是公众对城市特征的主观感受,生活经历、文化背景等个体差异均会对城市画像的形成产生影响,为此部分学者避开了心理学家感兴趣的个性差异问题,重点考虑公众对城市的共同画像,研究发现尽管不同个体形成的城市画像有所差异,但是相似个体形成的城市画像之间具有很多共同点,如Lee等(2010)对比分析了不同环境下本地居民和外地游客对城市画像的感知差异;白凯等(2011)探究了不同文化群体对城市色彩画像的差异,发现个体的城市色彩画像会随着周围文化情境的转变而变化,但相近文化群体间的城市色彩画像具有相似性。
自20世纪80年代末以来,学者转变了城市画像研究的视角,认为城市画像不仅包括实体的视觉感知,还包括伴随着公众活动的更为复杂的社会感知,即城市画像构成中的非实体性元素。城市画像研究从原本单纯的实体空间结构研究,发展到综合政治、经济、文化、环境等多种要素的社会研究,如Laaksonen等(2006)采用视觉拼接技术和群体焦点访谈法将城市画像划分为观察层面、评价层面和氛围层面3个层面,城市画像的构成划分为自然属性、建筑环境、文化和产业4个方面;Luque-Martínez等(2007)在深入访谈的基础上,建构了一般性的城市画像结构模型,将城市画像划分为历史、环境、社会、文化等12个与城市居民居住满意度呈强正相关关系的构成因素。
综上分析可知,城市画像的传统社会学研究与“城市印象”内涵的变化存在着紧密的联系:*初城市印象限定并强调了城市观察者的所见事物,只关注构筑城市的实体环境,忽略了公众对城市的非物质认知;后期城市印象内涵延伸到了城市系统的社会属性,城市画像构建与分析方法也由实体层面的认知分析拓展到心理层面的认知分析。
1.2.2 社会化标签的多维度分析
作为适应Web 2.0环境下的一种网络分析方法,社会网络分析不仅关注单个实体的个体特征,更关注实体之间构成的社会关系的属性、结构及其潜在特征。大量学者从社会化网络的结构与功能入手,开展了网络结构的计量分析和动态演化分析,试图发现社会网络结构中的关键节点和具有相似特征的节点集合,从而为个性化网络服务提供路径。在众多研究中,有关标签的研究尤其突出,而且不同领域学者的研究视角存在着一定差异,主要分为:①采用自然语言处理(natural language processing,NLP)技术和方法处理标签问题。标签是大众分类法的产物,受控程度较低,层级结构未被清晰揭示,用户使用标签进行话题标记,规范化程度不高,因而会出现异词同义、一词多义、上下文语境等自然语言处理问题,这些问题对标签组织、标签网络分析、标签应用分析的效果都造成了较大影响,因此计算机领域研究者类比半结构化文本处理方式,对标签集合进行了清洗去重(张恒婷,2012)、可信度评估(王贤兵,2012)、层级关系构建(刘苏祺等,2016)、情感分析(李纲等,2014;宋灵超和黄崑,2016)、聚类及分类(于海鹏和翟红生,2014;杨尊琦和赵瑾珺,2014)等研究工作。②采用网络科学方法进行标签分析。网络科学改变了基于数据库、关联规则的标签分析策略,试图通过社会网络和复杂网络的分析指标、模型、算法等来发掘在线社交网络的热点话题、热点人物及网络结构。在线社交网络可理解成以多维语义元素为节点,不同语义元素相互关联形成的元网络(叶光辉和李纲,2015),在此概念模型基础之上,鉴于标签、话题、用户间的多重性关系,通过主题发掘(Chen et al.,2014)、社团发现(W. Pan et al.,2013)、链路预测(Chelmis and Prasanna,2013)、协同过滤(Naseri et al.,2013)等方法深化揭示出节点的网络特征、整体或局部网络特征,进而为用户兴趣建模(易明等,2011;Tu and Wang,2014)、内容推荐(易明等,2010)、知识发现与推送(易明等,2014;Ma et al.,2017)等应用的实现提供参考路径。③采用传播学、心理学理论与方法进行标签分析。在线社交网络为用户提供了交流的信息空间,用户因话题而聚集在一起,而话题是社会化舆情产生、发酵、传播的重要载体。为加强舆情监控,实现对网络舆情信息流的截断和引导,传播学和心理学领域对标签传播(蔡国永等,2013)、信息扩散(李栋,2014)、舆情分析(宋莉,2016)、行为分析与挖掘(查先进和吕彬,2010)、基于标签的用户人格预测(郑惠中和左万利,2016)等主题开展了深入研究。④采用文献学理论与方法进行标签分布分析。社交媒介的发展正改变着传统科学文献交流的范式,为揭示科学文献交流过程的重要经验法则是否适用于标签分布分析,相关研究开展了一系列验证分析和应用分析。验证分析主要说明传统经验法则在网络环境的适用性;在验证分析基础之上,应用分析主要说明上述定律在资源发现等实际应用中的关键作用(Faba-Pérez and Cordero-González,2015;Faba-Pérez et al.,2003;徐俊和王晓芳,2010;李纲等,2015)。
综上分析可知,社会化标签研究是多学科交叉融合的主题领域,各学科研究边界相对模糊,且研究之间相互支撑,共同构成了标签研究的全貌。本书显然更关注第一、二部分研究进展,但目前这部分研究更偏向于标签网络宏观结构的揭示,将虚拟标签与现实问题相结合的研究明显不足,对标签网络增长态势与语义挖掘模式的研究仍需完善。结合上述现状分析,本书将以描述公众印象的社会化标签为计算资源,探索城市画像计算与应用模型。
1.2.3 自媒体时代的城市画像研究
随着移动设备和社交网络的普及,公众可随时随地在社交网络中发表自身对某座城市的真实感受,这些都为城市画像提供了海量的分析数据。社交网络使得人成为海量数据的分享者,而这些数据又汇聚起来以群体智慧的方式为城市发展贡献价值。通过对用户描述城市特征的文字、图片、表情、标签等行为数据的分析,可归纳出公众对某座城市整体印象的共同认知。社交媒体为过去以调查、访谈、认知地图等传统社会科学为主要研究手段的城市画像研究,提供了大数据分析的入口,典型研究如谢永俊等(2017)基于社交网络中的微博数据,运用文本挖掘和地理大数据分析方法获取城市各个热点区域的城市特征,感知不同人群在不同场所的活动态度和偏好;邓力凡和谭少华(2017)采用支持向量机的机器学习算法,将微博用户自动分类
展开