第1章 绪论
当前,信息化浪潮正席卷全球,大数据、人工智能技术与现代通信技术相结合,促使世界各国的档案工作朝着数字化、网络化、智能化方向深度发展。构建档案信息集成服务的新模式是现实发展的需要,构建档案信息集成服务的新系统是实践保障的需要。进一步整合档案社会化媒体信息资源,有利于挖掘档案信息资源和提高档案利用效率,有利于实现档案增值服务和提高档案信息服务的竞争力。
1.1 研究背景
1.1.1 互联网信息技术飞速更迭
当今世界日新月异,信息技术的更迭见证了信息社会向知识社会迈进的历史进程。
1.从Web 2.0到社会化媒体再到UGC
2005年是互联网的分水岭,2005年以前是以门户网站为代表的Web 1.0时代,信息是集中且单向流通的;2005年9月Tim O’Reilly正式阐述了Web 2.0的概念和架构 ,随后Web 2.0便席卷了整个互联网。遵循“平等、去中心化、交互”理念的社会化媒体应用平台,如网络论坛(Online Forum)、博客(Blog)、微博(Microblog)、SNS网站(Social Network Sites)等如雨后春笋般出现并渗透到大众生活中。随着视频分享网站YouTube的推出,UGC(User-Generated Content,用户生成内容)这一概念也应时而生,它强调普通用户不限任何形式(文字、图片、视频等)的原创 ,并迅速成为Web 2.0环境下社会化媒体的一种新兴网络资源创作和组织模式,这直接造就了海量非结构化数据的指数增长,成为大数据的引爆点。中国互联网络信息中心(China Internet Network Information Center,CNNIC)发布的第47次《中国互联网络发展状况统计报告》数据显示,截至2020年12月,中国网民数量达到9.89亿,手机网民规模为9.86亿,报告指出2019年社交产品不断创新,社交即时通信融入疫情防控,社交元素推动流量变现,社交平台助力社会公益,社交网络生态持续向好。此外,在社交网络的基础上,短视频、网络直播、在线购物、互联网政务等领域也快速发展,典型代表如政务新媒体,据报告统计结果显示,截至2020年12月经新浪微博平台认证的政务机构微博达到140837个,而政务微博发布的信息中不少具有归档价值,是本书关注的重点。显然,社会化媒体已成为普通民众、政商学界精英、企事业等群体生产和交流信息的重要平台。在此信息浪潮下,累积数年的海量信息价值不菲,值得深入挖掘,以档案领域社会化媒体为研究对象,探索信息资源的集成和分析等问题。
2.大数据研究的前沿
近年大数据研究热点主题演变的时序分布图如图1-1所示。分析该图谱可知2000—2005年一些早期的成果为大数据的出现奠定了基础,如遗传算法、神经网络算法、数据库、数据仓库、数据挖掘、信息分类等;2005年UGC模式兴起,社会化媒体的“泛滥”成为数据量激增的有力推手;2006年云计算的应用,使存储和处理海量数据成为可能;2008年《自然》(Nature)杂志推出了Big Data专刊,大数据开始受到业界和学术界的广泛关注;随后,研究和应用范围开始逐步拓展,涉及自然科学(天文学、医学等)、社会服务、商业应用、政治选举等;2010—2012年,针对MapReduce和Hadoop技术领域的算法改进、优化和模型构建等成为热点;2013年后,出现了一些新的研究主题,如语义网、可视化、学科教育、人才培养、信息集成、用户隐私保护、信息分析、顶层设计等。正如图1-1中所示,信息集成、信息分析、社会化媒体等是大数据研究的前沿领域,本书以立项课题为背景开展研究,探索大数据时代档案领域的社会化媒体信息的集成和分析,进而完善档案服务。
图1-1 大数据研究热点时序分布知识图谱
1.1.2 档案信息化建设蓬勃发展
20世纪70年代,国外信息管理界已提出图书、情报和档案的信息资源共享理念,在新媒体环境下图书馆和情报中心领域的发展比较快,档案界近年来受各种条件和环境的影响也有了大的进展。知识管理大师布鲁金指出,档案资源在知识管理中处于核心地位,知识管理为档案管理实现跨越式发展提供前所未有的空间。英国国家档案馆在2006年提出“领导和变革信息管理、为未来保存今天的信息、将历史引入每个人生活”的发展目标,后来又提出档案网站要充分利用新技术推动在线服务变革,核心理念是“基于信息技术的服务方法必须围绕公众设计”。美国前副总统戈尔提出的“在‘数字地球’上利用高新技术手段*大限度地利用资源”,正推进着这种资源共享的实现。美国“电子隐私信息中心”在保护个人隐私方面起着积极的作用;多国的档案馆和图书馆、情报中心正利用和制定标准规范的管理法规 ,使个人信息安全得到保证并促进隐私保护技术迅速发展。在国内,知名档案学专家冯惠玲教授指出档案信息资源的综合贡献力在社会发展进程中是其他资源不能替代的,认为只有通过整合档案资源,融入多样化商业和社会生活中,才能缩短档案工作者所追求发挥的作用和实际发挥作用之间的距离。台湾大学典藏数位化计划包括保护大自然和文化遗产,其所有者用各自的数字档案系统为特定社群服务。金更达等提出基于元数据的电子文件集成管理与服务模式,梁萍对数字档案馆集成信息服务模式做了描述 ,袁红军和倪佳认为个性化信息服务模式是档案信息服务机构向网络扩展的必然产物,张卫东等构建了一个档案个性化信息服务解决方案。周毅在阐明信息权利内在意蕴基础上探索了档案资源开放与开发的运作机制,张伟和张江珊提出要注重对个人隐私权保护和协调好技术与人关系的研究 ,吕欣和高枫分析了电子政务信息共享中面临的隐私保护问题。可见,网络环境下要求集成服务将数字化档案与其他信息资源组合成整体,并延伸更大范围,美、英等国家对网络环境下信息的集成服务研究比较成熟。
信息管理学界一直在研究如何运用高科技手段提高数字化档案与图书情报信息集成服务质量和效果,而近年来新媒体技术推动了档案信息集成服务的创新思维,由此快速推进了档案和图书情报整体信息集成服务的工程。澳大利亚国家档案馆在线网站常设“Faces of Australia”“Pic of Week”栏目。开放档案信息系统(open archival information system,OAIS)为馆际联合及联合编研工作提供技术支持,已得到国外档案界广泛的认可和应用。日本亚洲历史资料中心(Japan Center for Asian Historical Records,JACAR)是一个共享档案馆,其通过协议合作在一个检索工具上实现资源的*大限度利用;美国国家档案与文件管理署(National Archives and Records Administration,NARA)组建的档案信息导航系统能检索200多个档案馆的数字信息。数字信息机构进一步发展将用户的网络交流和情感需求作为出发点,完善用户的互动性体验,如建立图书馆、情报和档案博客、网络社区等平台,以吸引用户参与信息交互与资源共享。在国内,冯惠玲和周毅提出构建一个包括集成服务平台的“五位一体”公共信息服务体系 ,为档案界指明了实践方向。国内数字档案馆已开始重视以用户为导向的档案信息服务,金凡提出通过网络会议、问卷和日志等收集反馈信息来完善档案信息服务系统 ,福建“网上公共档案馆”、青岛档案馆“网络社区”、上海档案信息网“档案博客”栏目和天津档案馆“3D网上展厅”等,均向大众提供了广泛的档案信息服务。检索国内外相关信息资源发现,目前国际上已具备较成熟的数字化档案与图书、情报信息集成服务实现的条件,国内有许多上述分散的研究成果,也有一批有影响力的研究者及其机构。围绕我国整体上研究数字化档案与图书情报信息集成服务实现机制的环境、模式和系统及其关键问题尚不完善,在核心期刊上刊载的成果不多,实证研究存在许多空白,相关理论方法和技术的研究及对实践的指导作用有待提升。
网络信息技术的不断发展,使各级、各类档案信息机构的研究内容和工作空间持续发生变化。加快推进档案资源数字化、信息资源标准化、信息管理智能化和信息服务网络化进程,有力地促进了档案信息化建设,有力地促进了世界各国档案事业持续、快速、健康发展,进而积累和储备国家信息资源,真实保存社会记忆,实现更大范围和更多种类的档案信息资源互补与共享。随着国家档案管理部门一系列重要法规、规划纲要和战略目标的相继推出,档案信息化建设迎来了跨越式发展,物联网、云计算、大数据、移动互联网等新兴信息技术的应用不断向纵深发展。“十二五”期间,档案信息化围绕“电子文件管理”和“数字档案馆建设”在全国范围内纷纷展开。
国家档案局印发的《全国档案事业发展“十三五”规划纲要》把研究制定社交媒体文件归档管理办法明确为核心任务之一,明确要求“加快提升电子档案管理水平 研究制定重要网页资源的采集和社交媒体文件的归档管理办法”。此外,该纲要还进一步提出“加快档案管理信息化进程”,特别是在技术和应用方面,强调了以下几个方面。
一是持续推进数字档案馆建设。积极响应数字中国建设,加快推进信息技术与档案工作深度融合,到2020年全国地市级以上国家综合档案馆全部建设成具有接收立档单位电子档案、覆盖馆藏重要档案数字复制件等功能完善的数字档案馆;编制数字档案馆业务系统功能需求标准;采用大数据、智慧管理、智能楼宇管理等技术,提高档案馆业务信息化和档案信息资源深度开发与服务水平。
二是加快提升电子档案管理水平。积极参与国家政务信息化工程建设,明确电子文件归档范围和电子档案的构成要求;加强对业务系统电子文件归档管理,推进电子政务和电子商务文件归档管理工作;制订和完善信用、交通、医疗等相关领域的电子数据归档和电子档案管理的标准和规范;探索电子档案与大数据行动的融合;研究制定重要网页资源的采集和社交媒体文件的归档管理办法;加强电子档案长期保存技术研究与应用。
三是加快档案信息资源共享服务平台建设。实施国家数字档案资源融合共享服务工程;建立开放档案信息资源社会化共享服务平台,制定档案数据开放计划,落实数据开放与维护的责任;优先推动与民生保障服务相关的档案数据开放;积极探索助力数字经济和社会治理创新的档案信息服务;拓宽通过档案网站和移动终端开展档案服务的渠道。
新修订的《中华人民共和国档案法》,在总结档案信息化建设实践需要和一些好的经验基础上增加“档案信息化建设”一章,规定的主要内容包括明确了政府的责任、电子档案的法律效力和档案信息化建设的内容。2021年6月9日,中共中央办公厅、国务院办公厅印发的《“十四五”全国档案事业发展规划》指出了未来将面临“新一代信息技术广泛应用,档案工作环境、对象、内容发生巨大变化,迫切要求创新档案工作理念、方法、模式,加快全面数字转型和智能升级”的挑战,提出“适应新时代发展步伐,突出创新引领,以改革精神推动档案实践、理论、制度全面创新,推动档案工作与新技术深度融合,为档案事业发展提供持久动力”的改革创新原则,并规划了具体的发展目标,如提出“档案信息化建设再上新台阶。档案信息化发展保障机制进一步完善,档案信息化建设进一步融入数字中国建设,新一代信息技术在档案工作中的应用更为广泛,信息化与档案事业各项工作深度融合,档案管理数字化、智能化水平得到提升,档案工作基本实现数字转型”。同时还筹划了具体的任务,如在提升档案利用服务能力方面,要“积极探索知识管理、人工智能、数字人文等技术在档案信息深层加工和利用中的应用”;在推进档案信息资源共享平台建设方面,要“依托全国档案查询利用服务平台建立更加便捷的档案信息资源共享联动新机制,推动国家、地区档案信息资源共享平台一体化发展,促进档案信息资源共享规模、质量和服务水平同步提升,实现全国档案信息共享利用‘一网通办’”等。显然,进入大数据网络时代,信息技术正进一步推动档案信息化向着深度和融合的方向发展。
1.1.3 档案社会化媒体研究兴起<
展开