第1章 政府开放数据全生命周期模型
本章梳理了政府开放数据的相关研究文献,借鉴国内外学者提出的数据生命周期相关模型,从系统论视角出发提出了政府开放数据全生命周期的概念,并构建了政府开放数据全生命周期的概念模型。在此基础上,进一步分析了政府开放数据全生命周期模型的因果关系,运用系统动力学方法构建了系统流图,进一步厘清了系统的内部功能和子系统之间的关系。通过系统论的视角,本章对政府开放数据全生命周期进行了系统、深入的研究,建立了政府开放数据全生命周期系统动力学模型,分别讨论了三种策略下政府开放数据的演化趋势,重点研究了各参数对开放数据演化进程的影响。研究结果显示,应系统地看待政府开放数据全生命周期,充分考虑政府开放数据全生命周期各阶段的影响因素,重视内部子系统之间的互动和反馈,关注系统运行的内部规律。
1.1 政府开放数据全生命周期基本理论
1.1.1 政府开放数据全生命周期的定义
政府开放数据有其自身的生命周期,根据生命周期理论,结合政府开放数据的特征,分析政府开放数据全生命周期的内在规律和系统结构,有助于推动政府开放数据系统的良性发展。政府开放数据全生命周期是指政府部门或公共部门通过不同的渠道将其掌握的非隐私和非机密数据进行开放时,数据从生成到价值消失的完整、动态的全过程 。本书认为,政府开放数据全生命周期包括数据整合开放、数据融合利用与数据利用评价三个阶段,具体可分为数据生成采集期、数据整合开放期、数据融合利用期、数据价值评估期、数据再生期五个时期。
政府开放数据全生命周期各阶段的运行状态共同决定了政府开放数据的整体水平。通过政府开放数据全生命周期的迭代循环,有助于提升数据的利用率,厘清政府数据资源与各利益相关者之间的关系,分析系统各阶段之间的有效集成,找到系统结构、协调与保障机制中可能存在的问题。政府开放数据处于相对复杂的数据环境中,利益相关者众多,其参与政府开放数据的能力、动机与背景存在差异,导致政府开放数据的管理与利用是一个动态、复杂的过程。学术界对政府信息资源及开放数据的生命周期进行了较多研究与探讨,生命周期模型大都包括数据收集、处理、发布和利用阶段,但较少包括整合和再利用及增值阶段,缺少对政府开放数据生命周期的系统性特征的研究。Attard等认为政府开放数据生命周期是一个环状的循环结构,各个阶段之间存在反馈 。通过参与数据的生成采集、整合开放、融合利用、价值评估及再生或消亡等过程,利益相关者为数据潜在价值的实现提供了可能。政府开放数据生命周期的各阶段之间互相联系,并存在一定的反馈,共同构成一个环状的、动态的循环结构。在这个过程中,新的数据可能产生,并跃迁到下一个生命周期开始新的循环。政府开放数据全生命周期的定义对梳理政府开放数据各阶段特征、促进政府开放数据运动良性发展具有重要的理论意义。
1.1.2 政府开放数据全生命周期特征
在大数据环境下,每个政府开放数据生命周期阶段的特征和状态共同决定了政府开放数据的整体开放水平,各个数据生命周期的阶段存在数据的流动和利益相关者的反馈,共同构成了一个完整的政府开放数据系统。总的来说,政府开放数据全生命周期包括数据整合开放、数据融合利用与数据利用评价三个阶段,各阶段的流程和特征分别阐述如下。
1. 数据整合开放阶段
1)数据生成和采集
数据生成和采集的主体是各级政府部门,该时期可分为数据的记录、搜集、筛选三个阶段。在数据的生成采集期,政府部门可以发挥重要作用,刺激由数据生产者、创新者和数据用户组成的生态系统的发展。*先,政府是流经生态系统的数据的来源。如何选择、准备、发布和推广数据,对外部用户可用的数据数量、类型和质量有很大的影响。政府采集数据的技术格式和质量标准可以确保数据集的有用性与可用性。明确责任和法律法规框架是政府开放数据项目成功的基础。同时,行政机构能力和做法的差异性可以促进内部文化的建立,鼓励公开的数据更加多样化。各级政府部门还可以通过不同的方式来获取相关数据及其使用的输入与反馈,包括平台反馈和数据请求、磋商、会议、研讨会(如虚拟和面对面的讨论)。此外,当政府部门本身是一个活跃的数据使用者时,它将更了解外界数据使用者的需求并能更好地应对各种挑战,有可能提供更多可理解和使用的数据。在数据的生成采集期,政府部门的工作流程如下:政府部门在日常业务中创建了大量的数据,或收到社会各界发送到政府部门的多源异构数据,这些数据具有规模性、高速性、多样性和价值性的特征;各级政府部门在全面审查创建或收到的数据之后,按照统一标准对分布式环境中的数据进行收集、描述、标识、归类,包括“政府持有”的数据和“非政府源”的数据;政府开放数据部门将涉密数据和私有数据进行初步筛选,从可开放数据源中排除。在该过程中,政府部门的开放数据服务能力较为重要,关系到政府透明度和运营效率等目标。Chatfield和Reddick对澳大利亚地方政府开放数据进行研究后提出以下建议 。
(1)地方政府应该制定政策并加大开放数据政策的力度,因为这将刺激更多的创新应用,通常会有更多四星级的数据集被放到网上。
(2)地方政府应该尝试投资自己开放的政府数据门户,而不是外包给其他级别的政府。在某些情况下,由于缺乏财政资源,外包可能是一个很好的短期解决方案,然而,随着时间的推移,拥有一个本地的政府开放数据平台,显然会让更多的本地人参与本地政府开放数据。
(3)地方政府在门户网站上发布公开数据是有经济效益的,因为*先发布数据的地方政府将领先于其他地方的政府。因此,地方政府应通过自己开发的政府数据门户积极主动地共享公共数据。
目前,我国部分政府部门以保守的策略来应对国家层面的数据开放要求,即不开放或尽量少开放数据,开放数据的数量普遍偏少、格式单一,这将影响政府开放数据后续的生存和发展。数据的生成采集期是数据组织和发布的基础阶段,生成采集期采集的数据数量和质量将影响全生命周期后续各时期的数据状态。政府部门应培养开放数据意识,增加开放数据的部门和领域。近几年,国内已有部分省市开始重视数据的生成采集工作,如2018年贵州省、上海市、青岛市等相继发布了政府开放数据清单,给出了政府开放数据采集的具体内容及所属部门,旨在规范开放数据的生成采集工作 。
数据的生成采集期需要注意以下问题:**,由于隐私立法,可以追溯到的个人数据不应公开。第二,发布资源有限,如果发布公开数据不会带来好处,这可能是不开放数据的原因之一。第三,数据质量可能参差不齐,而且有可能过低。公众希望政府能够对数据的质量负责;开放低质量数据可能导致混淆、透明度降低,甚至是对政府信任度的降低,可以用这样一个事实来解释:当开放数据质量较低时,公共资源被浪费,只能产生模糊甚至不正确的决策结果,这也适用于政府开放数据系统。第四,数据结构的复杂性和数据的不易理解可能会降低公开数据对公众的吸引力,除非降低复杂性或指导公众使用数据。第五,法律可能会阻止某些数据的公布,即公共组织为某一目的收集的信息可能不被允许开放。第六,数据集为一些公共组织带来收入,即基于向用户收取访问费而产生的收入,不加区别地公开所有数据将会损害这个业务模型。因此,保持对数据的*家控制的能力可以显著影响这些公共组织的运作能力,对各种类型的开放数据业务模型进行更多的研究。第七,任意开放一些数据可能导致偏见,即如果只提供某个视图的数据,那么数据使用者可能会得出错误的结论。例如,某些学校的数据被收集和公布,以向公众展示各学校的办学成果,但开放的指标不是质量,而是在任意的、易于度量的标准上的得分。基本假设是学校的绩效可使用一组指标来衡量,而这些指标需要仔细解释,并且可在上下文中查看。只有对解释提出警告,才能降低数据不完整的风险。因此,最基本的问题是,公开数据隐藏了什么 。
2)数据整合与开放
数据整合与开放的主体是负责开放数据工作的政府开放数据组织机构,如贵州省大数据发展管理局、北京市经济和信息化局等。要想成功发展开放数据产业,政府开放数据组织机构扮演着重要的角色。除了为该行业提供主要的投入(公开的政府数据)外,政府还应该像其他行业一样制定完善的政策来支持其增长。为了实现增长,政府需要发展能力、制定法规和战略来支持企业,如下所述。
(1)提供高质量数据的技术基础设施(通过面向需求和供应的平台等模型);
(2)制定数据使用和重用的法规,监控数据产品或服务的定价;
(3)确保提供数据的格式,使数据可被重复使用,以方便*立分析和确定政府政策,提高政府的透明度和公众的政治信任。
政府开放数据的政策制定者更喜欢简单地提供数据。*好可直接删除数据,而不必担心数据来源和内容是否丰富等。然而多源异构的政府数据通常不能立即开放:*先,需要进行质量评估和原始数据的修改与处理;其次,如果是没有必要的元数据(如发布者、作者、及时性等),那么很难找到数据。因此,数据的整合开放期需要注意的一个关键问题不是自底向上的链接,而是在链接中也使用元数据。元数据是克服如搜索、解释等障碍所必需的。这类似于在图书馆找书,有时按作者进行搜索(如查看是否有作者更多的书籍可用),有时按主题进行搜索(搜索类似类型的数据),有时按日期进行搜索(在一定时间内发布的所有数据)。方法的标准化和元数据的开发可以增加未来的数据访问量,其中,数据访问量少的根本原因可能是没有可用的反馈机制来显示对开放数据的处理情况。开放数据集的政府部门面临着大量的批评,如可用性差、管理水平薄弱、缺乏数据反馈和改进机制及元数据不足等。应考虑这些批评,并提供资源来确保数据集不但是简单开放的,而且是对用户友好的。
数据的整合开放期可分为整合和开放两个阶段。在开放数据环境下,政府数据简单地被发布在网上并不足够,数据需要根据统一的元数据标准以一致的形式、统一的标准存在,才能确保数据对公众有意义并可用 。在数据整合阶段,政府开放数据主管部门需要不断完善数据开放的统一格式及开放标准,*大限度地释放公共部门持有的大量数据源。政府开放数据平台的开放内容应包括数据、接口和应用三个方面,功能包括可按照内容主题和发布机构等标准提供查找索引,为开发者提供围绕数据下载与操作的应用程序接口(application program interface,API),提供以各类开放数据为应用目标的App(application,应用程序)等。开放数据集的数量、元数据机器可读取数据(二星及以上格式数据)比率将影响用户对数据的获取。目前,国内大多数政府开放数据平台已开放了大量的数据与接口。笔者对四个地区的政府开放数据平台进行调研(调研时间为2018年10月和2021年1月),调研结果见表1.1。
表1.1 四个地区政府开放数据平台基本情况
1)2022年3月升级为北京市公共数据开放平台
在以往的研究文献中,对开放政府数据积极效应的重视较多,而对消极效应的重视较少。负面影响如下:发布含有隐私信息的数据从而侵犯隐私,大量政府开放数据发布导致的信息超载和错误,不准确数据的发布等。负面影响或正面影响的实现高度依赖于信息的发布和共享方式 。从长远来看,不考虑和不处理政府开放数据的使用障碍可能会适得其反:政府部门认为只要提供可访问的数据就足够了,而不提供任何处理数据和克服障碍的方法,这将使数据的开放毫无用处。因此,不要过于强调数据供应方而对数据使用方的关注不足,降低政府开放数据的使用门槛也应是政策的一部分。此外,开放不准确数据时会发生什么,以及谁对不准确数据的开放决策负责,也需要政府开放数据组织机构加以考虑,制订预警方案。当出现不准确数据或侵犯隐私事件时,政府开放数据失误出现,相关政府部门应及时进入失误补救决策环节。
2. 数据融合利用阶段
数据融合利用阶段的主体是不同类型的数据用户,该时期包括用户对数据的获取、融合利用和重用三个阶段 。