第1部分可信数据空间概论
数据是数字化、网络化、智能化发展过程中形成的重要资源,是新型生产要素。数据要素流通是培育数据要素市场的基本前提,是推动数字经济发展的必然要求和核心引擎,是促进数字政府持续长效运营、激活政府公共数据的社会化价值和市场化潜力的重要手段。与此同时,数据如何高效、安全地共享和流通,成为制约数字经济发展的关键因素 。数据空间的建设目标是,以数据高效流通与共享利用为导向,以实现数据的供需匹配为目标,推动数据价值链上下游多元主体和多源数据的汇聚融合,从而实现价值共创。因而,数据空间作为一种创新的数据(主权)管理、流通与共享机制,正逐步成为解决这一问题的有效方案。
数据空间是一个新兴概念,是一个总括术语,指涵盖数据模型、数据集、本体、数据共享合同和专业管理服务等的数据生态系统,以及与之相关的软能力(即治理、社会互动、业务流程)。数据空间既是多组协议,也是数据共享的辅助技术基础设施。截至2024年5月15日,Data Space Radar公布了160个数据空间项目案例,其中,2023~2024年增幅*大,新增近40个。从数据空间的分布领域看,制造业/工业4.0领域的数据空间案例*多,占比19%;能源领域次之,占比14%;移动领域占比10%,智慧城市领域占比为9% 。从整体上看,各领域的数据空间的建设目标具有较高的一致性,通过提升数据空间内数据的互操作性和可获取性,促进数据流动、交易和共享,激活产业的数据驱动型创新。那么,什么是可信数据空间?为什么我国发展数字经济,发展数据要素市场,提出要建设可信数据空间?可信数据空间有什么特征,与数据云、数据中心、数据开放平台等有何区别和联系?数据空间具有什么架构、功能,以及由哪些组件构成?等等,都是人们关注的问题。
本部分通过对数据空间的内涵、特征、体系架构、关键技术和核心组件的论述,让人们对数据空间有整体的认识。
第1章可信数据空间概述
数据和信息共享,一直以来都是人类的愿望。特别是20世纪80年代,互联网诞生之后,这种愿望更加强烈。美国马克卢普(F.Machlup)教授,在1962年出版的信息经济的**论著《美国的知识生产与分配》中提出“知识产业”和“信息经济”的概念,并指出信息产业在美国国民经济中的重要地位。后来,随着信息技术的发展和互联网的普及,信息经济逐渐成为一个被广泛研究和讨论的话题。
2005年,美国计算机科学与技术领域的专家迈克尔 富兰克林(M.Franklin)等从现实需求(如何实现跨域异构数据的集成与共享)的角度出发,提出数据空间(DataSpace)的概念[1],指出组织(如政府机构、企业、家庭)的正常运转依赖海量跨域、异构又互相关联的数据源,从而将数据空间定义为一种涵盖特定组织全部相关信息的数据共存方法,采用数据集成、数据虚拟化、语义建模和元数据管理等技术统一组织管理数据,提供数据编目和浏览、搜索和查询、更新和监控、事件检测和支持复杂工作流等服务。
1.1数据空间的内涵
随着数据空间相关理论研究和实践的不断发展,数据空间的内涵也发生了很大变化。已经从早期的对异构数字资源的融合共存技术,延伸为数智融合环境下,新型数据关系、数据权益保障、数据信任机制与合规治理等数据流通和交易制度体系的建构,以及数据安全技术框架、基础设施搭建等系统性问题的探索。
1.1.1数据空间定义
数据空间概念的提出,缘起于对异构数据库的整合。由于传统数据库技术无法满足跨域、异构、海量、不确定性数据管理的需要,美国计算机科学与技术领域的专家迈克尔 富兰克林等,于2005年比较系统地提出了数据空间的概念。所以,目前业界通常认为,数据空间概念*早于2005年由美国计算机科学与技术领域的专家迈克尔 富兰克林等提出。也有部分研究认为,数据空间概念,*早由德国弗劳恩霍夫协会(Fraunhofer-Gesellschaft)于2014年提出,旨在解决工业领域数据安全共享与互操作性问题[2]。德国Gaia-X协会认为,数据空间是基于公共政策、规则和标准的,联邦、开放的主权数据共享基础设施,并将数据空间定义为“受信任伙伴之间的数据关系类型,每个伙伴都对数据的存储和共享应用相同的高标准和规则”。在数据空间中,数据不是集中存储的,而是在源代码上存储的,只在必要时进行共享(通过语义互操作)。2020年,欧盟委员会发布《欧洲数据战略》指出,欧洲数据共享空间是指由跨越部门、组织和地理界限的众多不同空间组成或连接在一起的空间。数据空间也可被视为数据生态系统的总称,其发展受益于数据安全与共享技术、合适的监管框架和创新的业务模式。
数据空间作为一个新兴概念,提出时间不久,且*近几年才受到广泛关注。因此,客观上说,目前数据空间的相关研究和建设还很少。有关项目也多停留于概念规划、设计和探讨阶段。不过,关于多元异构数据集成、整合、共享等问题已有很多研究。
关于数据空间,不同学科领域的专家学者与组织机构,从不同视角有不同的理解。例如,欧洲大数据协会将数据空间视为由数据集、本体、数据共享合同、专业化数据管理服务,以及包括治理、社会互动和业务流程在内的软能力组成的生态系统。早期,欧盟将数据空间理解为可信第三方中介(即数据市场),而数据市场被定义为提供数据产品购买服务的平台。该平台将数据供应商和数据用户聚集在一起,在安全的在线平台上交换数据[3]。
中国国家数据局局长刘烈宏认为,数据空间是一个由治理框架定义的分布式系统,旨在创建一个安全可信的数据流通环境。数据空间通过数据集成、虚拟化、语义建模和元数据管理等技术,实现对多源异构数据的统一组织管理,支持对数据的编目、浏览、搜索、查询、更新和监控等功能[4]。
梅宏院士和黄罡教授在《可信数据空间:数据产业高质量发展的新动力》一文中提出,“面向具体的领域和业务场景,按照数据所对应的物理实体的结构、关系来对数据进行管理和组织,使数据实体、数据活动(包括数据的感知、传输、存储和处理等)及其相互之间的关系构成一个物理世界的数字映像或孪生,即数据空间”。
M.Singh和S.K.Jain等认为,从形式上看,数据空间是一组参与者以及他们之间的相互关系[5]。
除上述理解之外,关于数据空间,一些专家学者还给出了自己的理解和定义。其中,A.Halevy等指出,数据空间不是一种数据集成方法,而更像是一种数据共享方法,其目标是为所有数据源提供基础功能,无论这些数据源的集成程度如何[6]。国际数据空间协会(International Data Spaces Association,IDSA)认为,数据空间是在数据生态系统中,根据共商协定的原则进行的可信数据共享和交换的分布式基础设施[7]。
另外,中国科学院计算技术研究所认为,数据空间是数据连接形成的空间,是人-机-物三元空间。而中国信息通信研究院则认为,可信数据空间是数据生态链,提出以可信工业数据空间为主导,构建可信工业数据空间生态链。
概括地说,数据空间提供了明确的信任架构,即数据交换与共享的框架,支持数据生态系统内的数据共享。数据空间可以包含组织内的所有数据集,无论其格式、位置或数据模型如何。不仅是数据提供者和消费者,数据空间中的每个数据中介或服务中介都是参与者。可以从不同视角对数据空间进行理解,总体上,可以将数据空间简单理解为,基于安全与可信环境的数据流通与共享机制。数据空间的参考架构如图1-1所示。
图1-1数据空间参考架构
(1)从网络视角看,数据空间是一个分布式数据网络,是一个“数据空间”的网络,是以各类“数据空间”为节点构成的复杂数据网络。可以认为,数据空间是由若干个不同行业、不同类型的数据空间组成的数据交易和流通网络。数据空间还是一个“数据连接器”的网络,网络节点是“数据连接器”,每个数据提供者和消费者都有自己的“数据连接器”,从事数据处理、传输、交换和共享服务。
(2)从组织视角看,数据空间是一个虚拟数字空间,是一个由不同行业、不同类型的数据空间组成的联盟,它们遵循共同的价值观和共同的规则或约定,共同推动多元主体在数据空间内实现价值共创。
(3)从技术角度看,数据空间是促进各方和各领域之间数据/信息动态、安全和无缝流动的技术构件(或功能模块)和组件的集合。因而,任何数据空间都包含一组技术构件,每个技术构件又包含一组具有特定功能的组件。但是,数据空间的构成,不仅包含技术构件,还包含管理和治理构件。
(4)从管理视角看,数据空间是一个基于共识规则的治理框架,是一个不同参与者合作共享数据的协议框架,是一个支持跨区域、跨行业、跨系统、跨主体共同推进数据价值实现的价值链。
(5)从功能上看,数据空间是一个功能性框架,任何数据空间都可以根据参与者的需要进行定制。只要参与者按照数据空间标准规范,以及协商的运行规则和程序开展业务,数据空间不会对任何参与者进行限制或执行上的预定义。
(6)从发展视角看,数据空间是一个不断生长的数据生态,是参与者共创价值的生态系统,数据空间内的每个参与者都能够依据自己在数据价值链上的贡献获得应有的价值。或者说,数据空间的任务和目标就是培育数据生态系统。
(7)从本质上看,数据空间是由一个个数据提供者和数据消费者构成的数据交互网络。网络节点是数据提供者或数据消费者,数据交互(交易)关系构成他们之间的边(关系)。
另外,还可以将数据空间理解为,由特定行业或领域的参与者自行开发,或由经过数据空间认证机构认证的软件供应商、数据经纪人或市场提供的,可互操作的数据共享应用程序的集合。
总之,可以从不同的角度思考、理解和定义数据空间。但无论如何理解和定义,数据空间的目的和目标是一致的,都是促进数据的安全可信、高效流通、交易和共享,进而实现数据的价值,达到价值共创。需要明确的是,目前数据空间只是一个功能性框架,任何数据空间都需要依据特定需求进行规划、设计和开发。另外,数据空间建设不仅仅是技术问题,还包括管理和治理问题,特别是跨域、跨行业的数据空间构建,如何使不同利益相关者具有共同的价值目标和愿景尤为重要。
1.1.2可信数据空间
“可信数据空间”是我国政府基于我国数字经济发展和数据要素市场建设需要,针对数据空间的本质属性提出的新概念。数据空间、可信数据空间、工业数据空间、农业数据空间、文化数据空间等,都是同义词。从字面上看,可信数据空间突出“可信”,更加强调“多元主体信任”是数据空间各类业务活动的前提,特别是数据交易业务等,要建立在参与者“可信”基础之上。或者说,数据空间中参与者之间的信任,是数据空间运行和发展的基础,也是数据空间发展的重要价值取向。
1.可信数据空间的定义
2024年11月21日,国家数据局印发《可信数据空间发展行动计划(2024—2028年)》将可信数据空间定义为,基于共识规则,联接多方主体,实现数据资源共享共用的一种数据流通利用基础设施,是数据要素价值共创的应用生态,是支撑构建全国一体化数据市场的重要载体[8]。
展开