搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
面向精准医疗的多源异构数据采集与融合技术研究
0.00     定价 ¥ 70.00
图书来源: 浙江图书馆(由JD配书)
此书还可采购15本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787030672711
  • 作      者:
    黄伟红,等
  • 出 版 社 :
    科学出版社
  • 出版日期:
    2021-12-01
收藏
精彩书摘
1 精准医疗大数据概述
  1.1 大数据的基本概念、特点、发展阶段、基本流程、应用领域及未来发展趋势
  1.1.1 基本概念及特点
  近年来,“大数据”一词已成为高频网红词汇,大数据技术已不知不觉深入到人们生活的方方面面。我们阅读、出行、购物、旅游、看病、工作,每时每刻都在源源不断地产生新数据,构建着一幢幢“数字大厦”。数字经济快速发展,数据成为新的生产要素,推动社会进步。
  大数据是什么?麦肯锡全球研究院给出的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
  国际数据公司(IDC)从大数据的四个特征来定义,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。
  亚马逊大数据科学家给出了一个简单的定义:大数据是任何超过了一台计算机处理能力的数据量。
  根据Gartner的定义,大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
  通过以上几个定义可看出,大数据概念较为宽泛,但其特点总结为“数据大”“价值高”。而大数据的价值不在于庞大的数据本身,而在于挖掘、分析数据背后蕴含的价值。唯有经过加工、“去粗取精”后产生价值的数据方可成为数据资产,实现数据“增值”。大数据应用是个综合性系统工程,唯有将业务需求、数据思维、挖掘分析三者结合起来,才能对其有较为全面的认识。
  大数据一般具有5V特点,详见图1-1。
  图1-1 大数据5V特点
  数量(Volume):即数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
  种类(Variety):种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、物联网数据、地理位置信息等,多类型的数据对处理挖掘技术提出了更高的要求。此外,非结构化数据规模巨大、增长较快,占数据总量的80%~90%,增长速度比结构化数据快10~50倍。
  价值(Value):数据价值密度。海量信息每天不断产生,但价值密度较低,如何根据实际业务需求,通过强大的机器算法来挖掘数据价值,分析数据之间的相关性,进行未来趋势与模式预测,是大数据时代*需要解决的问题。
  速度(Velocity):数据增长、处理快速化,时效性要求高。如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法要求尽可能实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。实时分析而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效。
  真实性(Veracity):数据的准确性和可信赖度,即数据的质量。大数据所承载的内容是与真实世界中发生的事件息息相关的,源头数据真实性决定了分析、解释、预测事件的可信程度。
  1.1.2 发展阶段
  大数据的概念*早是在2008年由Nature杂志提出,随着技术的不断迭代突破,目前已广泛成熟应用于各领域,其发展阶段如表1-1所示。
  表1-1 大数据发展阶段
  萌芽期:20世纪90年代到21世纪初,随着数据库技术和数据挖掘理论的成熟,数据仓库、专家系统等软件开始被广泛使用。
  成熟期:21世纪前十年,非结构化数据开始大量涌现,传统的数据库处理方法难以应对,也称非结构化数据阶段。2006~2009年,谷歌公开发表《谷歌文件系统》和《基于集群的简单数据处理:MapReduce》两篇文章,其核心技术包括分布式文件系统(GFS)、分布式计算系统框架(MapReduce)、分布式锁(Chubby)及分布式数据库(BigTable),这期间大数据研究的焦点是性能、云计算、大规模的数据集并行运算算法,以及开源分布式架构(Hadoop)。
  大规模应用期:2010年以后,大数据基础技术成熟之后,学术界及企业界纷纷开始转向应用研究,2013年大数据技术开始向商业、科技、医疗、政府、教育、经济、交通、物流等社会的各个领域渗透,因此2013年也被称为大数据元年。
  据IDC统计,2010年全球产生的数据量仅为2ZB,预计到2025年全球每年产生的数据量将高达175ZB,相当于每天产生491EB的数据;就增长率而言,近几年数据量的增长率都稳定在20%以上,预计2025年增长率将超过30%。相比于全球,中国的数据要素规模扩张更为迅速,以30%的年均增速领先全球,比全球平均增速高3%,预计到2025年,中国的数据量将增长至48.6ZB,将占全球数据量的27.8%,成为世界上*大的数据圈。
  近年来,我国大数据产业蓬勃发展,融合应用不断深化,数字经济量质齐升,对经济社会的创新驱动、融合带动作用显著增强。大数据繁荣发展的背后离不开国家的重视与努力,我国先后出台多项大数据政策,并在2016年将大数据上升为国家战略。各地陆续出台促进大数据产业发展的规划、行动计划和指导意见等文件。目前,我国各地推进大数据产业发展的设计已经基本完成,陆续进入了落实阶段。
  2019年10月,党的十九届四中全会通过的《中共中央关于坚持和完善中国特色社会主义制度 推进国家治理体系和治理能力现代化若干重大问题的决定》,首次将数据增列为生产要素,要求建立健全由市场评价贡献、按贡献决定报酬的机制。
  2020年4月9日,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,将数据与土地、劳动力、资本、技术并列为五大生产要素,提出要加快培育数据要素市场。
  在大数据政策的鼓励号召下,我国大数据基础设施领域持续创新,大数据技术产品不断提升,行业应用加速发展,数据逐步实现安全开放共享,数据资产化步伐稳步前进。
  1.1.3 大数据处理基本流程
  大数据处理基本流程可以概括为四步,分别是数据采集、数据预处理、数据挖掘与分析及数据应用。
  (1)数据采集
  大数据的采集是指利用多个数据库接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库进行简单的查询和处理工作。例如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,像Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
  在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时可能会有成千上万的用户进行访问和操作,并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑,并且如何在这些数据库之间进行负载均衡和分片的确需要深入思考和设计。
  对精准医疗多源异构大数据而言,精准医疗数据的来源和类型广泛,生物样本数据可以通过区域医疗健康协同中心、社区医疗中心、基层医疗中心、精准医疗示范基地、精准医疗实验室和健康移动终端等途径获取,数据类型也多种多样,包括临床数据、基因数据、健康数据、环境数据等。因此,需要通过对各种数据的采集治理进行多源异构数据的融合。此外,在医疗这个领域,国内的三甲医院中各家医院系统都是不同厂商系统的结合,而这些厂商并没有很好地互联互通,如果没有一些基础的工程性工作,落地应用实现本身是不容易的,因此数据采集起着重要作用。
  (2)数据预处理
  大数据采集过程中通常有一个或多个数据源,这些数据源包括同构或异构的数据库、文件系统、服务接口等,易受到噪声数据、数据值缺失、数据冲突等影响,因此需首先对收集到的大数据集合进行数据治理,以保证大数据分析与预测结果的准确性与价值性。大数据预处理主要包括数据清理、数据集成、数据归约与数据转换等环节,可以大大提高大数据的总体质量,是大数据治理过程质量的体现。
  数据预处理技术包括对数据的不一致检测、噪声数据的识别、数据过滤与修正等方面,有利于提高大数据的一致性、准确性、真实性和可用性等方面的质量;数据集成则是将多个数据源的数据进行集成,从而形成集中、统一的数据库、数据立方体等,这一过程有利于提高大数据的完整性、一致性、安全性和可用性等方面质量;数据归约是在不损害分析结果准确性的前提下降低数据集规模,使之简化,包括维归约、数据归约、数据抽样等技术,这一过程有利于提高大数据的价值密度,即提高大数据存储的价值性。数据转换处理包括基于规则或元数据的转换、基于模型与学习的转换等技术,可通过转换实现数据统一,这一过程有利于提高大数据的一致性和可用性。
  总之,数据预处理环节有利于提高大数据的一致性、准确性、真实性、可用性、完整性、安全性和价值性等方面质量,而大数据预处理中的相关技术是影响大数据过程质量的关键因素。
  在医疗领域,医疗信息化已经满足基本应用,但很多医院医疗信息化之后产出的数据,质量其实还达不到今天的实际需求,数据质量严重影响后期分析。因此,需要花费很大的精力建立一种基于逻辑的医学常识的知识库,通过知识库排查数据质量问题,进行预处理。
  (3)数据挖掘与分析
  数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。数据分析是大数据处理与应用的关键环节,它决定了大数据集合的价值性和可用性,以及分析预测结果的准确性。在数据分析环节,应根据大数据应用情境与决策需求,选择合适的数据分析技术,提高大数据分析结果的可用性、价值性和准确性质量。
  机器学习和数据挖掘是紧密相关的,进行数据挖掘需要掌握一些机器学习所用的方法和模型知识,通过模型的训练可以得到处理数据的*优模型。数据挖掘常用的模型如下:
  1)监督学习模型:通过已有的训练样本(即已知数据及其对应的输出)去训练得到一个*优模型(这个模型属于某个函数的集合,*优则表示在某个评价准则下是*佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断,从而实现分类的目的,也就具有了对未知数据进行分类的能力。该类模型包括决策树、贝叶斯方法、神经网络、支持向量机(support vector machine,SVM)、集成学习分类模型等。
  2)无监督学习模型:在非监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构,应用场景包括关联规则的学习及聚类等。常见的聚类算法包括k均值聚类、基于密度的聚类、层次聚类方法、谱聚类等。
  3)半监督学习模型:在此学习方式下,输入数据部分被标识、部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理地组织数据来进行预测。应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测,如图论推理算法(graph inference)或者拉普拉斯支持向量机(Laplacian SVM)等。
  在医疗行业,完成数据集成、治理,数据质量得到提升后仍需要大量的自然语言处理、机器视觉、基因分级等技术挖掘分析,深入解析数据隐藏层面的价值。
展开
目录
目录
1 精准医疗大数据概述 1
1.1 大数据的基本概念、特点、发展阶段、基本流程、应用领域及未来发展趋势 1
1.2 精准医疗大数据的定义 15
1.3 精准医疗大数据的分类 16
1.4 精准医疗大数据的标准 19
1.5 精准医疗大数据的生命周期 22
参考文献 23
2 精准医疗大数据之数据采集 25
2.1 数据采集概述 25
2.2 大数据采集的技术方法 28
2.3 数据脱敏 35
2.4 数据清洗 38
2.5 数据质量管理 40
参考文献 45
3 精准医疗大数据之数据集成 47
3.1 数据集成技术 47
3.2 实体识别 49
3.3 主索引技术EMPI 53
3.4 数据集成的实现 58
参考文献 68
4 精准医疗大数据之数据存储 69
4.1 数据存储技术 69
4.2 大数据存储的关键技术分析 74
4.3 分布式存储系统 86
4.4 主要数据库存储技术 91
4.5 不同数据存储方法的选择 95
参考文献 97
5 精准医疗大数据相关标准规范 98
5.1 基础类标准规范 98
5.2 技术类标准规范 100
5.3 管理类标准规范 101
5.4 安全类标准规范 102
6 精准医疗大数据数据采集融合平台 105
6.1 数据ETL处理基本工具 105
6.2 数据采集融合常用数据库 109
6.3 Hadoop大数据平台 115
6.4 借助医院CDR进行数据采集融合 118
6.5 精准医疗大数据数据采集融合平台的发展历程及未来趋势 118
参考文献 121
7 精准医疗大数据应用 123
7.1 临床大数据应用 123
7.2 药学大数据应用 139
7.3 多组学大数据应用 143
7.4 健康大数据应用 149
7.5 区域医疗大数据应用 151
7.6 医药卫生行政管理 157
参考文献 159
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证