**章 医疗大数据
**节 医疗大数据的概念与特征
在过去的几年里,随着大数据时代的到来,医疗与信息技术的结合越来越紧密,信息系统使用范围不断扩大。其中,不断建设的各医疗卫生系统与医疗卫生行业信息化技术持续发展,如信息化电子病历的应用逐渐取代了工作人员手动录入的纸质病历,以电子数据的形式记录和保存患者的整个诊疗过程。2016年6月,《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》中将医疗大数据发展纳入国家发展大数据战略范畴,进一步推进医疗大数据融合、深度挖掘与共享开放建设,全面规范医疗大数据在医药医疗、医保费用、公共卫生等方面的应用及安全保障。致力于开发大数据可以实现智慧医疗,即实现患者求医便利化、疾病诊断自动化和医疗保健信息化,医疗大数据将进入发展的新阶段。
一、大数据
“大数据”一词由英文单词“big data”翻译而来。随着人类与机器的沟通、交易、通信产生的数据日益增多,人类开始走进大数据时代。麦肯锡在全球研究所关于“大数据的创新、竞争和生产力的下一个前沿”的报告中对“大数据”的定义如下:大数据是指信息容量超出了传统数据库软件工具或技术方法捕捉、存储、管理与分析等能力的数据群。同时也强调了大数据“量”的大小存在差别,没有统一标准,并随着时间推移和科技进步,“量”会进一步增加。2013年在北京香山饭店召开的香山科学会议,其主题为“数据科学与大数据的科学原理与发展前景”,各国专家与学者对于“大数据”这一概念给出了一个科学性描述,即来源多样性、类型多样化、量大而复杂、潜在价值高,但是无法在一定时间范围内使用常规工具进行处理和分析的数据集。大数据是数字化时代的新型战略资源,具有更强的决策力、洞察力和流程优化能力,是推进创新的重要因素,极大地改变了人类的生产和生活方式。至此,医疗和银行、电商等行业一起迈入了大数据时代。
二、医疗大数据
(一)概念
医疗大数据是在整个医疗行业运行过程中产生的与人类生命健康和医疗相关的一切海量数据,比如临床医疗或健康监测方面,其贯穿于医疗事业的发展全过程,具有重要的医学价值。医疗大数据至少包括三层特点:数据规模大、产生速度快和数据多变。医疗大数据资源大量分布于不同的数据组中,错综复杂,并且与公众的疾病健康密切相关。由于医疗行业的特殊性,医疗大数据与公众的疾病健康密切相关,因此需要有比其他行业和领域更准确的分析结果,但是由于医疗大数据分布于不同的数据组中,数据类型复杂多样,除了规范诊断等结构化数据外,还包括大量非结构化数据,例如医嘱等非规范化文本数据、影像学检查等图像数据,因此难以实现数据的集成与交换。
(二)特性
随着医疗卫生信息化建设进程的加快,医疗大数据的类型和规模以前所未有的速度增长,通过大数据分析技术进行数据收集、管理和集成,以帮助医院做出更积极的业务决策。大规模的临床试验数据、生物医药数据、电子病历数据和个体健康信息数据汇集在一起,形成具有大数据特征的医疗大数据。从内容与数据来源看,医疗大数据具有海量性、多维性、不完整性、冗余性、时序性、复杂性及隐私性等特征。
1.海量性 医疗大数据可能涉及一个国家的所有医院或所有人群太字节(Terabyte,TB)甚至拍字节(Petabyte,PB)的数据,或是一个地区的几家医院或部分健康人群数据,或是医院的所有临床数据。现实情况是,中等医院的医疗数据,包括图像数据,在从主图像中删除数据后,每年可以达到数百个G的数据量。例如,一个CT图像包含有约150MB大小的数据,标准病理学和基因组序列文件大小约为750MB。
2.多维性 在医院诊疗过程中会产生各种各样以患者为中心的数据类型,如患者主诉、过敏史、体检结果、化验单结果、心电图、B超等影像学检查结果,以及用以科普/咨询动画与视频信息等数据,不同数据使用者所需要的数据信息不同,信息要求也不一样。这是医疗大数据区别于其他领域数据*显著的特征。
3.不完整性 在就诊过程中,医疗数据的搜集与处理过程经常相互脱节,这使得医疗数据库不能完整记录疾病的全部信息。而大量医疗数据来源于医务人员的手工录入,有可能导致数据记录产生偏差或缺失,加上手动录入本身也具有不确定性,在病历和病案方面尤为突出。另外,医疗机构对于患者出院随访数据丢失等都会造成数据的不完整。
4.冗余性 “信息孤岛”依然大量存在。医学数据数量庞大,每天都会产生大量就诊信息,其中可能会包含重复、无关紧要甚至是相互矛盾的记录。
5.时序性 疾病早期的诊断,患者的初诊与复查,疾病的发病过程随着时间的推移而有所进展,医学检查的波形和图像都是时间的函数,这些数据在产生过程中都会具有一定的时序性。
6.复杂性 在医学专业术语中,仅仅疾病名称这一项就有3万余种,除此之外,还有数以万计的手术诊断和药物名称,存在众多“一词多义”的现象。对于临床专业术语的使用没有统一界定,容易造成混乱。随着医疗的发展,专业术语不断更新,而各医疗机构使用的信息系统不同,患者疾病程度、医院诊疗水平与医疗数据的记录都存在一定程度的偏差,容易误导临床诊疗工作。
7.隐私性 医疗数据记录了大量患者的隐私数据,还包括医院诊疗方法、临床疗效等,某些信息可能涉及商业机密,一旦泄露会造成严重后果。
第二节.医院医疗大数据来源、类型与特征描述
中国人口占世界总人口的1/5,医疗机构数量逐年增加,截至2019年12月,全国医疗机构总数为100.7万个,其中医院3.4万家。每年产生大量医疗信息数据。目前全球已有数百个艾字节(Exabyte,EB)医疗卫生数据,其中临床电子病历就收集了大量的数据,而这些数据集会随着时间的推移,在各个医疗机构持续不断地生成。从快速识别和建立大规模研究队列到人工智能辅助临床决策支持系统,大数据正在改变医学领域的研究和实践。
一、医院医疗大数据来源
高通量组学数据、临床医学数据库及各类存储医学信息的生物学数据库是当前医疗大数据的主要来源。除此以外,医疗领域的数据来源还包括制药企业、健康管理和社交网络数据。
(一)高通量组学数据
包括生物学样本和多维分子图谱,包括表观遗传组、蛋白质组、代谢组、基因组、转录组的微生物群,单细胞测序技术还为我们提供了从新角度理解疾病异质性的数据支持。
(二)临床医学数据库
1.电子病历 在疾病诊断和治疗期间产生的电子病历和电子健康记录是医疗大数据的*关键来源,包括各种结构化检测指标数据表、非结构化临床文本记录、医学影像及超声图像、视频信息等。
2.重症监护医学信息数据库 在临床重症医学病房中,数字医疗设备、患者检查、医护操作等产生一系列的文本数据与图像数据。
这些医疗数据是*原始的临床记录,大多数以医学专业方式记录患者真实的医疗过程,无论是不完整数据还是错误数据,每个数据都具有重要的医学参考价值。
(三)生物学数据库
例如,知识检索数据库[如国家生物技术信息中心(National Center for Biotechnology Information,NCBI)]、组学信息数据库[Array Express、Gene Expression Omnibus(GEO)]、分子互作关系数据库(Human Protein Reference Database,HPRD)、通路数据库(Kyoto Encyclopedia of Genes and Genomes,KEGG)等,也是医疗大数据的重要组成部分,这些数据库在应用大数据研究疾病的发病机制方面具有重大意义。
二、医疗大数据类型与特征描述
国内有学者将医疗大数据分为4类:临床大数据、生物大数据、健康大数据和运营大数据。
(一)临床大数据
在规模和数据质量上*具竞争力,包括电子病历数据、医学影像数据和基因测序数
据等。
1.电子病历数据 以信息化为媒介,用电子化的方式保存和管理患者就医过程中产生的一系列医疗数据。电子病历可以同时满足多个医生在线查看和记录患者的病历,满足临床实践的需求。
2.医学影像数据 包括计算机X线摄影(CR)、计算机断层扫描(CT)、正电子发射计算机断层显像(PET)、磁共振成像(MRI)、超声成像、心电图、脑电图、肌电图等,属于非结构化临床数据,数据库利用大数据处理技术自动按照病理分类,弥补了既往人工分类的局限。
3.基因测序数据 生命科学领域中的生物芯片与DNA基因序列等研究过程一直在生**的数据。先进的机器学习算法和系统可以处理数以千万的海量数据,包括电子病历、医疗记录、医学影像、人类DNA信息等,一旦我们更好地了解人类DNA信息,从中学习和识别疾病模式与规律,就会有机会进一步研究每个人的遗传信息,这将促使“个人基因时代”的到来,每个人将有机会利用前所未有的遗传信息来控制自己的健康和生命过程。应用程序中的机器学习和人工智能必须能够分析大量数据,以便为用户提供更好的建议,改善他们的个人习惯。
随着信息技术的发展,医院医学影像信息系统、临床信息系统、放射信息系统和实验室信息系统通过组织和整合门诊个人病历和住院病历,逐步实现医院医疗数据的整合,电子病历作为载体涵盖了医院治疗的整个过程。但是,现阶段医院医疗信息水平的差异,尚未形成统一的医院信息集成标准,医院的医疗数据既可以来自医院科室*立管理信息系统,也可以来自临床信息系统,还可以来自医院信息集成平台等。
(二)生物大数据
生物大数据是指生物医学实验室、临床和公共卫生领域的基因组学、转录组、实验胚胎学和代谢组学的研究数据,有助于人们理解疾病与遗传标记之间的因果关系。基于传统的“一刀切”转换而来的基因组学疗法已成为一种新兴治疗手段。在过去几年里,临床背景下的高通量分子管理和探索的发展,电子病历和健康数据的整合促进了个人健康预测的动态模型的发展,并有助于实现真正的个性化治疗和精准医疗进步。
(三)健康大数据
移动医疗卫生是数字医疗行业中一个快速发展的领域,使用移动技术如智能手机、平板电脑和便携式设备为医疗保健提供支持。由此产生了大量数据,如个人健康记录、社交媒体数据等。个人健康记录包括便携式或其他移动设备连续产生的数据,如用于监测血压和心率等生命体征的传感器、手环或其他便携式设备,能够检测到重要参数并在异常情况下预警。通过查看个人健康记录,可以了解个体使用移动设备进行自我管理的健康数据,帮助医务人员依据健康监测数据及时调整患者的诊疗方案,便于后续对其进行健康随访,及时识别患者潜在的健康风险。
(四)运营大数据
涉及各级医疗机构、社会保障中心、商业医疗保险机构、制药公司、药房和其他机构运营生成的数据,包括不同疾病的治疗费用和报销数据、成本核算数据、药品和医疗设备采购和管理数据、药物研发数据和药品销售数据等。大数据的合理应用能有效降低医疗费用,帮助医院改进运营和有效控制成本,并提供准确的保险定价。在管理决策方面,决策者可以从多个角度了解医疗机构的运作情况,为科学管理提供有力的支持。此外,根据医疗环境和医疗系统不同,医院的大数据可能会留在其他院外系统中,例如,在欧洲和美国相对完整的医疗健康保险体系中,申请报销医疗费用或医疗索赔的人,应向保险人出具包括疾病名称、检查处方、手术等就医数据,形成保险诊疗数据库。
与其他行业数据相比,医疗行业数据不仅与人们的健康和生活息息相关且具有复杂性,而且对需要研究和探索的未知事件也很重要。这些特点促使医疗行业需要大量的医学研究专家和统计学家来建立一系列的数据统计分析方法,开展各种医学研究。
第三节.医院医疗大数据的发展与应用现状
随着科技的不断进步,医疗数据的规模和质量都在不断提高。在医疗影像方面,人工智能和机器学习技术正在发挥越来越重要的作用。
展开