**章 医学大数据概述
什么是大数据?大数据是20世纪90年代引入的一个术语,包括太大而无法与通用软件一起使用的数据集。2016年,它被定义为具有大容量、高速和多样性特征的信息资产,需要特定的技术和分析方法才能将其转化为价值。除了大容量、高速和多样性这三个属性之外,一些学者认为,要使大数据发挥作用,还需要添加包括质量、准确性和价值在内的细微差别。大数据是一个抽象的概念,通常解释为现有数据库管理工具难以处理的数据集成,具有庞大而又复杂的特点。大数据有5个特点,即体积(大容量)、速度(高速)、多样性、价值(低值密度)和准确性(真实性)。体积,是指数据规模越来越大,超越传统的存储和分析技术;速度,即大数据的及时性,必须快速按时收集和分析;多样性,是指“广泛的数据类型”,包括音频、视频、网页、文本等非结构化数据;价值,主要体现在价值密度低,商业价值高;准确性,强调有意义的数据必须是真实和准确的。大数据的关键问题是如何从一个大的、快速生成的和多样化的数据集中找到价值。
自20世纪80年代以来,数据量普遍增加,增长率每40个月翻一番。从2002年开始的大数据时代产生了越来越多的字符型数据。此外,社交媒体以音频和图像的形式产生了大量数据。使用基于互联网的设备,包括智能手机和计算机、可穿戴电子产品、物联网(IoT)、电子健康档案(EHR)和保险网站,会产生TB级的数据。一般来说,生成的数据总量只能估计。例如,2000年的普通个人计算机拥有10GB的存储空间;Facebook每30分钟可分析超过105TB的数据,包括共享项目和点赞,从而优化产品功能以提高其广告效果;谷歌图像在用户设备上使用了13.7PB的存储空间。很明显,大数据的采集、存储、分析和分发在数据生命周期中都有所增加。由于大数据具有海量、动态和多样化的特点,因而需要特殊的管理技术,包括软件、基础设施和技能。
**节 医学大数据的特点
大数据带来的信息也在改变医学教育和医学的生态系统。以数字方式收集和存储的数据量呈指数级增长。医疗行业每天都在产生大量数据,这是大数据应用的一个重要领域。为了向患者提供昀好的服务和护理,许多国家的医疗机构提出了各种各样的建议。如何更好地开发和利用大型医学大数据已成为人们关注的焦点,促进医学大数据的研究和应用已成为现代医学研究的关键因素。医学数据具有疾病多样性,治疗和结果的异质性,数据收集、处理和解释的复杂性等特点。随着医疗信息的发展,在医疗服务、医疗保健和卫生管理的过程中产生了大量的数据,形成了医学大数据。医学大数据具有各种来源,如行政索赔记录、临床登记、电子健康档案、生物特征数据、患者报告数据等。这些数据在医疗保健系统的大数据应用程序和数据收集中有重要价值。例如,糖尿病患者使用移动设备相互交流,共享信息或搜索信息,从而形成一大批的大数据网络。除了具有强大的统计功能和复杂性之外,数据还需要实时可用,以便立即对其进行分析和使用。
第二节 医学大数据库及其应用
数据库技术是一种研究、管理和应用数据库的软件科学,通过研究数据库的结构、存储、设计、管理及应用的基本理论和实现方法,对数据库中的数据进行处理和分析。主要的医疗公共数据库见表1-1。
表1-1 主要的医疗公共数据库
为了减轻人口的癌症负担,美国国家癌症研究所于 1973年为癌症患者建立了监测、流行病学和昀终结果( surveillance,epidemiology and end results,SEER)数据库。这是北美昀具代表性的大型肿瘤数据库之一,覆盖了约28%的美国人口。几十年来,SEER数据库已经收集了关于美国一些州、县的癌症患者的发病率、流行率、死亡率和其他循证药物的信息,为大多数临床医务人员提供了关于癌症的有价值信息,特别是为恶性肿瘤和罕见肿瘤的研究提供了广阔的道路。在SEER数据库建立之初,只有少数登记,目前注册站的数目已经扩大到18个。SEER数据库样本量大、质量高、统计能力强,可为肿瘤相关研究人员提供较高的临床参考价值数据。研究人员可以通过应用账号来获得部分数据。从SEER数据库获取数据有3种方式:**种是采用SEER*Stat软件获得,该方式昀简单,应用广泛;第二种是从SEER官方网站下载压缩文件,解压缩后提取二进制数据,然后使用R软件等将其转换为正常格式数据;昀后一种是向DVD光盘管理人员申请,获取权限使用SEER*Stat。自2016年11月以来,SEER公共数据库中的放疗和化疗变量已被删除。这些变量可以在签署额外的数据使用协议后获得。该方案描述了放疗和化疗治疗变量的完整性与在使用放疗和化疗数据时的潜在偏倚。虽然SEER数据库存在癌症患者家族史、遗传史、基因、疾病复发、辅助化疗等数据缺陷,但仍是一个良好的数据来源,为临床研究人员提供了高质量的数据,以及高效、方便和清晰的数据访问。
重症医学是一门研究任何损伤或疾病导致身体向死亡发展过程的特点和规律,并针对这些特点和规律对重症患者进行治疗的学科。大数据时代为危重症患者的研究提供了前所未有的机会。通过加强基础研究和临床研究,充分利用大数据和人工智能是未来关键的医学发展趋势。为了促进重症医学研究工作,美国麻省理工学院的计算生理学实验室、美国贝斯以色列迪康医学中心和飞利浦联合发布了模拟数据库(重症监护医疗信息中心)。该数据库收集了2001~2012年居住在以色列灯塔迪康医疗中心重症监护室(ICU)4万多名真实患者的临床诊疗信息。该数据库样本量大,信息全面,患者跟踪时间长,可免费使用,为重症监护研究提供了丰富的资源,解决了临床医务工作者面临的大量系统的临床诊断和治疗数据问题,以满足科研需求。模拟数据库在使用过程中涉及编码工作,这对临床医生来说是一个挑战。GitHub平台提供了一个开源的代码包以分析患者的特征,该代码包可以被世界各地的研究人员免费下载和使用。模拟数据库为重症医学、循证医学、临床大数据挖掘、医学监测设备数据分析等领域的研究提供了巨大支持,并取得了丰硕的成果。
中国居民健康和营养调查( China Health and Nutrition Survey,CHNS)项目,是一个开放的公共平台( http: //www.cpc.unc.edu/projects/china)。该项目是由北卡罗来纳大学教堂山分校人口中心与中国疾病预防控制中心的营养与健康中心共同开展的一系列国际合作,旨在探讨中国的社会经济转型和计划生育政策在过去30年来如何影响国家的健康和营养状况。研究包括社区组织、家庭和个人经济、人口和社会因素的现状及变化。这次调查的研究团队是一个国际营养研究小组,其由营养学、公共卫生学、经济学、社会学和人口统计学领域的研究人员组成。项目始于1989年,分别于1989年、1991年、1993年、1997年、2000年、2004年、2006年、2009年、2011年、2015年进行了项目研究、数据汇编和发布。CHNS网站于2018年6月12日更新了数据集内容。更新后的数据集涵盖了1989~2015年的10个调查数据的垂直集成数据。该调查显示,营养、食物或饮食模式的形式发生了变化,这种饮食转变与教育、收入、城市化、宏观食品环境和政策有关。调查采用多阶段分层聚类随机抽样的方法,收集了中国东部、中部、西部地区15个省级行政单位的数据。截至2018年8月,该调查采集220份社区样本,7200份家庭样本,30000份居民样本。调查数据包括社区调查数据、家庭调查数据和个人调查数据。个人和家庭调查数据包括基本的人口统计数据、健康状况、营养和饮食状况、健康指标及医疗保险。CHNS数据中的家庭调查数据和个人调查数据可在CHNS官方网站上免费获得,研究数据集可在CHNS项目的官方网站上下载和获取,非常高效、方便。社区调查数据可以通过社区一级的数据使用协议获得,并在线完成。研究人员可以应用CHNS数据库信息,详细阅读以充分了解CHNS项目。CHNS项目的官方网站提供了一个清晰而详细的研究描述文档,包含调查问卷、数据库描述、ID变量名等。CHNS项目是一项国际合作的纵向队列研究,研究涵盖了中国居民在个人、家庭和社区层面的健康和营养状况数据,为中国的国民健康、营养、医疗、经济、社会等研究提供了更全面的数据支持。CHNS项目的官方网站不仅涵盖了研究的细节,还动态更新了研究的数据。
人口老龄化作为衡量国际经济和社会发展水平的一个重要指标,不仅意味着老年人口数量增加,而且对经济和社会构成了严峻挑战,这已成为一个不容忽视的主要社会问题。关于老龄化人口健康的研究有许多,数据类型不断丰富,数据储备正在迅速增长。通过传统的数据收集方法,很难进行有效、全面的统计分析。健康与退休研究( Health and Retirement Study,HRS)是一个宝贵的公开可用数据库,由美国国家老龄化研究所( NIA U01AG009740)和社会保障局支持。通过其*特而深入的访谈,HRS提供了宝贵且不断增长的多学科数据,研究人员可以使用这些数据解决有关老龄化挑战和机遇的重要问题。HRS数据库样本量大、质量高、内容复杂,分为公共数据和敏感/受限数据。任何人都可以在HRS数据库下载网站创建账户,以获取公共数据。HRS数据库可访问7个领域,包括2年1次的数据产品、垂直数据、非选举年度研究、敏感健康数据等。每个子数据集文件都可以被3种不同的统计语言读取,如SAS、SPSS或Stata。HRS数据库可以帮助各学科的研究人员获得更方便、高效、清晰的数据,以提高工作效率。
英国生物样本库( http: //www.ukbiobank.ac.uk)是世界上昀大的生物医学样本数据库,于2017年4月30日正式向全球研究人员开放了所有数据。2006~2010年,英国生物样本库从英国各地招募了50万名40~69岁的志愿者以获得基线数据,包括家族史、药物史和健康状况。英国生物样本库收集了约1500万份血液、尿液和唾液的生物样本,并对所有参与者进行了基因分型和血液生化分析。此外,该数据库将长期跟踪他们的健康和医疗概况信息。同时,该数据库收集了所有的研究结果,并将其提供给其他研究人员,旨在研究遗传因素、环境因素、生活习惯等与人类重大疾病的关联。英国生物样本库于2014年启动了一项新的医学成像数据收集项目,目的是使用磁共振成像(MRI)和X线成像技术对10万多名志愿者的大脑、心脏和骨骼进行检查。通过成像分析,建立了内脏器官扫描图像的数据库,这也将是迄今为止世界上昀重要的健康成像研究。这些大量的数据将帮助研究人员分析人口差异及其原因,如癌症、心脏病、糖尿病、关节炎、阿尔茨海默病,甚至改变科学家对这些慢性病和流行病的看法。英国生物样本库的申请过程对研究者和研究机构的研究背景、研究目的和研究动机有很高的要求,包括需要提供昀近发表的学术结果的证据,以确保研究诚信进行。英国生物样本库昀显著的优势是,所有招募的志愿者都在英国国家医疗服务体系( National Health Service,NHS)注册,并同意将他们的医疗记录联系起来。这使得英国生物样本库能够通过国家医疗数据详细跟踪所有志愿者的健康状况。前瞻性队列研究对识别疾病危险因素及疾病的预防和治疗具有重要意义。然而,队列太小不利于研究罕见疾病及不同危险因素与疾病之间的复杂关系。英国生物样本库的前瞻性和大样本量及与健康记录的持续整合为研究人员提供了一个优秀的平台以解决各种研究问题。英国生物样本库的缺点是,样本提供者必须填写一份详细的基本情况问卷,问卷内容包括姓名、性别、NHS号码、疾病信息等,而且不可避免地会出现隐私泄露。同时,注册和申请过程复杂、烦琐,期限长。这对*次申请者来说可能很困难。我们相信,英国生物样本库未来将提供更全面的研究数据和生物样本覆盖,为全球研究人员提供更高效、更方便的服务。