第1章 界定与分类
目前,对健康医疗人工智能(Health AI)的界定尚未建立统一标准和共识。通过对科学出版物的分析可帮助我们系统、清晰地描述该领域及其子领域所涵盖的内容和知识结构,本报告尝试提出对该领域科学出版物数据集的界定方案。
一、数据集界定
(一)科学出版物数据集
**部分来自PubMed数据库。采用医学领域权威的知识组织体系——医学主题词(medical subject headings,MeSH),通过PubMed数据库对健康医疗人工智能科学出版物进行界定。为减少数据噪声,本报告采用主要主题词(MeSH major topic,该文章*核心的研究内容)检索出版物。一般情况下,每篇PubMed论文会标注10条左右的MeSH主题词,但会从中再遴选出3~5个*能代表这篇论文核心内容的主题词,标注为主要主题词。如果一篇论文被标注的主要主题词中同时含有医疗保健和人工智能两个方面,则视为健康医疗人工智能科学出版物。其中,“医疗保健”采用“diseases category”或“health care category”或“mental disorders”及其所有下位术语来表示;“人工智能”采用“artificial intelligence”或“big data”或“medical records systems, computerized”或“random forest”及其所有下位术语来表示,通过该数据库收集2013—2022年健康医疗人工智能相关研究的期刊论文。
第二部分来自Scopus数据库。在计算机科学领域,由于计算机知识和技术迭代速度较快,学术期刊审稿周期较会议论文慢,该领域的学者对顶级会议上发表的论文也较为关注。人工智能的主要成果产出除了发表在学术期刊上,也会发表在国际顶级会议,如CVPR、ICCV、AAAI、NeurIPS等国际会议。Scopus是会议论文主要收录的数据库之一,因此本报告选取Scopus数据库获取健康医疗人工智能相关的会议论文。通过中国计算机学会发布的《中国计算机学会**国际学术会议和期刊目录(2022版)》确定人工智能领域**的40个国际学术会议,通过主题词检索获取2013—2022年发布在目标国际学术会议上的论文。
由于期刊论文与会议论文的发表周期存在差距,会议论文相较期刊论文具有发表新兴技术和前沿发现的优势,因此本报告分别对二者构建健康医疗人工智能语料库,进而展开分析并对比主要内容的异同。
(二)科学技术数据集
本报告通过专利数据探究健康医疗人工智能领域技术发展变化的特征和趋势,专利数据由Digital Science提供,Digital Science旗下Dimensions平台是世界上*大的科学研究关联信息平台之一。本报告采用研究领域(.eld of research,FOR),通过Dimensions平台检索健康医疗人工智能相关领域的专利数据。在Dimensions平台中,每条专利数据被标注了对应的研究领域。如果一条专利数据被标注的研究领域中同时含有医疗保健和人工智能两个方面,则视为健康医疗人工智能科学出版物。其中,“健康医疗”采用“biomedical and clinical sciences”或“health sciences”或“clinical and health psychology”及其下位研究领域来表示;“人工智能用”采用“arti.cial intelligence”或“machine learning”及其下位领域来表示。
二、研究领域分类
由于本报告的数据集以科学出版物为主,且聚焦健康医疗领域,因此我们考虑仍采用医学主题词表这一术语体系对健康医疗人工智能研究领域进行分类。科学出版物中的期刊论文为PubMed数据库检出,含自动标注的MeSH术语,Scopus数据库检出的会议论文数据未标注MeSH主题词,对于这部分科学出版物,采用文本挖掘工具——medical text indexer(MTI)将标题和摘要文本自动映射并标注MeSH主题词,我们将每一段文本自动分配一个*立识别编号,用于后续返回结果与科学出版物对应。得到MTI结果后,通过Python程序提取MeSH主题词及对应科学出版物。对于专利数据,也同样利用MTI工具将专利名称和专利摘要文本自动映射并标注MeSH主题词。
本报告重点关注以下两个研究领域的分类情况。
(一)健康医疗问题分类
健康医疗人工智能涉及健康医疗问题领域的分类是本报告重点关注的方面之一。
这里我们仍然采用医学主题词表这一术语体系对健康医疗人工智能涉及的疾病进行分类。考虑到大部分科学出版物标注的医学主题词都是比较精细的下位词,而医学主题词呈树状层级结构,因此我们打算采用2位数的MeSH词(将比较精细的下位词向上映射)进行分类,以确保分类的精度。在数据集界定中提到,我们采用“Diseases Category [C]”或“Mental Disorders [F03]”或“Health Care Category [N]”及其所有下位术语来表示“疾病或健康”,故我们采用Diseases Category [C]、Health Care Category [N]的一级下位术语及Mental Disorders [F03]进行分类,详见表1-1。
表1-1 健康医疗领域分类MeSH对应表
(二)聚焦技术细分领域分类
此外,健康医疗人工智能涉及的聚焦技术细分领域分类,也是本报告重点关注的方面。
鉴于本报告的数据集主要以聚焦健康医疗领域的科学出版物为主,故我们考虑采用医学主题词表这一术语体系对健康医疗人工智能技术领域进行分类。
在MeSH树状结构表中,人工智能(Arti.cial Intelligence)属于信息科学(Information Science)大类下,具体的层级结构为:
Information Science Category [L] 信息科学类
-Information Science [L01] 信息科学
--Computing Methodologies [L01.224] 计算机方法学
---Algorithms [L01.224.050] 算法
----Arti.cial Intelligence [L01.224.050.375] 人工智能
“Arti.cial Intelligence”这一术语的MeSH编码为L01.224.050.375,拥有8个一级下位术语(包括计算机启发式决策、专家系统、模糊逻辑、知识库、机器学习、自然语言处理、神经网络、计算机和机器人)。这些Arti.cial Intelligence与其8个一级下位术语的具体的层级结构为:
Arti.cial Intelligence [L01.224.050.375] 人工智能
-Computer Heuristics [L01.224.050.375.095] 计算机启发式决策
-Expert Systems [L01.224.050.375.190] 专家系统
-Fuzzy Logic [L01.224.050.375.250] 模糊逻辑
-Knowledge Bases [L01.224.050.375.480] 知识库
--Biological Ontologies [L01.224.050.375.480.500] 生物学本体
---Gene Ontology [L01.224.050.375.480.500.500] 基因本体
-Machine Learning [L01.224.050.375.530] 机器学习
--Deep Learning [L01.224.050.375.530.250] 深度学习
--Supervised Machine Learning [L01.224.050.375.530.500] 有监督机器学习
---Support Vector Machine [L01.224.050.375.530.500.500] 支持向量机
--Unsupervised Machine Learning [L01.224.050.375.530.750] 无监督机器学习
-Natural Language Processing [L01.224.050.375.580] 自然语言处理
-Neural Networks, Computer [L01.224.050.375.605] 计算机神经网络
--Deep Learning [L01.224.050.375.605.500] 深度学习
-Robotics [L01.224.050.375.630] 机器人
除此之外,位于信息科学大类下的“Random Forest[L01.224.050.843] 随机森林”,MeSH词的释义为:一种用于决策分析和机器学习的算法,它使用一组树来组合多个随机生成的决策树的输出。每棵树的*终分类通过加权值进行聚合和评估,以构造*终的分类器。(An algorithm used in decision analysis and MACHINE LEARNING that uses a set of trees to combine output of multiple, randomly generated DECISION TREES. The .nal class of each tree is aggregated and evaluated by weighted values to construct the .nal classi.er.)该释义明确说明了随机森林是机器学习的一种算法,符合本研究分析范围,因此也将该术语纳入技术细分领域的分析,根据定义将其归为“机器学习”分类。
考虑到上述术语间存在交叉,在咨询医学信息学和医疗人工智能领域专家意见后,反复研判,按照如下规则对其进行重组分类:①将Computer Heuristics、 Fuzzy Logic、Expert Systems合并,统一称为“决策规则”类,这是因为它们都提供了具有解释性的预测模型;②将Neural Networks,Computer和Random Forest与Machine Learning合并,统一称为“机器学习”(含深度学习)类。处理后,共计5个大类。值得注意的是,这五大类技术并非完全相互*立,而是存在一定的交叉。例如,机器学习大类的下位术语深度学习、神经网络,也往往被用于自然语言处理;但本分类基本可以反映健康医疗人工智能的技术分类概况。具体聚焦技术MeSH分类见表1-2。