《人工智能药物研发》概述了药物设计中人工智能方法开发与应用的*新进展,内容涵盖药物发现与开发、计算化学、药物化学、药物设计、药理学等多个交叉领域。《人工智能药物研发》系统介绍了人工智能对传统药物设计方法的加速和革新,包括基于结构和配体的药物设计、增强和多目标从头药物设计、从头分子生成、靶点结合活性与结合预测、ADMET(吸收、分布、代谢、排泄和毒性)性质、药代动力学、药物代谢、药物毒性预测、精准医疗、化学合成路线预测、大数据分析,以及人工智能对未来药物研发的影响。
第1章 人工智能在药物设计中的应用:机遇与挑战
据估计,临床候选药物获批的成功率自 20世纪70年代以来已下降至2015~2017年的 10%[1, 2]。因此,获批新药的研发成本急剧增加 [1]。显而易见,降低制药行业成本的*有效方法是提高临床试验的成功率(图1.1)[3]。而大约80%的临床试验失败是由于未能证明候选药物在患者中具有足够的疗效或安全性[2]。正如阿斯利康(AstraZeneca)近期的研究所示,在药物设计的早期过程中,选择具有适当药代动力学特性、理想安全性,并具有适当细胞和生理活性的化合物非常重要[4]。尽管基于细胞和组织的疾病模型已取得了积极进展,但设计相关的体外试验来预测化合物的表现仍具挑战性。出于这一原因,在候选药物设计中帮助制定决策的计算方法的开发已成为一个备受关注的领域[3]。而近期提出的许多方法是基于AI策略。本章将重点讨论旨在协助药物设计决策的AI技术的发展。
图1.1 在药物发现与开发各个阶段中效率提高(时间缩短20%、失败率降低20%或成本降低20%)所带来的潜在成本节约[3]
候选药物的成功发现需要在药物设计的早期阶段即选择合适的化合物,并对其进行有效优化以满足适当的性质。药物设计的主要阶段AI的应用如表1.1所示。通过对大型化合物库进行筛选,可以获得苗头化合物(hit)或具有良好活性的化合物;可以使用多种技术,包括化合物对靶点生物分子活性的生化、生理测试,以及在基于细胞或组织模型系统中测试化合物的功效[11]。现代化合物筛选库中包含数百万种不同的化合物。因此,无论使用哪种方法,寻找具有适当特性的全新苗头化合物进行开发都是极具挑战性的。*近的分析表明,43%的临床候选药物来源于已知化合物[12]。具有良好的活性及吸收、分布、代谢、排泄和毒性(absorption,distribution,metabolism,excretion and toxicity,ADMET)性质的苗头化合物会被选为先导化合物(lead compound),然后需要针对其活性和选择性进行优化,同时保持适当的ADMET性质[4]。从临床试验的成功率而言,这一过程常常无法有效地获得在患者体内表现出良好药效学(pharmacodynamics,PD)和药代动力学(pharmacokinetics,PK)特性的分子[1]。基于靶点的筛选通常会发现具有意想不到药效学特性的苗头化合物,这可能是由其脱靶效应导致的。虽然表型筛选可以更有效地测试体内药效学,但优化具有未知靶点的苗头化合物活性一般具有较高的难度。此外,由于药代动力学性质不佳或意外毒性,任何来源的苗头化合物都可能在后期出现问题[4]。因此,药物设计中计算方法的*重要目标应该是在整个药物设计过程中协助选出*有可能在患者体内表现出良好特性的化合物。
表1.1 药物设计不同阶段AI的应用
很多数据库已经收集了有关化合物的性质、反应和相互作用的信息。然而,这些数据却不成比例地集中于一小部分经过充分研究的靶点。虽然针对一些靶蛋白已经报道了数千个化合物的生物活性,而对于ChEMBL[13]数据库,在其7748个靶点中,有多达5640个靶点的活性化合物数量少于100个。此外,与描述化合物体外活性的数据集相比,描述化合物体内活性的数据集数量相形见绌。ChEMBL数据库中包含1600万条生物活性数据,而描述肝毒性的DILIRank[14]数据集仅包含1036个定性数据点。再者,分子的生物活性取决于剂量、时间和测试系统的可变性,这也使得对这些数据的一致注释极具挑战[3]。然而,这些数据集中包含的信息是构建模型以预测化合物体内特性的重要资源。虽然可以有效地进行物理模拟来评估配体与靶点生物分子的相对结合自由能[15],但几乎没有希望对复杂的生理系统(如血脑屏障 [16])进行模拟,因此需要使用经验模型(empirical model)。经验模型,如定量构效关系(quantitative structure-activity relationship,QSAR)和定量构性关系(quantitative structure-property relationship,QSPR)研究常使用ML模型预测分子的性质。目前,经验模型已被广泛用于辅助新药的设计,特别是在优化ADME(吸收、分布、代谢、排泄)性质及避免常见毒性方面[9, 17]。用于化学数据的常见ML模型包括随机森林(random forest,RF)和支持向量机(support vector machine,SVM),二者都可接受“化学指纹”(chemical fingerprint)描述符向量的输入[9]。*近,深度神经网络(deep neural network,DNN)也大受欢迎。这些模型通过处理输入的SMILES字符串[18]或分子图像等,避免了指纹选择,并且可以执行更复杂的任务,如多任务学习(multitask learning)。然而,与其他模型一样,其性能通常受到可用数据的限制[19,20]。
这些ML模型可用于创建AI系统,以帮助药物设计中的决策制定[21]。AI系统展示了其模拟人类解决问题的能力,当收到信息时,它们可以对模式进行识别并就行动过程提出建议或做出决定[21, 22]。本章描述了解决药物设计中一些*紧迫问题的ML方法,重点关注这些方法取得重大进展的三个关键领域: VS、CASP和基于生成模型的从头分子生成。如果可以创建在上述领域做出有效决策的AI系统,将对候选药物的设计有很大的帮助。然而,目前流行的 ML中的许多方法在没有专家干预的情况下,都无法提供在实际药物设计中做出决策所需的信息。经常遇到的限制是缺乏对预测置信度和机械推理的有效沟通。这些问题将在本章的*后一节进行探讨。
1.2 人工智能在药物设计中的应用
1.2.1 虚拟筛选
1.2.1.1 简介
药物发现流程的**步有时是从大型化合物库(热门化合物)中识别出活性化合物。目前,这一步主要是借助高通量筛选(high throughput screening,HTS)对大型化合物库内的化合物进行项目相关活性的测试筛选[23]。这发挥了活性实体测试的试验优势,而不仅仅是通过计算机进行评估预测。然而,HTS并不总是*适合的策略。大型化合物库的实体筛选成本高昂,而且这些化合物库仅涵盖一小部分化学空间。此外,并非每项检测都可以大规模地进行。一般而言,需要在所收集实验数据的数量和相关数据的质量之间进行权衡,并且这种权衡必须针对每项测试单*进行。
另一种方法是VS,其可以作为HTS的补充或替代方案。VS主要通过计算机而不是实体体外试验来筛选化合物,这种方法成本更低且不受限于实体化合物库,弥补了HTS的不足。通常,VS可实现对活性化合物的发掘,提高了发现苗头化合物的可能性,并降低了下游实验的成本[24]。在存在明确的设计假设(如经过验证的靶点)的情况下尤为如此。然而,与许多计算机方法一样,VS仅为近似的预测,也可能会做出不正确的预测。发生这种情况时,非活性分子可能会被标记为假阳性,从而导致后续下游测试中宝贵资源和时间的浪费。因此,仍然有必要提高VS的成功率。
VS可分为两种类型,分别是基于配体的VS和基于结构的VS。基于配体的VS使用一组具有已知活性的化合物,并尝试根据参考数据集识别其他活性分子。由于基于配体的VS不需要有关生物系统的任何机制信息,因此当靶点结构未知或可能存在多个靶点时,这一方法较为合适。然而,筛选的成功需要一个“善于表达”的预测模型来优先考虑活性化合物。相比之下,基于结构的VS主要根据配体三维(3D)结构与靶点结合口袋的互补性来评估配体是否可能与靶点结合。这种机制研究可以为药物设计过程提供非常丰富的信息。但有时很难获得靶点的3D信息,因为并不是每一个靶点的结构都是已知的。此外,基于结构的VS中使用的软件通常是单一的,不易针对新的或特定的靶点进行轻松的定制。该方法常使用对接应用程序,如AutoDockVina[25]和Glide[26]等。
ML提供了一系列灵活、强大和数据驱动的新方法。本节将介绍ML和VS的应用示例,重点介绍其机遇和挑战,同时介绍在使用化学数据进行 VS时需要考虑的关键因素。
1.2.1.2 基于机器学习虚拟筛选中的数据集偏差
如果一个数据集的数据点不是从基础数据中随机、均匀选择的,那么该数据集是有偏差的。因此,所得样本与基础数据分布并不完全匹配。在实践中,大多数数据集都具有一定程度的偏差。对于基础数据进行推断并推广至新的、看不见的数据点,重要的是要了解训练集和测试集中的偏差,以及其如何影响ML模型在实践中的适用性。
由于多种原因,VS中使用的分子数据集存在一定的偏差。首先,相对于潜在的分子空间,数据库相对较小。尽管化学数据库在过去几年间发展迅速,其中一些甚至包括了数亿个化合物[27],但其仍然仅涵盖了整体小分子化学空间[28]或“类药空间”的一小部分,而全部化学空间估计包含多达1060个分子[29]。其次,药物开发管线的性质也可能导致偏差。合成工作通常集中在已知的成功分子上,而不是生成不相关的分子。此外,新分子的设计通常会持续进行,在苗头化合物选择和先导化合物优化过程中逐渐增加[30]。因此,化学空间的探索区域是由局限的“簇样本”而不是均匀的样本构成的。
这些限制意味着研究人员在拆分数据集以进行训练和测试时应经过充分的考虑[31]。虽然可以采用不同的拆分策略,但每种策略都有其优势和局限性。通常随机拆分方法(包括交叉验证)很容易实现,但由于数据冗余,通常会导致过于乐观的结果。如果来自同一簇的不同分子被分成训练集和测试集,则信息可能会从测试集“泄漏”到训练集,因为这些分子可能共享相同或相似的结构骨架。由于模型可能会识别类似物而不是进行广泛的识别,因此可能会造成对模型性能的高估[32]。与尝试减轻信息泄漏的随机分配方法不同的是聚类分配(cluster spitting)法。该策略使用通用无监督学习方法(general unsupervised learning method)(如k均值)或化学特定聚类技术(如Butina-Taylor[33, 34])对分子进行聚类,然后将每个聚类分配至训练集或测试集[31,32]。
然而,聚类分配可能低估了泛化的必要性。因为在现实世界中,我们希望训练集与测试集共享一些分子骨架,以便做出可靠的推断。另一种拆分方法是按时间分离数据,使得某个日期之前在数据库中登记的所有分子都被归入训练集,而在该日期之后登记的分子都被归入测试集[35, 36]。这种方法通过将数据视为时间序列来更好地模拟前瞻性验证,但其也设定了一个基本假设,即过去和未来化学空间的增长速度及方向都是相似的。
研究人员应该注意的另一个警示是目前尚缺乏普遍接受的化学数据库来评估VS模型。虽然其他研究领域已有标准化且被广泛接受的基准数据库,如用于计算机视觉的MNIST手写数字数据库[37],但化学空间的偏差和药物化学问题的异质性使其难以实现,在药物发现方面同样如此。不过,建立通用参考数据库的概念是可以理解的,并且已有相关的尝试。
在某些情况下,为某一特定领域开发的基准数据库会被错误地用作其他领域的基准数据库。一个代表性实例是实用的诱饵增强(database of useful decoys-enhanced,DUD-E)模型[38]。DUD-E模型中包含一系列靶蛋白的活性和诱饵配体,根据物理特性(如分子量、log P或净电荷)将诱饵配体与活性分子进行特性匹配。DUD-E模型*初旨在评估对接算法,但也被广泛用于对ML模型进行基准测试[39-42]。然而,DUD-E模型中使用的属性匹配不会使 ML模型无法区分活性配体和诱饵配体,这可能是由于数据驱动的ML模型可以在数据点中发现超出简单物理属性的细微差异[39, 43]。因此,通过DUD-E模型证明M
目录
第1章 人工智能在药物设计中的应用:机遇与挑战 1
1.1 引言:药物设计面临哪些挑战 1
1.2 人工智能在药物设计中的应用 4
1.3 药物设计中人工智能决策的挑战29
1.4 总结 32
第2章 机器学习在药理学和ADMET终点建模中的应用 46
2.1 引言46
2.2 ML在ADMET问题中的应用 48
2.3 总结与展望70
第3章 以人工智能挑战新型冠状病毒感染 79
3.1 引言79
3.2 基于结构的药物再利用81
3.3 人工智能在药物再利用中的应用82
3.4 研究中的再利用药物83
3.5 挑战与展望84
第4章 人工智能和机器学习在药物发现中的应用 88
4.1 引言88
4.2 生成化学92
4.3 靶点分析93
4.4 ADMET预测和评分93
4.5 合成规划94
4.6 总结95
第5章 深度学习与计算化学 99
5.1 引言99
5.2 深度学习在计算化学中的应用 103
5.3 深度学习的影响 107
5.4 深度学习的开放性问题 109
5.5 深度学习的未来 112
第6章 人工智能是否影响了药物发现 119
6.1 引言 119
6.2 从头设计工具 120
6.3 人工智能和生成模型在药物发现中的应用 121
6.4 生成模型的前世今生 122
6.5 生成模型的使用:分布学习vs导向学习 122
6.6 在药物发现中的应用 123
6.7 REINVENT:使用生成模型 127
6.8 化合物库的分子从头设计 129
6.9 人工智能应用面临的挑战与未来发展 129
第7章 网络驱动的药物发现 137
7.1 引言 137
7.2 网络生物学和药理学 138
7.3 对药物发现的影响 139
7.4 网络驱动的药物发现 141
7.5 验证 143
7.6 总结 144
第8章 GPCR配体滞留时间的机器学习预测 147
8.1 引言 147
8.2 材料 151
8.3 方法 151
8.4 注释 155
第9章 基于化学语言模型的从头分子设计 158
9.1 引言 158
9.2 材料 160
9.3 方法 162
第10章 用于QSAR的深度神经网络 180
10.1 引言 180
10.2 分子特征 182
10.3 深度神经网络结构 184
10.4 改进模型性能 187
10.5 模型的可解释性 190
10.6 总结 193
第11章 基于结构的药物设计中的深度学习 202
11.1 引言 202
11.2 评分函数 203
11.3 基于结构的虚拟筛选 206
11.4 展望 206
第12章 深度学习在基于配体的从头药物设计中的应用 211
12.1 引言 211
12.2 从头设计:历史和背景 212
12.3 从头设计的神经网络架构 213
12.4 基于配体的深度生成模型在从头药物设计中的应用 221
12.5 基于配体的深度生成模型的界限突破 224
12.6 总结 225
第13章 超高通量蛋白 -配体对接与深度学习 233
13.1 引言 233
13.2 材料 234
13.3 方法 236
第14章 人工智能和量子计算——制药行业的下一个颠覆者 249
14.1 引言 250
14.2 方法 253
14.3 总结 265
第15章 人工智能在化合物设计中的应用 270
15.1 引言 270
15.2 材料 271
15.3 方法 272
15.4 总结 287
第16章 人工智能、机器学习和深度学习的实际药物设计案例 297
16.1 引言 297
16.2 应用领域 298
16.3 总结与展望 308
第17章 人工智能——提高从头设计新化合物的可合成性 318
17.1 引言 318
17.2 计算分子生成 319
17.3 逆合成规划和合成可行性评估 320
17.4 合成可行性和深度生成算法的结合 323
17.5 总结 324
第18章 基于组学数据的机器学习 327
18.1 引言 327
18.2 数据探索 328
18.3 模型的定义 330
18.4 超参数搜索 330
18.5 模型验证 332
18.6 *终模型的训练和解释 332
第19章 深度学习在治疗性抗体开发中的应用 335
19.1 引言 335
19.2 抗体开发中的监督学习 337
19.3 抗体开发中的无监督学习 340
19.4 总结 342
第20章 机器学习在ADMET预测中的应用 345
20.1 引言 345
20.2 材料 346
20.3 方法 349
20.4 注释 352
20.5 总结 353
第21章 人工智能在药代动力学预测应用中的机遇与思考 356
21.1 引言 356
21.2 DMPK的演变 356
21.3 人工智能在药代动力学预测中的机遇 358
21.4 数据的质量 363
21.5 体内数据 365
21.6 机遇与挑战 367
21.7 前瞻性视角 368
第22章 人工智能在药物安全性和代谢中的应用 372
22.1 引言 372
22.2 药物代谢和药代动力学的演变 374
22.3 计算毒理学模型的应用 376
22.4 未来展望 382
第23章 基于匹配分子对的分子构思 388
23.1 引言 388
23.2 MMP算法 389
23.3 BioDig:GSK转换数据库 389
23.4 基于MMP的大规模分子构思 391
23.5 基于MMP知识库的价值量化 392
23.6 新转换日益增长的tail命令 393
23.7 实用的MedChem转换子集 395
23.8 MMP作为分子生成工具的评估 396
23.9 **次测试——人工参与 398
23.10 第二次测试——模仿人工 399
23.11 第三次测试——遗留项目 400
23.12 总结 401