第1章 绪论
1.1 什么是生物信息学
生命科学从一开始就产生了不同种类的原始数据,通过对这些数据进行存储、对比、注释和分析,能够挖掘出这些数据所蕴含的生物学意义。自从20世纪80年代启动人类基因组测序计划以来,各种高通量技术引起生物数据呈指数增长,生命科学研究进入“后基因组学”时代。海量数据必须通过信息科学的方法才能有效收集、分析、整理。因此,将生命科学与信息科学,特别是计算机科学结合起来,正日益成为一种有效的研究手段,生物信息学应运而生了。生物信息学是一个跨学科的科学领域,它将生物学、计算机科学、信息工程、数学和统计学结合起来以分析和解释生物数据。
1.2 生命科学与人工智能(深度学习)相关大记事
计算机科学、人工智能科学一直与生命科学研究交叉融合发展。在早期阶段,科研人员关注数据存储、序列比对、算法研究。20世纪80年代后,数据挖掘和机器学习发展成为生物信息学一个重要的分支,通过对不同组学数据(基因组、转录组、蛋白质组和代谢组)的生物大数据分析,机器学习在生物信息学中得到了广泛的应用。目前存在大量基于机器学习的生物信息学工具和软件可用。2006年以前,虽然神经网络(人工智能的重要分支)也经历了几十年研究,但是由于效果不理想,很难大规模应用。2006年之后,随着多层神经网络的快速发展,基于神经网络的深度学习在生物信息学研究和计算分子生物学中日益受到重视。下面我们列举出生命科学与人工智能(深度学习)的相关大记事,如表1.1所示。
1.3 神经网络(深度学习)与生命科学的内在联系
初中时,我们已经通过生物课了解到人类的大脑有很多神经元。一个神经元通常具有多个树突,主要用来接受传入信息;而轴突只有一条,轴突尾端有许多轴突末梢可以给其他多个神经元传递信息。轴突末梢跟其他神经元的树突产生连接,从而传递信号。这个连接的位置在生物学上叫作“突触”。成人的大脑中估计有1000亿个神经元,这些数量巨大的神经元细胞彼此连接,构成了一个复杂的脑神经网络,成为我们人类的指挥中心。
人类对于神经元的研究由来已久,虽然早在1904年,生物学家就已经知晓了神经元的组成结构,且神经元是组成人类大脑的基本单元,但是由于人类大脑的复杂性和精妙性,迄今为止的研究还不能完全揭示人类大脑的奥秘。
通过科学研究来部分代替,甚至完全代替人类的劳动,实现类人工智能,一直以来都是人类的梦想。进入20世纪以来,随着芯片技术、计算机技术、生命科学等的飞速发展,人工智能的研究也是潮起潮落、几经波折。在众多的人工智能研究分支中,神经网络是一种模拟人脑的神经网络以期能够实现类人工智能的机器学习技术。
1.单个神经元细胞的抽象
图1.1(a)是一个神经元细胞,它由一些树突和一个轴突组成,受此启发科学家提出了单个神经元模型[图1.1(b)]。该模型可以进一步表示成数学公式:
(1.1)
这使得单个神经元模型具有了可计算的功能。
2.多个神经元细胞的抽象
如图1.2所示,将多个神经细胞连接起来,我们可以抽象出深度学习网络。在这个网络中,既有全连接,也有部分连接,一些受损或者凋亡的细胞,深度学习网络中我们可以用Dropout的方法进行模拟。
图1.2 多个神经元细胞的深度学习抽象
1.4 深度学习在生物信息学中的主要应用
人工神经网络自提出起就被尝试应用到生命科学研究中,并在物种分类、疾病预测等方面取得了一定进展,但是由于早期人工神经网络比较简单,不能处理复杂数据,且运算效率较低,因此在复杂生命科学研究中并没有得到广泛推广。2006年以来,深度学习在声音、图像等领域带来了革命性的突破,因此深度学习也被广泛引入生命科学研究中(表1.2),在功能基因组学、图像分析和医学诊断等领域展现出超过传统研究方法的优势。
1.5 生物信息学杂志
比较主流的中外生物信息学杂志包括:Briefings in Bioinformatics,Bioinformatics,Nucleic Acids Research,BMC Bioinformatics,TCBB (IEEE/ACM Transactions on Computational Biology and Bioinformatics),中国科学,计算机研究与发展等。
展开