第1章 绪论
内容提要
生物统计学是指应用统计学的原理和方法来分析、理解、推导和探究蕴含在生命科学领域中的各种纷繁复杂现象背后的生命科学规律、本质的一门学科。生物统计学的研究内容主要包括试验设计、统计分析方法及其基本原理。常用的试验设计方法主要有:对比设计、随机区组设计、拉丁方设计、正交设计等;统计分析方法主要包括描述性统计、显著性检验、相关与回归、协方差分析、多元统计分析。生物统计学的主要目的是对试验资料进行科学的整理、分析数据、判断试验结果的可靠性、确定事物之间的相互关系、提供试验设计的基本思路,为学习相关学科和科学研究奠定基础。生物统计学是一门较年轻的学科,随着计算机统计软件(Minitab、DPS、SPSS、SAS 等)的开发而得到快速的发展,已广泛应用于各领域,并和其他学科交叉形成了诸如生物信息学等新的学科。
1.1生物统计学的定义
1.1.1统计学
统计学(statistics)是一门通过搜集、整理、分析、解释统计资料,揭示其内在客观数量规律性的学科。由于它具有准确、客观等特点,已广泛应用于自然科学、社会科学、人文科学以及政府情报决策中。
statistics*早起源于拉丁语statisticum collegium;到了16世纪,意大利语stato表示“国家”和“情况”的含义,随后传播到德、法、荷等国,德国西尔姆斯特大学教授康令(H. Conring,1606—1681)在大学开设了一门staatenkunele 课程,原意是对各国状况的比较,引起了许多学者的关注。随后,德国哥廷根大学教授阿亨瓦尔(G.Achenwall,1719—1772)在康令思想的基础上,把关于人口、财政、军队等事项的学问称为“国势学”,并在1749年出版的《近代欧洲各国国势学概论》(Kompendium der politischen Verfassung europ?ischer L?nder und V?lker)中首创了“statistik”这个词汇,即“统计学”。1787年,英国学者齐默尔曼(E. A. W. Zimmerman)据语音把“statistik”译成英语“statistic”。19世纪,该词传到日本,日本的学者将其译成了“统计学”。
1903年,我国学者钮永建等翻译了日本学者横山雅男所著于的《统计讲义录》,统计一词传入我国。1907年,彭祖植编写的《统计学》这是我国*早的一本统计学书籍;随后,1913年,顾澄翻译了英国学者尤尔(G. U. Yule,1871—1951)所著的于1911年出版的《统计学之理论》(Introduction to the Theory of Statistics),这是英美数理统计学传入中国之始;之后又有一些英美统计著作被翻译成中文,费希尔(R. A. Fisher,1890—1962)的理论和方法也很快传入中国。在20世纪30年代,《生物统计与田间试验》作为农学系的必修课,1935年出版的由王绶(1897—1972)编著的《实用生物统计法》是我国出版*早的生物统计专著之一;1942年出版的由范福仁(1909—1982)编著的《田间试验之设计与分析》等。这些翻译和编著的统计学书籍对推动我国农业生物统计和田间试验方法的应用产生了很大影响。现今,统计学已被延伸到生物学、医学、心理学等领域,相应地又形成了一系列新的学科,包括生物统计学、医学统计学、心理统计学等。
1.1.2生物统计学
在生产实践活动中,人们往往会遇到下面类似的一些问题,如转基因动植物的生长速度是否比非转基因动植物快,如何进行判断?吸烟会不会导致患肺癌的概率增大?一种新疫苗,如何判断它是否有效?如何抽检一部分人来估计某种疾病的流行程度?某种细胞培养方法、抗癌药物疗效或饲料配方、育苗效果等是否有明显改进?等等。
这类问题的共同特点,就是人们只能得到他所关心的事情的不完全信息,或者是单个试验的结果有某种不确定性。如何透过纷繁复杂的现象抓住这类生命现象的本质?这需要我们通过设计相应的试验,开展试验研究,借助于生物统计学的理论和方法,透过外界环境条件或其他偶然因素所掩盖的表面现象,从而揭示其生命现象的内在规律。这就是生物统计学研究的内容,由此可知生物统计学(biostatistics)就是运用统计学的原理和方法来分析、理解、推导和探究蕴含在生命科学领域中的各种纷繁复杂现象背后的生命科学规律与本质的学科。
随着16世纪到17世纪中叶数理统计学的发展,18世纪到19世纪正态曲线、*小二乘法等重要理论广泛应用于生物学。1889年,高尔顿(F. Galton,1822—1911)发表第一篇生物统计论文《自然界的遗传》;1901年,高尔顿和他的学生皮尔逊(K. Pearson,1857—1936)创办了Biometrika(《生物统计学报》)杂志,首次明确了“biometry(生物统计)”一词。因此,后来大家推崇高尔顿为生物统计学的创始人。近年来,随着相关学科的发展,生物统计学已广泛应用于农学、医学、分子生物学、细胞生物学、生物信息学、生物制药技术、资源保护与利用以及生态学等领域,取得了长足的进步。
1.2生物统计学的重要理论基础
1.2.1总体的理论分布
在生物统计学中,常见的理论分布有:正态分布、t 分布、二项分布、泊松(Poisson)分布、χ2分布和F 分布,其中前面两种理论分布主要应用于连续型随机变量的概率分布资料,而另外4种主要应用于离散型随机变量的概率分布资料。此外,t 分布、二项分布、泊松分布的极限为正态分布,在一定条件下,可以转化为正态分布进行处理。
正态分布理论*早由棣莫弗(A. De Moivre,1667—1754)于1733年发现,后来高斯(K. F. Gauss,1775—1855)在进行天文观察和研究土地测量误差理论时独立发现了正态分布(又称常态分布)的理论方程,提出了“误差分布曲线”,后人为了纪念他,将正态分布也称为高斯分布。戈赛特(W. S. Gosset,1777—1855)在生产实践中对样本标准差进行了大量研究,于1908年以“Student(学生)”为笔名在Biometrika 上发表了《平均数的概率误差》一文,创立了小样本检验代替大样本检验的理论,即t 分布,也称为学生氏分布。1900年,戈赛特的老师——卡 皮尔逊(K. Pearson,1857—1936)独立发现了χ2分布,并提出了著名的卡方检验法。1923年,费希尔提出了F 分布和F 检验。1838年,法国数学家泊松(S. D. Poisson,1781—1840)提出了泊松分布。1713年,瑞士数学家雅各布 伯努利(Jacob Bernoulli,1654—1705)编著的《推测的艺术》(Ars Conjectandi)一书中,用组合公式证明了帕斯卡曾提出的n 为正数时的二项式定理,即二项分布。此外,法国数学家棣莫弗在《机会论》(The Doctrine of Chances: a method of calculating the probatilities of euents in play)一书中首次定义了独立事件的乘法定理,给出了二项分布公式。
1.2.2显著性检验
在生命科学研究中,往往会获得一系列的变异资料,差异产生可能是由于处理间(如不同试剂、不同药物、不同品种、不同浓度间)有本质差异,也可能是由一些偶然因素导致的,要找出其中的真实原因,就必须进行显著性检验(significance test)。内曼(J. J.Neyman,1894—1981)和卡 皮尔逊的儿子埃贡 皮尔逊(E. S. Pearson,1895—1980)提出了显著性检验理论,为假设检验理论的发展奠定了坚实的基础:根据“小概率事件实际不可能性原理”来接受或否定零假设,从而对*后结果进行推断。常用的显著性检验方法有t 检验、χ2检验、F 检验等。
1.2.3方差分析
方差分析(analysis of variance,ANOVA),又称变异数分析或F 检验,用于两个及两个以上样本平均数差别的显著性检验,1923年由英国统计学家费希尔提出。根据分析的因素的数量,方差分析可以分为单因素方差分析、二因素方差分析和多因素方差分析;如果根据其数学模型,则可以分固定模型(fixed model)、随机模型(random model)和混合模型(mixed model)。方差分析在生命科学研究工作中极为重要,特别是在多因素试验中,可以帮助大家剖析起主导作用的变异来源,列出方差分析各自的期望均方(expected mean square,EMS),从而估计出各种效应值。
1.2.4回归与相关
回归(regression)与相关(correlation)是研究变量间相互关系的一种统计分析方法。高尔顿于1888年在“Co-relations and their measurement, chiefly from anthropometric data”一文中充分论述了“相关”的统计学意义,并提出了相关系数的计算公式。相关是指两个或多个变量间存在平行的关系,主要用于研究两个变量之间相互关系的密切程度,用相关系数表示。1886年,高尔顿在他的论文“Regression towards mediocrity in hereditary stature”中,正式提出了“回归”的概念:两个或多个变量间存在依从关系。根据变量的个数,相关或回归可分为一元相关回归、二元相关回归及多元相关回归;而根据相关或回归的曲线形态,则可分为直线相关回归、曲线相关回归。
1.2.5试验设计
试验设计(experimental design),广义上指试验研究课题设计,也就是整个试验计划的拟定;狭义上指试验单位(如单个细胞、一条鱼、一个贝等)的选取、重复数目的确定以及试验单位的分组。试验设计可避免系统误差,控制、降低试验误差,无偏估计处理效应,从而对样本所在总体作出科学的、可靠的、正确的推断。在试验设计过程中,必须遵循试验三原则,即随机、重复、局部控制。
费希尔在其所著的《研究工作者的统计方法》(Statistical Methods for ResearchWorkers)一书中,提出了田间试验的基本原则和主要设计方法,此书也成为试验设计的经典著作。1925年,费希尔提出了随机区组和正交拉丁方试验设计,同时,他还在试验设计中提出“随机化”原则,并于1938年与耶茨(F. Yates,1902—1994)合编了费希尔-耶茨随机数字算法(Fisher-Yates shuffle)。
1.3生物统计学的作用
1964年,英国著名统计学家耶茨和希利(M. J. R. Healy)在其共同发表的文章中指出:非常痛心地看到,因为数据分析的缺陷和错误,那么多好的生物研究工作面临着被葬送的危险。从这句话中足以看出,生物统计学对于生命科学领域是何等重要,其作用主要体现在以下三个方面。
(1)提供科学的试验设计方法:科学的试验设计可用较少的人力、物力和时间取得丰富可靠的试验资料。因此,在开展任何一项生命科学试验之前,都必须科学地进行试验设计,包括样本容量的确定、抽样方法的挑选、处理水平的选择、重复数的设置以及试验的安排等,都必须严格遵循试验三原则。
(2)提供科学的试验分析方法:在生命科学试验过程中,常常可以获取大量的非常复杂的第一手资料,我们如何透过纷繁复杂的信息得出客观科学的结论,抓住蕴含在其中的生命科学的本质规律呢?在数据收集、整理、分析过程中,我们必须根据实际资料,选取科学而严密的一套生物统计学分析方法。例如,研究某转基因鲑鱼的产量特征,我们可获得不同品系、不同地区、不同年龄的出肉率。从这些杂乱的数据中,很难直接看出其规律性,如果采用生物统计学方法对其进行整理、分析,就可以了解转基因鲑鱼产量与非转基因鲑鱼产量之间的关系,以及不同地区该转基因鲑鱼的产量是否存在显著差异,为进一步进行转基因鲑鱼的深入研究提供
展开