在农业、林业以及医药、卫生健康等生命科学领域的工作进程和科学实验中所产生的大量数据已不再局限于定性的描述,而是需要从大量调查和测定的数据中,应用统计学的原理和方法,分析和解释其数量的变化及其变化之间的关联性,以正确制订试验计划,科学地对试验结果进行分析,从而做出符合科学实际的推断。
本书是为生命科学类领域的研究生开设的统计学应用课程。概率论是数理统计的数学基础,本书第1章为未学习过概率论的读者提供概率论基础知识的总结性介绍。第2章至第4章介绍数据整理与展示的方法、参数估计与假设检验等基础统计学知识,第5章的四格子表分析为分析试验中两个因子彼此之间的关联关系提供了一套统计分析方法。大数据时代的数据集不仅变量繁多,而且变量性状多样化及变量间层次结构复杂化。数据分析的实践表明,拟合这类数据集中多变量复杂关系的模型往往首先考虑的是线性统计模型。第6章介绍了多自变量线性回归分析和建模的基本思想和方法。第7章的方差分析和实验设计旨在比较具有某种相同特质的多个试验对象有关指标平均值的比较,以及怎样基于方差分析进行实验设计。第8章至第10章属于多元统计分析的内容,重点介绍具有多元属性的试验对象的常用分析及分类方法。第11章介绍的分支分类方法是探索生物物种分支演化规律的基本方法。第12章介绍的生存分析原本属于医药统计学范畴,目前已成为分析具有生命特征实验对象存活时间的分析工具。最后一章介绍怎样应用马尔科夫链模型分析生态系统演化以及物种世代杂交基因演化的数据变化规律。
生物与医学统计的内容十分丰富,本书的主要目的并不是把读者培养成生物医学统计分析方面的专家,而是培养学生掌握统计学的基本思想和方法,使读者对生命科学中的数据如何进行数据分析和建模有一个比较全面的基本了解,为将来能够就实践中出现的数据问题用统计学的语言与生物医学统计学的专家进行科研交流探索。正因为此,读者只要掌握了大学阶段的多元微积分、线性代数和概率论的基础知识,就可以阅读本书的全部内容。考虑到目前统计软件及介绍统计软件的书籍和网上资料繁多,因此本书对统计软件的具体操作不再做详细介绍。本书的部分内容也可作为数学专业大四学生和其他学科研究生统计课程的教学参考书以及相关业界数据分析师的参考用书。
在本书结稿之际,我要感谢所有关心和支持我写作和出版此书的人们。自2006年以来,本书的大部分内容在上海交通大学生命科学学院的研究生公共课《生物数学(Ⅰ)》和《生物统计》课程中讲授过。参加过课程学习的同学对课程的成功和本书的成书做出了贡献。本书的写作和出版得到了上海交通大学2017年至2019年研究生学科人才培养建设与创新专业课建设经费(经费号: WF610107101)的重点资助,以及国家自然科学基金国际(地区)合作与交流项目开放网络下医疗资源配置和优化的模型、算法及应用研究(项目编号: 71520107003)的资助。
由于作者水平所限,书中存在缺点和错误,恳请同行和广大读者批评指正。
林建忠上海交通大学数学科学学院2019年6月
1概率论基础知识001
1.1随机事件及其概率001
1.2概率的定义003
1.3随机变量及其分布函数009
1.4一元随机变量的数字特征019
1.5多维随机变量及其分布025
1.6大数定律与中心极限定理028
1.7习题1029
2样本描述与抽样分布031
2.1总体和样本031
2.2数据类型033
2.3样本分布035
2.4样本统计量046
2.5一些常用的抽样分布054
2.6习题2060
3参数估计062
3.1点估计方法062
3.2估计量的优劣标准068
3.3区间估计069
3.4习题30844假设检验088
4.1基本原理与方法088
4.2均值的假设检验095
4.3总体方差的假设检验101
4.4单边假设检验104
4.5置信区间与假设检验之间的关系108
4.6习题4110
52检验与四格表分析113
5.1分布假设检验拟合优度检验113
5.2成组设计两样本率比较的四格子表2
检验115
5.3配对设计两样本率比较的配对四格表2
检验123
5.4独立性的卡方检验125
5.5Fisher精准检验131
5.6习题5135
6线性回归模型138
6.1一元线性回归模型138
6.2可线性化的一元非线性回归与Logistic
种群增长模型147
6.3多元线性回归模型154
6.4回归方程的检验159
6.5回归诊断与治疗163
6.6回归方程的选择173
6.7习题6177
7方差分析模型与正交试验设计180
7.1单因素方差分析180
7.2两因素方差分析188
7.3正交试验设计与方差分析1977.4习题7202
8主成分分析204
8.1总体与样本的主成分204
8.2主成分的计算与实际意义211
8.3习题8222
9判别分析224
9.1费希尔的判别分析法224
9.2多类群时的贝叶斯判别法231
9.3习题9233
10聚类分析235
10.1分类的基本概念和原始数据的获得235
10.2数据变换和数据标准化237
10.3相似性概念的数量化239
10.4系统聚类法244
10.5k均值聚类251
10.6习题10254
11生物演化的分支分类255
11.1演化集合及其基本定理255
11.2分支性状与编码261
11.3演化的定量表示与俭约性公理267
11.4性状演化的和谐性与和谐性分析方法272
11.5生物演化历史的重构281
11.6习题11287
12生存分析289
12.1基本数据与变量类型289
12.2生存分析的基本函数295
12.3生存数据建模常用的参数模型300
12.4删失和截尾数据似然函数的构造308
12.5估计基本特征函数的寿命表法311
12.6右删失数据的生存函数和累积死亡力
函数的估计313
12.7双删失数据的生存函数估计318
12.8比较生存函数的非参数方法,两个生存
函数的比较322
12.9分层情形下的MantelHaenszel检验327
12.10比例危险率模型329
12.11习题12333
13马尔柯夫链数学模型337
13.1马尔柯夫链的基本概念及其表示337
13.2正则马尔柯夫链346
13.3吸收马尔柯夫链351
13.4习题13360
参考文献363