第 1 章 预 备 知 识
本章主要介绍一些预备知识, 其内容包括非参数统计概述、数据类型、检验的 p 值、次序统计量及其分布、分位数的估计.
1.1 非参数统计概述
非参数统计是统计学的一个重要分支. 在学习这门课程之前, 首先要明白什么是 “非参数统计”, 了解这个分支的一些基本特点, 从而可以对它有初步的认识,对学习这门课程产生兴趣.
在统计学中, 统计推断的两个最基本的形式是: 参数估计和假设检验, 其大部分内容是和正态理论相关的, 人们称之为参数统计. 在参数统计中, 总体分布的形式或分布族往往是给定的, 而诸如均值和方差的参数是未知的. 人们的任务就是对这些参数进行估计或检验. 当假定分布为真时, 其推断有较高的精度. 然而, 在实际问题中, 对总体分布的假定并不是总成立的, 也就是说, 有时数据并不是来自所假定分布的总体. 因此, 在假定的总体分布下进行推断, 其结果可能会背离实际.
于是, 人们希望在不假定总体分布的情况下, 尽量从数据本身获得所需要的信息.这就是非参数统计的初衷. 看下面的例子.
例 1.1.1 (概率密度估计) 设随机变量 X 有概率密度函数 f(x), 它属于某个确定的密度族 F. 令 X1, ,Xn 为来自总体 X 的样本, 要通过样本来估计 f(x).如果 F 的形式已知, 如正态分布族 {N(μ, σ2),.∞ < μ < ∞, σ2 > 0}, 则只需对分布中的参数 μ 和 σ2 作出估计, 就可得到概率密度函数 f(x) 的估计, 这是一个参数统计问题. 我们可以利用极大似然估计法来估计 μ 和 σ2.
如果对 F 只施加一般性的假定, 如 f(x) 对称, 且具有连续的二阶导数等, 则这是一个非参数统计问题. 我们可以利用多种方法对非参数概率密度函数 f(x)进行估计, 例如, 核估计法、最近邻估计法、小波估计法等. 这些估计方法已成为现代非参数统计的重要内容.
例 1.1.2 (回归函数估计) 设随机变量 Y 与 X 之间存在着某种相关关系,这里 X 可以是控制或可以精确观测的变量. 如果在 X = x 的条件下, Y 的数学期望 E(Y |X = x) 存在, 记为 m(x), 则称 m(x) 为 Y 关于 X 的回归函数. 设 (X1, Y1), , (Xn, Yn) 为来自 (X, Y ) 的样本, 要通过样本来估计 m(x).
在一元线性回归模型中, 假定 m(x) 为 x 的线性函数, 即 m(x) = a + bx, 且在给定 X = x 的条件下, Y 的分布为正态分布 N(a + bx, σ2). 这个模型由三个实参数 a, b 和 σ2 所刻画, 而要估计的回归函数 m(x), 实际上只依赖于参数 a 和 b,因而它是一个典型的参数统计问题. 我们可以利用最小二乘法对 a 和 b 进行估计.然而, 如果对 Y 的分布不作任何假定, 或只作一般性假定 (如 Y 的方差有限),则问题就成为非参数性的, 称为非参数回归. 我们可以利用多种方法对非参数回归函数 m(x) 进行估计, 例如, 核估计法、最近邻估计法、局部多项式估计法、小波估计法等. 这些估计方法是现代非参数统计的重要组成部分.
综上所述, 我们可提出下面的定义: 如果一个统计问题的模型所涉及的分布族不能用有限个实参数去刻画, 则称该问题为非参数统计问题. 非参数统计是统计学研究非参数统计问题的一个分支学科.
非参数方法是处理与分布无关的问题的方法. 所谓与分布无关, 意味着它的推断方法不假定总体服从确定的分布, 并不是脱离总体的分布. 与参数方法相比,非参数方法具有如下特点.
(1) 具有广泛的适用性. 非参数方法不假定具体的总体分布, 从而它适用于来自任何总体分布未知的数据, 可进行定量数据和定性数据的统计分析, 能用来描述更多的问题, 故适用面广. 由于非参数方法没有利用关于总体分布的信息, 因此就是在对总体分布没有任何了解的情况下, 它也能获得可靠的结论. 在这一点上,非参数方法优于参数方法. 然而, 在总体的分布族已知的情况下, 它没有像极大似然估计那样充分利用总体分布的信息, 于是所得出的结论就不如参数方法那样精确, 一般来说效率偏低. 在第 6 章可以看到, 有的非参数方法与相应的参数方法相比, 效率上的损失也很小. 参数方法往往对设定的模型有更大的针对性: 一旦模型改变, 方法也就随之改变. 非参数方法则不然, 由于它对模型的限定少, 以致人们只能用很一般的方式去使用样本中的信息来进行统计推断.
(2) 具有稳健性. 稳健性 (robustness) 反映统计方法这样一种性质: 当真实模型与设定模型的偏离不大时, 这种统计方法仍能保持良好的性质, 至少不至于变得很差. 非参数方法对总体分布的限制相对较少, 不致因为对总体分布的假定不当而导致统计推断结果与实际不符, 所以它具有较好的稳健性. 而参数方法是建立在分布已知的基础上, 当总体分布发生改变时, 其推断的正确性就大打折扣, 甚至可能产生错误的结论. 关于参数方法的论述可参见薛留根 (2015a) 的著作.
(3) 以大样本理论为主导. 由于对总体分布的假定条件宽松, 因而大样本理论在非参数统计中占据了主导地位. 可以说, 绝大多数常用的非参数方法都是基于有关统计量的某种渐近性质. 非参数统计更多地依赖于大样本方法这一特点, 可以从其模型的广泛性上来理解: 统计量的分布依赖于总体的分布. 如果我们对总体的分布了解很少, 则就难以得出有关统计量的确切分布. 而很多小样本方法是基于这种确切分布的. 例如, 在总体方差 σ2 未知的条件下去推断总体的期望 μ,
人们就用样本方差 S2 去代替 σ2, 然后构造出统计量 T = √n(X . μ)/S. 由于当n → ∞ 时, T 依分布收敛于标准正态分布 N(0, 1), 因此这是一个大样本方法. 然而, 如果总体服从正态分布, 则由 Fisher 基本定理可知: T 服从自由度为 n.1 的t 分布. 因此, 关于 μ 的统计推断可以建立在这个确切分布的基础上, 这就成为一种小样本方法.
1.2 数 据 类 型
在对某个总体进行统计推断时, 首先要从该总体中抽取样本, 然后利用样本构造出统计量, 由此就可以解决参数估计和假设检验问题. 数据是样本的观测值,是样本的实现. 统计工作的主要内容是数据收集和数据处理, 其中数据处理是统计的核心内容, 它是将数据转化为有用信息的过程. 在科学实验和生产实践中, 人们遇到各种各样的数据, 这就为统计分析提供了保障. 然而, 为正确处理和分析数据, 就必须先了解数据, 这样才能有针对性地选用统计分析方法. 在统计学中, 统计数据主要可分为四种类型, 分别是定类数据、定序数据、定距数据和定比数据.定类数据和定序数据称为定性数据; 定距数据和定比数据称为定量数据. 下面我们对这四种类型的数据分别加以介绍.
(1) 定类数据. 某项指标的观测值不是数, 而是事物的属性. 有时, 为了识别不同的类别, 也可以用特定的数字和符号表示某类事物. 例如, 人的性别 (男、女),职业 (教师、医生、工人), 物体的颜色、样式等, 它们的异同是按照事物的某些特征来划分和辨别的. 人们常用数表示属性的分类, 如用数 “1” 和 “0” 分别表示
“男” 和 “女”, 这仅仅是人们赋予的识别代码, 并不说明事物的数量; 它不能进行算术运算, 也没有大小关系, 而只能进行 “=” 或 ‘‘ .= ” 的逻辑运算. 定类数据的描述性统计量有频数、众数等.
(2) 定序数据. 事物的属性具有顺序关系. 为方便起见, 有时也用数字表示.
例如, 家庭经济状况分为高收入、中等收入、低收入三类, 可分别用 3, 2, 1 表示.这些数只起一个顺序作用, 不能作算术运算, 即这里的 “3 . 2” 是没有意义的. 也就是说, “高收入” 比 “中等收入” 的经济状况好, 但 “好多少” 不能计算, 只能比较类别之间的次序关系. 定序数据可以进行 “=” “.=” “>” “<” 的运算. 描述定序数据集中趋势的最适合统计量是中位数, 反映离散程度的统计量是分位数.
(3) 定距数据. 它说明的是事物的数量特征, 能够用数值表示. 例如, 学生的考试成绩、某种商品的销售量、班级的学生数等. 定距数据没有**的零点, 如某个学生的考试成绩是 0 分, 这并不表示该学生没有这门课的知识. 定距数据不但可以进行 “=” “.=” “>” “<” 的运算, 而且可以进行 “+” 和 “.” 的运算, 但不能进行乘、除运算. 反映定距数据集中趋势的统计量是均值、中位数、众数, 反映离散程度的统计量是方差、标准差等.
(4) 定比数据. 它说明的是事物的数量特征, 能够用数值表示, 并且有**的零点. 例如, 产品的使用寿命, 人的身高、体重, 物体的长度、直径、质量等. 定比数据不但可以进行 “=” “.=” “>” “<” “+” “.” 的运算, 而且可以进行 “×” 和“÷” 的运算. 反映定比数据集中趋势和离散程度的描述性统计量不仅有均值、中位数、众数、方差、标准差, 还有变异系数等.
从上述介绍可知: 定性数据描述事物的性质, 其 0 只有相对意义; 定量数据描述事物的数量, 其 0 具有实际意义. 定类数据是最低级别的数据, 定比数据是**级别的数据, 中间两个级别依次为定序数据和定距数据. 数据的级别越高, 所包含的运算性质就越多.
参数方法所分析的数据主要是定量数据. 非参数方法不但可以用来分析定量数据, 而且还可以用来分析定性数据. 例如, 利用问卷调查资料分析用户对几种商品的喜爱程度是否相等; 利用民意测验分析职工对公司的几种改革方案的支持率是否有差异等. 这方面的研究是参数方法做不到的, 只能应用非参数方法. 这一点又说明了非参数方法应用面广.
当手中有了数据集后, 首先要对它有一个直观的认识. 在数据来自一个总体时, 需要看它的大致分布形状. 利用直方图和 Q-Q 图可以做到这一点. 直方图可以用来看该分布是否呈现出对称性, 是否有很长的尾部. Q-Q 图是按升序重新排列的样本观测值和标准正态分布的分位数 (通常用 Φ.1((i.3/8)/(n+1/4))) 来作散点图. 如果原来的样本来自正态分布, 则该图应该大致呈一条直线; 否则, 它将在一端或两端有摆动, 说明其总体分布与正态分布有差别. 调用统计软件中的函数就可以作出直方图和 Q-Q 图. 如 R 语言中作直方图的函数是 hist(x), 作 Q-Q图的函数是 qqnorm(x), 其中括号中的 x 为数据变量.
1.3 检验的 p 值
给定原假设 H0 和备择假设 H1, 并记为假设检验问题 (H0,H1). 为解该假设检验问题, 首先需要构造检验统计量 T. 然后利用 T 得到检验的拒绝域 W. 最后作出判断: 在 T 的观测值落入 W 时, 就拒绝原假设 H0, 认为备择假设 H1 成立;在 T 的观测值没有落入 W 时, 就不能拒绝原假设 H0, 只能认为 H0 成立. 这就是所谓的检验法. 如果引入检验的 p 值, 那么就可以用 p 值对检验作出决定. 检验的 p 值定义如下.
定义 1.3.1 检验的 p 值是在已知观测值下拒绝原假设的最小显著性水平.如果用 tobs 表示检验统计量 T 的观测值, 则左边检验的 p 值是 P{T . tobs}, 右边检验的 p 值是 P{T . tobs
展开