一、统计推断的基本任务

统计推断所面对的根本情形是：总体信息未知，但研究者希望依据样本对总体作出判断。于是，统计学必须回答以下几类问题：

样本统计量在重复抽样下会如何波动；
如何利用样本去估计总体参数；
如何判断样本结果是随机误差，还是反映了总体中的真实规律；
即使发现了统计显著，效应究竟有多大，结论又有多可靠。

围绕这些问题，便形成了抽样分布、中心极限定理、枢轴量、置信区间、零假设检验、p 值、一类二类错误、检验力和效应量等一整套概念。

二、分布与积分：推断的数学基础

1. 分布的含义

随机变量的分布（distribution），刻画的是不同取值及其概率规律。离散型随机变量通过概率质量函数描述，连续型随机变量通常通过概率密度函数 (f(x)) 描述。

若 $X$ 为连续型随机变量，则区间概率由积分给出：

P (a \leq X \leq b) = \int_{a}^{b} f (x), d x

因此，积分在连续型概率中承担两个最基本的角色：一是计算概率，二是计算期望、方差等特征量。例如：

E (X) = \int_{- \infty}^{\infty} x f (x), d x

Var (X) = E [(X - E (X))^{2}]

分布告诉我们 ” 随机性如何展开 “，积分使我们能够在连续情形下把这种随机性真正算出来。

三、抽样分布：样本统计量本身也有分布

1. 抽样分布的概念

在初学统计时，人们常常只关注原始数据的分布，例如身高、体重、反应时的分布。但在统计推断中，更关键的是统计量的分布。

设从某总体中反复抽取容量为 $n$ 的样本，每次都计算一个统计量，例如样本均值 (\bar X)、样本方差 (S^2)、样本比例 (\hat p)。这些统计量在重复抽样中会形成自己的概率分布，这种分布称为抽样分布（sampling distribution）。

也就是说，抽样分布研究的不是 ” 单个观测值如何波动 “，而是 ” 统计量如何波动 “。

2. 为什么抽样分布如此重要

统计推断本质上依赖于一个关键问题：

如果我一次抽样得到某个统计量，这个统计量在重复抽样中算不算异常？

要回答这个问题，就必须知道该统计量的抽样分布。

例如，若总体均值为 (\mu)，则样本均值 $\overset{ˉ}{X}$ 并不每次都等于 (\mu)，而是在 $μ$ 附近随机波动。只有理解了 $\overset{ˉ}{X}$ 的抽样分布，我们才知道：

样本均值通常会偏离总体均值多少；
多大的偏离算正常；
多大的偏离算罕见。

因此，抽样分布是置信区间和假设检验的直接基础。

3. 样本均值的抽样分布

若总体均值为 (\mu)，方差为 (\sigma^2)，从中独立抽取样本 (X_1,\dots,X_n)，则样本均值

\overset{ˉ}{X} = \frac{1}{n} i = 1 \sum n X_{i}

满足：

E (\overset{ˉ}{X}) = μ

Var (\overset{ˉ}{X}) = \frac{σ ^{2}}{n}

因此，样本均值的标准差为：

SD (\overset{ˉ}{X}) = \frac{σ}{n}

这个量被称为**标准误（standard error, SE）**的原型。它反映的不是原始数据本身的离散程度，而是样本均值作为估计量的波动程度。

样本量 $n$ 越大，(\bar X) 的波动越小，因此估计越稳定。

四、中心极限定理：抽样分布的普适近似

设 $X_{1}, \dots, X_{n}$ 独立同分布，总体均值为 (\mu)，方差为 (\sigma^2)。则当 $n$ 足够大时，

\frac{X ˉ - μ}{σ / n}

近似服从标准正态分布 (N(0,1))。

这就是中心极限定理（Central Limit Theorem, CLT）。

它的意义在于：即使总体本身不是正态分布，只要样本量足够大，样本均值的抽样分布仍然会趋于正态。这使统计推断不必为每一种总体单独设计方法，而可以在很大范围内依赖正态近似。

五、枢轴量：把未知参数放进已知分布

1. 概念

**枢轴量（pivotal quantity）**是样本和未知参数的函数，但其分布不依赖于未知参数。

例如，当总体正态且总体标准差 $σ$ 已知时，

Z = \frac{X ˉ - μ}{σ / n}

服从标准正态分布 (N(0,1))，其分布与 $μ$ 无关，因此这是关于 $μ$ 的枢轴量。

当 $σ$ 未知且总体正态时，

T = \frac{X ˉ - μ}{S / n}

服从自由度为 $n - 1$ 的 t 分布，这同样构成枢轴量。

2. 作用

枢轴量之所以重要，是因为它让研究者能够利用 ” 已知分布 ” 去对 ” 未知参数 ” 作出推断。这种推断主要表现为两种形式：

反解出参数的可能范围，得到置信区间；
在某个参数取特定值时，判断样本是否异常，得到假设检验。

六、置信区间：从样本估计总体的区间范围

1. 置信区间的基本思想

点估计只给出一个数字，例如用样本均值 $\overset{ˉ}{X}$ 估计总体均值 (\mu)。但单个数字无法反映估计的不确定性。因此统计学更进一步，构造一个区间，使它在长期重复抽样中有固定比例能够覆盖真实参数。这个区间称为置信区间（confidence interval）。

例如，对总体均值 $μ$ 的 95% 置信区间，并不是说 ” 这一次算出来的区间有 95% 概率包含 (\mu)“；更准确的表述是：

如果使用同样的方法反复抽样并构造区间，那么这些区间中约有 95% 会覆盖真实的 (\mu)。

2. 置信区间的构造逻辑

若已知总体标准差 (\sigma)，则

\frac{X ˉ - μ}{σ / n} \sim N (0, 1)

于是有：

P (- 1.96 \leq \frac{X ˉ - μ}{σ / n} \leq 1.96) = 0.95

移项可得：

P (\overset{ˉ}{X} - 1.96 \frac{σ}{n} \leq μ \leq \overset{ˉ}{X} + 1.96 \frac{σ}{n}) = 0.95

因此，(\mu) 的 95% 置信区间为：

\overset{ˉ}{X} \pm 1.96 \frac{σ}{n}

若 $σ$ 未知，则用 t 分布分位数替换 1.96，得到：

\overset{ˉ}{X} \pm t_{0.975, n - 1} \frac{S}{n}

3. 置信区间的解释

置信区间提供了三个层面的信息：

第一，它给出参数可能取值的范围，而不是单点判断。

第二，它反映了估计精度。区间越窄，说明估计越精确；区间越宽，说明样本提供的信息越有限。

第三，它与假设检验存在直接对应关系。以双侧检验为例，若某个假设值不落在 95% 置信区间内，则在显著性水平 0.05 下通常会拒绝该零假设。

4. 区间宽度受什么影响

置信区间宽度主要受三个因素影响：

样本量越大，标准误越小，区间越窄；
数据变异越大，标准误越大，区间越宽；
置信水平越高，临界值越大，区间越宽。

因此，95% 区间通常比 90% 区间更宽，而 99% 区间又比 95% 区间更宽。

七、零假设与 P 值：从 ” 无效应 ” 出发判断样本是否异常

1. 零假设

**零假设（null hypothesis）**通常记作 (H_0)，表示 ” 无差异 "" 无效应 ” 或 ” 无关联 ”。

例如：

H_{0} : μ = 70

表示总体均值等于 70。

零假设并不是一个被相信的真理，而是一个统计推断的参照模型。我们关心的是：如果这个参照模型成立，那么当前样本结果是否太极端。

2. P 值的定义

p 值是指：

在零假设成立的前提下，观察到当前结果或更极端结果的概率。

其形式可写为：

P (当前结果或更极端结果 ∣ H_{0} 成立)

因此，p 值衡量的不是零假设为真的概率，而是 ” 数据与零假设的相容程度 ”。

p 值小：数据在 $H_{0}$ 下较不寻常；
p 值大：数据在 $H_{0}$ 下并不稀奇。

3. P 值的直观理解

设零假设为 ” 总体均值等于 70”，样本均值为 74。如果在 $H_{0}$ 成立时，样本均值达到 74 这样大的偏离非常少见，那么 p 值就小。此时，研究者会认为 ” 数据与 $H_{0}$ 不太相容 “，从而倾向于拒绝 (H_0)。

p 值本质上是一种 ” 极端性度量 “。

4. P 值不代表什么

p 值容易被误解，尤其不能解释为以下内容：

不能解释为 ” 零假设为真的概率 ”；
不能解释为 ” 研究假设为真的概率 ”；
不能解释为 ” 结果重复不出来的概率 ”；
不能单独衡量效应大小。

p 值只回答一个有限的问题：在 $H_{0}$ 成立时，这样的数据稀不稀奇。

八、一类错误与二类错误：统计决策的两种风险

假设检验不是绝对正确的判断机制，而是一种基于样本的不确定决策。因此，决策中会出现两类错误。

1. 一类错误

**一类错误（Type I error）**是指：

当零假设实际上为真时，却错误地拒绝了零假设。

这相当于 ” 把不存在的效应看成存在 “。其概率通常记为 (\alpha)，即显著性水平。

若设定 (\alpha=0.05)，意味着在零假设为真时，长期来看约有 5% 的检验会误拒真零假设。

2. 二类错误

**二类错误（Type II error）**是指：

当零假设实际上为假时，却没有拒绝零假设。

这相当于 ” 漏掉了真实存在的效应 “。其概率通常记为 (\beta)。

3. 两类错误的关系

在样本量固定时，一类错误和二类错误之间往往存在权衡关系。

若把显著性水平 $α$ 设得很低，例如从 0.05 降到 0.01，那么拒绝零假设会变得更困难，一类错误减少，但二类错误往往会增大。

反过来，若放宽拒绝标准，则更容易发现效应，但误报风险也会上升。

统计检验并不是在 ” 对 ” 和 ” 错 ” 之间直接选择，而是在两类错误风险之间进行制度化权衡。

九、检验力：发现真实效应的能力

1. 定义

**检验力（power）**定义为：

当零假设实际上为假时，检验能够正确拒绝零假设的概率。

因此：

Power = 1 - β

它反映的不是 ” 误报风险 “，而是 ” 发现真实效应的能力 “。

2. 检验力为什么重要

若一项研究的检验力很低，即使总体中确实存在效应，研究也常常得不出显著结果。这时 ” 不显著 ” 并不能说明 ” 没有效应 “，而可能只是研究太弱、样本太少、噪声太大。

因此，在解释非显著结果时，检验力是一个必须考虑的因素。

3. 影响检验力的因素

检验力主要受以下因素影响：

（1）效应量

真实效应越大，越容易被检测到，检验力越高。

（2）样本量

样本量越大，标准误越小，统计量越容易偏离零假设值，检验力越高。

（3）显著性水平 $α$

$α$ 越大，拒绝域越宽松，检验力越高，但一类错误风险也更高。

（4）数据变异程度

噪声越大，真实信号越容易被淹没，检验力越低。

4. 检验力与研究设计

检验力的思想非常重要，因为它把统计学从 ” 事后解释结果 ” 推进到了 ” 事前规划研究 ”。

在正式收集数据之前，研究者通常应根据预期效应量、显著性水平和目标检验力，估计所需样本量。这就是样本量规划的核心思想。

在许多领域，常把检验力 0.80 作为一个常见参考标准，表示如果真实效应达到研究者关心的程度，那么有 80% 的概率能检测到它。

十、效应量：显著之外还要看 ” 有多大 ”

显著性检验解决的是 ” 是否有证据反对零假设 “，而**效应量（effect size）**解决的是 ” 效应究竟有多大 ”。

常见效应量包括：

均值差异中的 Cohen’s (d)；
相关分析中的 (r)；
回归和方差分析中的 (R^2)、(\eta^2) 等。

例如，两组均值差的标准化效应量可表示为：

d = \frac{X ˉ _{1} - X ˉ _{2}}{S _{pooled}}

效应量不依赖于显著与否，而是直接描述现象强度。因此，一个研究的结论若只有 p 值而没有效应量，通常是不完整的。

十一、这些概念如何连成一体

现在可以把整套统计推断逻辑串联起来。

1. 从总体到样本统计量

总体有自己的分布，样本统计量也有自己的抽样分布。统计推断真正依赖的是后者。

2. 中心极限定理保证近似分布

由于中心极限定理，许多统计量在大样本下近似服从正态分布，这使统一推断成为可能。

3. 枢轴量连接未知参数与已知分布

通过标准化，可以构造分布已知而不依赖未知参数的统计量，从而建立区间估计和假设检验。

4. 置信区间用于估计

它给出总体参数的合理取值范围，同时反映估计精度。

5. 零假设检验与 P 值用于判断异常性

它回答的是：若无效应成立，这样的数据是否过于极端。

6. 一类错误与二类错误刻画决策风险

任何检验都可能误报或漏报，显著性水平和二类错误共同定义了这种风险结构。

7. 检验力表示发现真实效应的能力

它提醒我们，非显著并不自动意味着无效应，还可能意味着研究缺乏足够灵敏度。

8. 效应量补充实际意义

即使检验显著，也仍需追问：这个效应究竟大不大，是否重要。

十二、一个完整例子

设某教学方法的历史平均成绩为 70 分。现随机抽取 $n = 36$ 名学生，得到样本均值 (\bar X=74)，样本标准差 (S=12)。

1. 点估计与标准误

样本均值作为总体均值的点估计为 74。

样本均值的标准误估计为：

S E = \frac{S}{n} = \frac{12}{6} = 2

这表示在重复抽样中，样本均值大约会以 2 分的量级围绕总体均值波动。

2. 95% 置信区间

查 t 分布，自由度 35 时，95% 双侧区间的临界值约为 2.03，因此：

74 \pm 2.03 \times 2

即：

74 \pm 4.06

所以总体均值的 95% 置信区间约为：

[69.94, 78.06]

这个区间说明：根据当前样本，总体均值的合理范围大致落在 70 分附近到 78 分之间。

3. 假设检验与 P 值

检验：

H_{0} : μ = 70

检验统计量为：

T = \frac{74 - 70}{12/ 36} = \frac{4}{2} = 2

其自由度为 35，对应双侧 p 值约为 0.053 左右。

这意味着：如果总体均值实际上就是 70，那么得到如此偏离或更极端结果的概率约为 5.3%。

若使用 0.05 作为显著性水平，则这个结果刚好略高于阈值，因此通常不会拒绝零假设。

4. 为什么置信区间与检验结论一致

因为 70 落在刚才得到的 95% 置信区间 ( $69.94, 78.06$ ) 内，所以在 0.05 水平下，双侧检验不会拒绝 (H_0:\mu=70)。

这体现了区间估计与假设检验的一致性。

5. 效应量

单样本的标准化差异可写为：

d = \frac{74 - 70}{12} = 0.33

这说明样本均值相对基准均值提高了约 0.33 个标准差，属于偏小到中等之间的效应。

6. 如何理解这一结果

这个例子表明：

样本显示出一定提升；
但从显著性角度看，证据不算足够强；
从效应量看，提升并非极小，但也不大；
若研究者希望更稳健地判断是否存在提升，可能需要更大的样本量，以提高检验力。

十三、整体逻辑图

下面这张图把本章的主要概念连接起来。

flowchart TD
    A[总体参数未知] --> B[抽样得到样本]
    B --> C[计算统计量<br/>如样本均值 样本比例]
    C --> D[统计量具有抽样分布]
    D --> E[中心极限定理提供正态近似]
    E --> F[构造标准化统计量]
    F --> G[枢轴量]
    G --> H1[构造置信区间]
    G --> H2[进行假设检验]

    H1 --> I1[给出参数可能范围]
    I1 --> J1[反映估计精度]

    H2 --> I2[提出零假设 H0]
    I2 --> J2[计算检验统计量]
    J2 --> K2[计算 p 值]
    K2 --> L2[是否拒绝 H0]

    L2 --> M[可能出现一类错误或二类错误]
    M --> N[检验力 = 1-beta]
    N --> O[衡量发现真实效应的能力]

    L2 --> P[报告效应量]
    P --> Q[解释实际意义]

十四、错误与检验力的关系图

flowchart LR
    A[真实世界状态] --> B1[H0 为真]
    A --> B2[H0 为假]

    B1 --> C1[拒绝 H0]
    B1 --> C2[不拒绝 H0]

    B2 --> D1[拒绝 H0]
    B2 --> D2[不拒绝 H0]

    C1 --> E1[一类错误 alpha]
    C2 --> E2[正确保留]

    D1 --> F1[正确发现]
    D2 --> F2[二类错误 beta]

    F1 --> G[检验力 1-beta]

十五、小结

统计推断并不是若干零散术语的堆叠，而是一条完整的知识链。

分布提供随机模型，积分使连续型概率可计算；抽样分布让统计量本身进入概率分析；中心极限定理为大样本推断提供近似基础；枢轴量把未知参数纳入已知分布框架；置信区间用于估计参数范围；零假设与 p 值用于判断样本结果是否异常；一类错误与二类错误揭示统计决策的风险结构；检验力刻画研究发现真实效应的能力；而效应量则补足实际意义这一维度。

因此，一项完整而成熟的统计结论，通常不应只报告“显著”或“不显著”，而应同时关注：

参数估计值；
置信区间；
p 值；
效应量；
检验力或样本量合理性。

只有这样，统计推断才真正从“形式判断”上升为“有解释力的科学判断”。

hw

Explorer

假设检验