概率统计笔记

本文最后更新于：2024年4月23日上午

置顶链接

条件概率
泊松分布
正态分布
连续型随机变量函数的分布
边缘分布函数和边缘概率密度
二维连续型随机变量的条件分布
二维随机变量的独立性
二维连续型随机变量函数的分布
★常见分布的期望与方差
协方差和相关系数
切比雪夫不等式
常用统计量
卡方分布
单个正态总体的抽样分布
估计量的无偏性
单个正态总体参数的置信区间
单个正态总体均值的假设检验
第一章随机事件和概率
基础概念
在一定条件下必然发生的现象称为确定性现象
在一定条件下可能出现也可能不出现的现象称为随机现象
一般地，随机现象指在一次观察或试验中其结果具有随机性或偶然性，但在大量重复观察或试验中，其结果会呈现一定规律性的现象。这种规律性称为统计规律性，为了研究这种规律性所做的观察或试验称为随机试验。随机试验通常用 $E$ 来表示
随机试验具有如下特点
- 可在相同条件下重复进行
- 试验的所有可能结果不止一个，而且在试验之前已知所有可能结果
- 每次试验前无法预知会出现哪一个结果
把一次随机试验的所有可能结果的全体称为样本空间，记为 $\Omega$ ，样本空间中的每个元素叫做样本点，记为 $\omega$
随机试验中可能发生也可能不发生的事件称为随机事件，简称事件
- 随机事件通常用大写字母表示
- 随机事件可以看成样本空间的子集
- 把样本空间中由一个样本点组成的单点集称为基本事件
含有多个基本事件的随机事件称为复合事件
- 对于复合事件 $A$，如果试验结果 $\omega \in A$ 出现，则称事件 $A$ 发生，否则称 $A$ 不发生
- 样本空间 $\Omega$ 也可以看成一个事件，在每次试验中 $\Omega$ 必然发生，故又称为必然事件
- 在任何试验中都不可能发生的事件称为不可能事件

随机事件之间的关系和运算

设 $A$，$B$，$A_{i}(i=1,2,\cdots)$ 是同一个样本空间 $\Omega$ 中的事件

包含关系

如果事件 $B$ 发生必导致事件 $A$ 发生，则称事件 $B$ 包含于事件 $A$，记为 $B \subset A$；或称事件 $A$ 包含事件 $B$，记为 $A \supset B$ 组成 $B$ 的样本点也是组成 $A$ 的样本点

相等关系

如果 $A \subset B$，并且 $B \subset A$，则称事件 $A$ 与 $B$ 相等，记为 $A=B$

事件的和（或并）

使得事件 $A$ 与 $B$ 中至少有一个发生的事件，称为事件 $A$ 与 $B$ 的和（或并），记为 $A \cup B$。$A \cup B$ 是由 $A$ 与 $B$ 的所有样本点所组成的事件

事件的积（或交）

使得事件 $A$ 与 $B$ 同时发生的事件，称为事件 $A$ 与 $B$ 的积（或交），记为 $AB(A \cap B)$。$AB$ 是由同时属于 $A$ 与 $B$ 的样本点所组成的事件

事件的差

使得事件 $A$ 发生而事件 $B$ 不发生的事件，称为事件 $A$ 与 $B$ 的差，记为 $A-B$，$A-B$ 是由属于 $A$ 但不属于 $B$ 的样本点所组成的事件

对立事件

如果事件 $A$ 与 $B$ 不同时发生，但是其中一定有一个发生，则称 $B$ 是 $A$ 的对立事件，记为 $B=\bar{A}$，

$A$ 与 $B$ 互为对立事件，显然有 $A=\bar{B}$
$A \cup \bar{A}=\Omega$
$A \bar{A}=\varnothing$
$\overline{\bar{A}}=A$
$A-B=A \bar{B}$
必然事件 $\Omega$ 与不可能事件 $\varnothing$ 互为对立事件

互不相容

若事件 $A$ 与 $B$ 不能同时发生（即 $AB=\varnothing$），则称事件 $A$ 与 $B$ 互不相容或互斥。

互为对立的两个事件必互不相容，但反之不一定成立.

事件运算律

设 $A$，$B$，$C$ 为随机事件，则

交换律：$A \cup B=B \cup A$，$A B=B A$
结合律：$(A \cup B) \cup C=A \cup(B \cup C)$，$(A B) C=A(B C)$
分配律：$A \cup(B C)=(A \cup B)(A \cup C)$，$A(B \cup C)=(A B) \cup(A C)$
对偶律（德摩根律）：$\overline{A \cup B}=\bar{A} \bar{B}$，$\overline{A B}=\bar{A} \cup \bar{B}$

随机事件的概率

设 $E$ 是一个随机试验，$\Omega$ 是它的样本空间，对于 $E$ 的每个事件 $A$ 赋予一个实数，记为 $P(A)$，若 $P(\cdot)$ 满足以下公理：

公理1（非负性）：对于每一个事件 $A$，有 $P(A) \geqslant 0$
公理2（规范性）：对于必然事件 $\Omega$，有 $P(\Omega)=1$
公理3（可列可加性）：对于两两互不相容的事件 $A_{1},A_{2},\cdots,A_{n}$，$\cdots$，即 $A_{i} A_{j}= \varnothing$，$i \neq j$，$i,j=1,2,\cdots$，有 $P\left(\bigcup_{i=1}^{+\infty} A_{i}\right)=\sum_{i=1}^{+\infty} P\left(A_{i}\right)$

则称 $P(A)$ 为事件 $A$ 的概率

注意：公理1反过来成立，公理2反过来不成立，即概率为 1 的事件不一定发生

频率

如果事件 $A$ 在 $n$ 次重复试验中发生了 $m$ 次，则称比值 $\frac{m}{n}$ 为在这 $n$ 次重复试验中事件 $A$ 发生的频率，记为 $f_{n}(A)=\frac{m}{n}$

频率满足以下性质：

对于任意事件 $A$，$0 \leqslant f_{n}(A) \leqslant 1$
$f_{n}(\Omega)=1$
若事件 $A_{1},A_{2},\cdots,A_{n}$ 两两互不相容，则 $f_{n}\left(\bigcup_{i=1}^{n} A_{i}\right)=\sum_{i=1}^{n} f_{n}\left(A_{i}\right)$

概率的统计定义

设随机事件 $A$ 在 $n$ 次重复试验中发生了 $m$ 次。若当 $n$ 很大时，频率 $f_{n}(A)=\frac{m}{n}$ 稳定地在某一数值 $p(0<p<1)$ 附近波动，且随着试验次数 $n$ 的增大，其波动的幅度越来越小，则称数值 $p$ 为事件 $A$ 的概率，记为 $P(A)=p$

古典概型

若一类随机试验具有以下两个特点：

在样本空间中只有有限个基本事件
每个基本事件发生的可能性相同
则称这类试验为等可能概型，也称为古典概型

一般地，在古典概型中，若样本空间 $\Omega=\left\{\omega_{1},\omega_{2},\cdots,\omega_{N}\right\}$，则

$P\left(\left\{\omega_{1}\right\}\right)=P\left(\left\{\omega_{2}\right\}\right)=\cdots=P\left(\left\{\omega_{N}\right\}\right)=\frac{1}{N}$

假设事件 $A=\left\{\omega_{i_{1}},\omega_{i_{2}},\cdots,\omega_{i_{M}}\right\}$，即 $A$ 包含了 $M$ 个基本事件，则事件 $A$ 的概率

$P(A)=\frac{M}{N}=\frac{A \text { 包含的基本事件的个数 }}{\Omega \text { 中基本事件的总数 }}$

经典例题

（Todo）

几何概型

若一类随机试验满足以下条件：

样本空间 $\Omega$ 中每个样本点与一个测度有限的几何区域 $S$ 中的点对应；
任意事件 $A$ 与区域 $S$ 的一个子区域 $G$ 对应，$A$ 的概率 $P(A)$ 仅与 $G$ 的测度成正比，与 $G$ 的形状以及 $G$ 在 $S$ 中的位置无关，
则称这类试验为几何概型

事件 $A$ 的概率为

$P(A)=\frac{m(G)}{m(S)}$

其中 $m(\cdot)$ 表示区域的测度。对于一维空间中的线段，$m(\cdot)$ 表示长度；对于二维空间中的平面区域，$m (\cdot)$ 表示面积

与古典概型相比较，几何概型的基本事件的个数有无限多个

概率的基本性质

$P(\varnothing)=0$
有限可加性：设 $A_{1},A_{2},\cdots,A_{n}$ 满足 $A_{i} A_{j}=\varnothing$，$i \neq j$，$i,j=1,2,\cdots,n$，则有 $P\left(\bigcup_{i=1}^{n} A_{i}\right)=\sum_{i=1}^{n} P\left(A_{i}\right)$
对任意事件 $A$，有 $P(\bar{A})=1-P(A)$
对任意两个事件 $A,B$，有 $P(AB)=P(B)-P(\bar{A}B)$
对任意两个事件 $A,B$，若 $A \subset B$，则有 $P(B-A)=P(B)-P(A)，P(B) \geqslant P(A)$ 或者说对任意两个事件 $A,B$ $P(B-A)=P(B)-P(AB)$
加法定理：对任意两个事件 $A,B$，有 $P(A \cup B)=P(A)+P(B)-P(A B)$ 一般地，对任意 $n$ 个事件 $A_{1},A_{2},\cdots,A_{n}$，有 $\begin{aligned} P\left(\bigcup_{i=1}^{n} A_{i}\right)=& \sum_{i=1}^{n} P\left(A_{i}\right)-\sum_{1 \leqslant i<j \leqslant n} P\left(A_{i} A_{j}\right)+\\ & \sum_{1 \leqslant i<j<k \leqslant n} P\left(A_{i} A_{j} A_{k}\right)+\cdots+(-1)^{n-1} P\left(A_{1} A_{2} \cdots A_{n}\right) \end{aligned}$

条件概率

设 $A,B$ 是两个事件，且 $P(A)>0$，则称 $P(B \mid A)=\frac{P(A B)}{P(A)}$ 为在事件 $A$ 发生的条件下，事件 $B$ 发生的条件概率。

条件概率有两种计算方法：

缩小样本空间后直接计算
用定义计算

根据定义，不难验证条件概率满足以下三条性质：

（非负性） $P(B \mid A) \geqslant 0$
（规范性） $P(\Omega \mid A)=1$
（可列可加性） $P\left(\bigcup_{i=1}^{+\infty} B_{i} \mid A\right)=\sum_{i=1}^{+\infty} P\left(B_{i} \mid A\right)$，其中 $B_{i} B_{j}=\varnothing$，$i \neq j$，$i,j=1,2,\cdots$

条件概率也是一种概率，而一般概率的一些性质，条件概率同样具有，如

$P(B \mid A)+P(\bar{B} \mid A)=1$
$P(B \cup C \mid A)=P(B \mid A)+P(C \mid A)-P(B C \mid A)$
$P(B - C \mid A)=P(B \mid A)-P(B C \mid A)$

条件概率的乘法公式

由条件概率 $P(B \mid A)=\frac{P(A B)}{P(A)}$，得

$P(A B)=P(A) P(B \mid A) \quad(P(A)>0)$

以上公式称为乘法公式，当然下面的式子也是成立的：

$P(A B)=P(B) P(A \mid B) \quad(P(B)>0)$

乘法公式还可推广到 $2$ 个以上事件的情形。设有 $n$ 个事件 $A_{1},A_{2},\cdots,A_{n}(n \geqslant 2)$，并且 $P\left(A_{1} A_{2} \cdots A_{n-1}\right)>0$，易得

$P\left(A_{1} A_{2} \cdots A_{n}\right)=P\left(A_{1}\right) P\left(A_{2} \mid A_{1}\right) P\left(A_{3} \mid A_{1} A_{2}\right) \cdots P\left(A_{n} \mid A_{1} \cdots A_{n-1}\right)$

全概率公式

设 $\Omega$ 为某一随机试验的样本空间，$B_{1},B_{2},\cdots,B_{n}$ 为该试验的一组事件，且满足：

$B_{i} B_{j}=\varnothing$，$i \neq j$，$i,j=1,2,\cdots,n$
$\bigcup_{i=1}^{n} B_{i}=\Omega$
则称 $B_{1},B_{2},\cdots,B_{n}$ 为样本空间 $\Omega$ 的一个划分（或者叫完备事件组）

在实际中，如果我们关心的事件 $A$ 与一个划分 $B_{i}(i=1,2,\cdots,n)$ 有关，这时计算事件 $A$ 的概率就需要分别考虑第 $i$ 种可能发生情况 $B_{i}$ 对事件 $A$ 的影响，有如下定理：
设 $B_{1},B_{2},\cdots,B_{n}$ 为某一试验的样本空间 $\Omega$ 的一个划分，且 $P\left(B_{i}\right)>0(i=1,2,\cdots,n)$，则对任一事件 $A$，有

$P(A)=\sum_{i=1}^{n} P\left(B_{i}\right) P\left(A \mid B_{i}\right)$

上述公式称为全概率公式

可以形象地把全概率公式看成为“由原因推结果”，每个原因对结果的发生有一定的“作用”，即结果发生的可能性与各种原因的“作用”大小有关。

贝叶斯（Bayes）公式

设 $B_{1},B_{2},\cdots,B_{n}$ 为某一试验的样本空间 $\Omega$ 的一个划分，且 $P\left(B_{i}\right)>0(i=1,2,\cdots,n)$，则对该试验的任一事件 $A(P(A)>0)$，有

$P\left(B_{i} \mid A\right)=\frac{P\left(A B_{i}\right)}{P(A)}=\frac{P\left(B_{i}\right) P\left(A \mid B_{i}\right)}{\sum_{j=1}^{n} P\left(B_{j}\right) P\left(A \mid B_{j}\right)},i=1,2,\cdots,n$

上述公式称为 Bayes 公式

贝叶斯公式可以看成“由结果推原因”，它所求的是条件概率，是已知某结果发生条件下，求各原因发生可能性大小

先验概率和后验概率

假设在实际问题中，我们关心的事件 $A$ 满足 $P(A)>0$，$B_{1},B_{2},\cdots,B_{n}$ 是可能导致随机事件 $A$ 发生的所有原因（情况或因素），即 $A \subset \bigcup_{j=1} B_{j}$ 且 $B_{i} B_{j}=\varnothing$，$i \neq j$，$i,j=1,2,\cdots,n$，通过条件概率与全概率公式，可以计算在 $A$ 发生的条件下，导致其发生的原因 $B_{i}$ 的概率为

$P\left(B_{i} \mid A\right)=\frac{P\left(A B_{i}\right)}{P(A)}=\frac{P\left(B_{i}\right) P\left(A \mid B_{i}\right)}{\sum_{j=1}^{n} P\left(B_{j}\right) P\left(A \mid B_{j}\right)}，i=1,2,\cdots,n$

在上述公式中，$P\left(B_{i}\right)$ 是在没有得到 $A$ 的信息，即不知 $A$ 是否发生的情况下（试验之前）对 $B_{i}$ 发生可能性大小的估计，称为先验概率；若得到新的信息，即在 $A$ 已经发生的情况下（试验之后），人们对 $B_{i}$ 发生的可能性大小有了新的估计，由此得到的条件概率 $P\left(B_{i} \mid A\right)$ 称为后验概率

随机事件的独立性

对任意两个事件 $A,B$，若满足

$P(A B)=P(A) P(B)$

则称事件 $A$ 与事件 $B$ 相互独立，简称 $A$ 与 $B$ 独立

由条件概率和随机事件概率的关系可以得出下面的结论：

$\begin{array}{c} P(A \mid B)=P(A)(P(B)>0) \text { 或 } P(B \mid A)=P(B)(P(A)>0) \\ \Rightarrow P(A B)=P(A) P(B) \end{array}$

反过来，

$\begin{array}{c} P(A B)=P(A) P(B) \\ \Rightarrow P(A \mid B)=P(A) \quad(P(B)>0) \text { 以及 } P(B \mid A)=P(B) \quad(P(A)>0) \end{array}$

不难理解，由 $P(A B)=P(A) P(B)$ 定义随机事件 $A,B$ 的独立性，不仅反映了事件独立性的特点，也具有数学定义的高度概括性

n个事件的独立性

$n$ 个事件 $A_{1}$，$A_{2}$，$\ldots$，$A_{n}$ 相互独立是指下面的关系式同时成立

$\begin{array}{l} P\left(A_{i} A_{j}\right)=P\left(A_{i}\right) P\left(A_{j}\right), 1 \leq i<j \leq n \\ P\left(A_{i} A_{j} A_{k}\right)=P\left(A_{i}\right) P\left(A_{j}\right) P\left(A_{k}\right), 1 \leq i<j<k \leq n \\ \cdots \cdots \\ P\left(A_{1} A_{2} \cdots A_{n}\right)=P\left(A_{1}\right) P\left(A_{2}\right) \cdots P\left(A_{n}\right) \end{array}$

独立性的判定

如果在四对事件 $A$ 与 $B$，$A$ 与 $\bar{B}$，$\bar{A}$ 与 $B$，$\bar{A}$ 与 $\bar{B}$ 中，任一对事件相互独立，则其余三对事件也分别相互独立

$A,B$ 独立等价于 $P(A|B)=P(A|\bar{B})$

独立性的概念也可以推广到三个事件的情形，设 $A_{1},A_{2},A_{3}$ 是三个事件，若满足下列等式：

$\left.\begin{array}{l} P\left(A_{1} A_{2}\right)=P\left(A_{1}\right) P\left(A_{2}\right) \\ P\left(A_{1} A_{3}\right)=P\left(A_{1}\right) P\left(A_{3}\right) \\ P\left(A_{2} A_{3}\right)=P\left(A_{2}\right) P\left(A_{3}\right) \end{array}\right\}$

及

$P\left(A_{1} A_{2} A_{3}\right)=P\left(A_{1}\right) P\left(A_{2}\right) P\left(A_{3}\right)$

则称事件 $A_{1},A_{2},A_{3}$ 相互独立

相互独立是两两独立的充分不必要条件
已知事件 $A$，$B$，$C$ 相互独立，则事件 $\bar{A}$ 与 $B \cup C$ 也相互独立
★若 $P(A)>0$，$P(B)>0$，则“事件 A 与事件 B 相互独立”和“事件 A 与事件 B 互斥”不能同时成立。
概率为 0 的事件和概率为 1 的事件与任一事件均相互独立。
注意独立性的判定和样本空间有关，例如：
- 有限正整数集合 $S=\{1,2,3,4,5,6,7,8,9,11,13,17\}$，随机抽一个数
  定义事件A：抽出来的数能被2整除
  定义事件B：抽出来的数能被3整除
  A和B是独立事件
- 有限正整数集合 $S=\{1,2,3,4,5,6,7,8,9,10,11,13\}$，随机抽一个数
  定义事件A：抽出来的数能被2整除
  定义事件B：抽出来的数能被3整除
  A和B不是独立事件

独立性的应用

设事件 $A_{1},A_{2},\cdots,A_{n}$ 是相互独立的，易得这 $n$ 个事件中至少有一个事件发生的概率为

$P\left(\bigcup_{i=1}^{n} A_{i}\right)=1-P\left(\overline{\bigcup_{i=1}^{n} A_{i}}\right)=1-P\left(\bigcap_{i=1}^{n} \bar{A}_{i}\right)=1-\prod_{i=1}^{n}\left[1-P\left(A_{i}\right)\right]$

伯努利试验概型

伯努利试验是在同样的条件下重复地、相互独立地进行的一种随机试验

随机试验只有两种可能结果：$A$ 和 $\bar{A}$，且 $P(A)=p\ (0<p<1)$
可以重复 $n$ 次
每次试验的结果与其他 $n$ 次试验无关（独立）
那么就称这一系列重复独立的随机试验为 $n$ 重伯努利试验，或称为伯努利概型。

$n$ 重伯努利试验中事件 $A$ 出现 $k$ 次的概率

$P_{n}(k)=C_{n}^{k} p^{k}(1-p)^{n-k}, \quad k=0,1,2, \cdots, n$

第二章随机变量及其分布

随机变量

设随机试验的样本空间是 $\Omega$，若 $\forall \omega \in \Omega$，按一定的法则，存在一个实数 $X(\omega)$ 与之对应，则称 $\Omega$ 上的实值单值函数 $X(\omega)$ 为随机变量
常用大写字母 $X,Y,Z,\cdots$ 或者带下标的大写字母 $X_{1},X_{2},Y_{1},Y_{2},\cdots$ 来表示随机变量
随机变量是从 $\Omega$ 到 $\mathbf{R}$ 的一个映射，它具有如下特点：

定义域是样本空间 $\Omega$
随机性：随机变量的可能取值不止一个，试验前只能知道它的可能取值，但不能预知取哪个值
概率特性：随机变量以一定的概率取某个值或某些值

随机变量的分布函数

设 $X$ 为一随机变量，对于任意实数 $x$，称

$F(x)=P(X \leqslant x),\quad-\infty<x<+\infty$

为 $X$ 的分布函数，有时候为突出其对随机变量 $X$ 的依赖性，也可记作 $F_{X}(x)$
分布函数具有如下性质：

$0 \leqslant F(x) \leqslant 1$，$\lim _{x \rightarrow-\infty} F(x)=0$，$\lim _{x \rightarrow+\infty} F(x)=1$（或 $F(-\infty)=0,F(+\infty)=1$）
$F(x)$ 是单调不减的函数，即 $\forall x_{1},x_{2}$，当 $x_{1}<x_{2}$ 时，有 $F\left(x_{1}\right) \leqslant F\left(x_{2}\right)$
$F(x)$ 是右连续函数，即 $\lim _{t \rightarrow x^{+}} F(t)=F(x)$ （或 $F(x+0)=F(x)$）

用分布函数表示概率

$P\left(X \leq x_{0}\right) =F\left(x_{0}\right)$
$\begin{aligned} P\left(X<x_{0}\right) &=\lim _{\Delta x \rightarrow 0^{+}} P\left(X \leq x_{0}-\Delta x\right)\\ &=\lim _{\Delta x \rightarrow 0^{+}} F\left(x_{0}-\Delta x\right) \\ &=F\left(x_{0}-0\right) \\ \end{aligned}$
$\begin{aligned} P\left(X=x_{0}\right) &=P\left(X \leq x_{0}\right)-P\left(X<x_{0}\right) \\ &=F\left(x_{0}\right)-F\left(x_{0}-0\right) \end{aligned}$
$\begin{array}{l} P(a<X \leq b)=F(b)-F(a) \\ P(X>a)=1-P(X \leq a)=1-F(a) \\ P(X=a)=F(a)-F(a-0) \\ P(a \leq X \leq b)=F(b)-F(a-0) \\ P(a<X<b)=F(b-0)-F(a) \\ P(a \leq X<b)=F(b-0)-F(a-0) \end{array}$

离散型随机变量及其分布律

定义

设离散型随机变量 $X$ 的所有可能取值为 $X=x_{k}(k=1,2,\cdots)$，不妨设 $x_{1}<x_{2}<\cdots$，称

$P\left(X=x_{k}\right)=p_{k},k=1,2,\cdots$

为 $X$ 的分布律（或分布列）
离散型随机变量的分布律具有如下性质：

$p_{k} \geqslant 0,k=1,2,\cdots$
$\sum_{k=1}^{+\infty} p_{k}=1$
理论上，只要 $p_{k}(k=1,2,\cdots)$ 满足上述两条性质，就可以作为某随机变量的分布律
对于离散型随机变量，分布函数是一个阶梯函数，它在随机变量的可能取值点处发生跳跃。
设随机变量 $X$ 的分布函数和分布律分别为 $F(x)$ 和 $P\left(X=x_{k}\right)=p_{k},k=1,2,\cdots$，则
$\begin{array}{c} F(x)=P(X \leqslant x)=\sum_{x_{k} \leqslant x} P\left(X=x_{k}\right) \\ P\left(X=x_{k}\right)=p_{k}=P\left(x_{k-1}<X \leqslant x_{k}\right)=F\left(x_{k}\right)-F\left(x_{k-1}\right) \end{array}$

0-1 分布（两点分布）

当随机变量只有两个可能取值时，常用 0-1 分布描述，0-1 分布的分布律也可以写成

$P(X=k)=p^{k}(1-p)^{1-k},k=0,1$

二项分布

若一类试验满足下列条件：

可独立重复地进行 $n$ 次（独立指每次试验结果发生的可能性互不影响）
每次试验的结果只有两个，不妨设为 $A$ 发生和 $\bar{A}$ 发生，
则称其为 $n$ 重 $Bernoulli$ 试验。这类试验对应的概率模型称为 $Bernoulli$ 概型。
在 $n$ 重 $Bernoulli$ 试验中，设一次试验中事件 $A$ 发生的概率为 $P(A)=p(0<p<1)$，显然 $P(\bar{A})=1-p$。令 $X$ 表示 $n$ 次试验中事件 $A$ 发生的次数，则 $X$ 的分布律为 $P(X=k)=\mathrm{C}_{n}^{k} p^{k}(1-p)^{n-k},\quad k=0,1,\cdots,n$ 称 $X$ 服从参数为 $(n,p)$ 的二项分布；记为 $X \sim B(n,p)$

最可能出现次数

若 $P(X = k) \ge P(X = j)$，$j = X$ 可取的一切值，则称 $k$ 为最可能出现的次数

当 $(n+1)p=整数$ 时，在 $k=(n+1)p$ 与 $k=(n+1)p–1$ 处的概率取得最大值
当 $(n+1)p\ne 整数$ 时，在 $k = \left \lfloor(n+1)p \right \rfloor$ 处的概率取得最大值

泊松定理

假设 $\lim_{n \rightarrow+\infty} n p_{n}=\lambda>0$, 则

$\lim _{n \rightarrow+\infty} \mathrm{C}_{n}^{k} p_{n}^{k}\left(1-p_{n}\right)^{n-k}=\mathrm{e}^{-\lambda} \frac{\lambda^{k}}{k !}, \quad k=0,1,2, \cdots .$

说明若 $X\sim B(n, p)$，则当 $n$ 较大，$p$ 较小，而 $np=\lambda$ 适中，则可以用近似公式

超几何分布的极限分布是二项分布
二项分布的极限分布是泊松分布

帕斯卡分布

在重复、独立的伯努利试验，设每次试验成功的概率为 $p$，若将试验进行到出现 $r$（$r$ 为常数）次成功为止，以随机变量 $X$ 表示所需试验次数，则 $X$ 是离散型随机变量，其概率分布为：

$P(X=k)=C_{k-1}^{r-1} p^{r} \cdot (1-p)^{k-r}, k=r, r+1, \cdots$

此时称 $P(X=k)$ 服从帕斯卡分布。

几何分布

在伯努利试验中，记每次试验中事件 $A$ 发生的概率为 $p$，试验进行到事件 $A$ 出现时停止，此时所进行的试验次数为 $X$，其分布列为：

$P(X=k)=(1-p)^{k-1} p,k=1,2,\ldots$

称 $P(X=k)$ 服从几何分布，是帕斯卡分布在 $r=1$ 的特例。

泊松分布

泊松分布的概率函数为：

$P(X=k)=\frac{\lambda^{k}}{k !} e^{-\lambda},k=0,1,\cdots$

泊松分布的参数 $\lambda$ 是单位时间（或单位面积）内随机事件的平均发生次数。泊松分布适合于描述单位时间内随机事件发生的次数。

连续型随机变量及其分布律

概率密度函数

设 $X$ 是一随机变量，$F(x)$ 是它的分布函数，若存在一个非负可积函数 $f(x)$，使得

$F(x)=\int_{-\infty}^{x} f(t) \mathrm{d} t,-\infty<x<+\infty$

则称 $X$ 为连续型随机变量，$f(x)$ 是它的概率密度函数（p.d.f.），简称为概率密度或密度函数。有时为突出其对随机变量 $X$ 的依赖性，$f(x)$ 也可记作 $f_{X}(x)$

概率密度具有如下性质：

（非负性）$f(x) \geqslant 0$
（规范性）$\int_{-\infty}^{+\infty} f(x) \mathrm{d} x=F(+\infty)=1$

上述两条性质是检验一个函数能否作为连续型随机变量的概率密度的标准

在 $f(x)$ 的连续点 $x$ 处，有 $f(x)=F^{\prime}(x)$；
$f(x)$ 描述了 $X$ 在 $x_{0}$ 附近单位长度的区间内取值的概率，即 $P\left(x_{0}<X \leqslant x_{0}+\Delta x\right) \approx f\left(x_{0}\right) \Delta x$
若 $a$ 是随机变量 $X$ 的一个可能的取值，则 $P(X=a)=0$
对任意实数 $a,b(a<b)$，有 $\begin{array}{c} P(a<X \leqslant b)=P(a \leqslant X \leqslant b)=P(a<X<b)=P(a \leqslant X<b)=\int_{a}^{b} f(x) \mathrm{d} x\\ P(X \leqslant b)=P(X<b)=\int_{-\infty}^{b} f(x) \mathrm{d} x\\ P(X>a)=P(X \geqslant a)=\int_{a}^{+\infty} f(x) \mathrm{d} x \end{array}$
连续型随机变量的分布函数连续

分位数

双侧 $\alpha$ 分位数是使得 $P(|X|>x_0)=\alpha$ 的 $x_0$ 值
上 $\alpha$ 分位数是使得 $P(X>x_0)=\alpha$ 的 $x_0$ 值，记作 $f_{\alpha}$（本书主要用这个）
下 $\alpha$ 分位数是使得 $P(X<x_0)=\alpha$ 的 $x_0$ 值
对于正态分布，$f_{\alpha}=-f_{1-\alpha}$

均匀分布

若随机变量 $X$ 的概率密度为

$f(x)=\left\{\begin{array}{ll} \frac{1}{b-a},& a<x<b\\ 0,& \text { 其他} \end{array}\right.$

则称 $X$ 服从区间 $(a,b)$ 上的均匀分布，记为 $X \sim U(a,b)$
容易计算 $X$ 的分布函数为

$F(x)=\left\{\begin{array}{ll} 0,& x<a\\ \frac{x-a}{b-a},& a \leqslant x<b\\ 1,& x \geqslant b \end{array}\right.$

$X$ 落在 $(a,b)$ 内任何长为 $d–c$ 的小区间的概率与小区间的位置无关

$\forall(c, d) \subset(a, b), \quad P(c<X<d)=\int_{c}^{d} \frac{1}{b-a} d x=\frac{d-c}{b-a}$

指数分布

若随机变量 $X$ 的概率密度为

$f(x)=\left\{\begin{array}{ll} \lambda \mathrm{e}^{-\lambda x},& x>0\\ 0,& x \leqslant 0 \end{array}\right.$

其中 $\lambda>0$，则称 $X$ 服从参数为 $\lambda$ 的指数分布，记为 $X \sim E(\lambda)$
容易计算 $X$ 的分布函数为

$F(x)=\left\{\begin{array}{ll} 1-\mathrm{e}^{-\lambda x},& x>0\\ 0,& x \leqslant 0 \end{array}\right.$

假设在任意长为 $t$ 的时间内的事件 $A$ 发生次数 $N(t)$ 服从参数为 $\lambda t$ 的 $Poisson$ 分布，即 $N(t) \sim P(\lambda t)$，那么两次事件 $A$ 发生之间的时间间隔 $T$ 服从参数为 $\lambda$ 的指数分布，即 $T \sim E(\lambda)$

无记忆性
若 $X \sim E(\lambda)$，则 $P(X>s+t \mid X>s)=P(X>t)$

正态分布（高斯分布）

若随机变量 $X$ 的概率密度为

$f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \mathrm{e}^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}},\quad-\infty<x<+\infty$

其中 $\mu,\sigma$ 为常数，$\sigma>0$，则称 $X$ 服从参数为 $\mu,\sigma$ 的正态分布，记为 $X \sim N\left(\mu,\sigma^{2}\right)$

正态分布的概率密度 $f(x)$ 的图形关于 $x=\mu$ 对称，即 $f(\mu+x)=f(\mu-x)$
$f(x)$ 在 $x=\mu$ 处取到最大值 $\frac{1}{\sqrt{2 \pi} \sigma}$。
当固定 $\sigma$，改变 $\mu$ 时，$y=f(x)$ 的形状不变化，只是位置不同，所以 $\mu$ 称为位置参数
当固定 $\mu$，改变 $\sigma$ 时，$y=f(x)$ 的形状不同，但是其图形的对称轴位置不变，所以 $\sigma$ 称为形状参数。
在 $x = \mu\pm\sigma$ 时，曲线 $y = f (x)$ 在对应的点处有拐点
参数 $\mu=0,\sigma=1$ 的正态分布称为标准正态分布，这里记为 $X^{\star} \sim N(0,1)$，其概率密度为 $\varphi(x)=\frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-\frac{x^{2}}{2}},\quad-\infty<x<+\infty$ $\varphi(x)$ 是一个偶函数，其图形关于 $y$ 轴对称，相应的分布函数记为 $\Phi(x)$，即 $\Phi(x)=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{x} \mathrm{e}^{-\frac{t^{2}}{2}} \mathrm{~d} t,\quad-\infty<x<+\infty$
一般的正态分布可以通过线性变换 $Y=\frac{X-\mu}{\sigma}$ 转化为标准正态分布，即若 $X \sim N\left(\mu,\sigma^{2}\right)$，则 $X^{\star}=\frac{X-\mu}{\sigma} \sim N(0,1)$
$X \sim N\left(\mu,\sigma^{2}\right)$ 的分布函数是 $\Phi(\frac{x-\mu}{\sigma})$
若已知分布函数为 $\Phi(ax+b)$，则 $X\sim N(-\frac{b}{a},\frac{1}{a})$
对于任意 $x$ 以及实数 $a(a>0)$，有 $\begin{array}{c} \Phi(-x)=1-\Phi(x) \\ P\left(\left|X^{*}\right|<a\right)=2 \Phi(a)-1 \end{array}$
如果 $X \sim N\left(\mu,\sigma^{2}\right)$ 且 $a,b$ 是实数，那么 $a X+b \sim N\left(a \mu+b,(a \sigma)^{2}\right)$
如果 $X \sim N\left(\mu_{X},\sigma_{X}^{2}\right)$ 与 $Y \sim N\left(\mu_{Y},\sigma_{Y}^{2}\right)$ 是统计独立的正态随机变量，那么：
- 它们的和也满足正态分布 $U=X+Y \sim N\left(\mu_{X}+\mu_{Y},\sigma_{X}^{2}+\sigma_{Y}^{2}\right)$，$E(U)=E(X)+E(Y)=\mu_{X}+\mu_{Y}$，$D(U)=D(X)+D(Y)=\sigma_{X}^{2}+\sigma_{Y}^{2}$
- 它们的差也满足正态分布 $V=X-Y \sim N\left(\mu_{X}-\mu_{Y},\sigma_{X}^{2}+\sigma_{Y}^{2}\right)$，$E(U)=E(X)-E(Y)=\mu_{X}-\mu_{Y}$，$D(U)=D(X)+D(Y)=\sigma_{X}^{2}+\sigma_{Y}^{2}$
- 若 $X$ 与 $Y$ 的方差相等，则 $U$ 与 $V$ 两者是相互独立的
$3\sigma$ 原理：
当 $a<\mu-3\sigma$ 时 $\Phi(a) \approx 0$，$b>\mu+3\sigma$ 时 $\Phi(b) \approx 1$
正态变量的条件
- 受众多相互独立的随机因素影响
- 每一因素的影响都是微小的
- 且这些正、负影响可以叠加

离散型随机变量函数的分布

一般地，假设随机变量 $X$ 为离散型随机变量，其分布律为

$P\left(X=x_{k}\right)=p_{k},\quad k=1,2,\cdots$

又设函数 $y=g(x)$，求 $Y=g(X)$ 的概率分布的一般方法如下：

确定随机变量 $Y=g(X)$ 的所有可能取值；
$Y$ 的概率分布为 $P\left(Y=y_{i}\right)=P\left(g(X)=y_{i}\right)=\sum_{k:g\left(x_{k}\right)=y_{i}} p_{k},\quad i=1,2,\cdots$

连续型随机变量函数的分布

一般地，设 $X$ 为连续型随机变量，如果已知 $X$ 的概率密度为 $f_{X}(x)$（或分布函数），又设函数 $y=g(x)$，求 $Y=g(X)$ 的概率密度（或分布函数）的步骤如下：

先求 $Y$ 的分布函数 $F_{Y}(y)=P(Y\le y)$
再对 $F_{Y}(y)$ 求导数，得到 $Y$ 的概率密度 $f_{Y}(y)=\frac{\mathrm{d}}{\mathrm{d} y} F_{Y}(y)$
对于线性函数 $Y=aX+b\ (a\ne 0)$，$f_{Y}(y)=\frac{1}{|a|}f_{X}\left(\frac{1}{a}(y-b)\right)$
★若 $y=g(x)$ 存在反函数 $x=g^{-1}(y)$，则 $f_{Y}(y)=f_{X}(g^{-1}(y))\cdot \left|\frac{\mathrm{d}x}{\mathrm{d}y}\right|$
设随机变量 $Y=g(X)$，$Y=g(X)$ 与 $Y=y$ 的交点横坐标为 $x_1,x_2,\cdots,x_n$，则 $f_{Y}(y)=\frac{f_{X}\left(x_{1}\right)}{\left|\frac{\mathrm{d} y}{\mathrm{d} x}\right|_{x=x_1}} +\frac{f_{X}\left(x_{2}\right)}{\left|\frac{\mathrm{d} y}{\mathrm{d} x}\right|_{x=x_2}} +\cdots+\frac{f_{X}\left(x_{n}\right)}{\left|\frac{\mathrm{d} y}{\mathrm{d} x}\right|_{x=x_n}}$

第三章多维随机变量及其分布

二维随机变量及其分布

设 $E$ 是一个随机试验，$\Omega$ 是其样本空间，若对 $\Omega$ 中的任意一个样本点 $\omega$，按照一定的对应法则，存在一对实数 $(X(\omega),Y(\omega))$ 与之对应，简记为 $(X,Y)$，则称 $(X,Y)$ 为二维随机变量

设 $(X,Y)$ 为二维随机变量，对于任意实数 $x,y$，称定义在实平面上的二元函数 $F(x,y)=P(\{X \leqslant x\} \cap\{Y \leqslant y\})=P(X \leqslant x,Y \leqslant y)$ 为二维随机变量 $(X,Y)$ 的联合分布函数，简称为分布函数或联合分布

$0 \leqslant F(x,y) \leqslant 1$，且对于任意固定的 $x,y$，有 $F(-\infty,y)=0,\quad F(x,-\infty)=0,\quad F(-\infty,-\infty)=0,\quad F(+\infty,+\infty)=1$
对 $F(x,y)$ 固定其中一个变量，它关于另一个变量是单调不减的函数，即
- 对于任意固定的 $y$，当 $x_{1}<x_{2}$ 时，$F\left(x_{1},y\right) \leqslant F\left(x_{2},y\right)$
- 对于任意固定的 $x$，当 $y_{1}<y_{2}$ 时，$F\left(x,y_{1}\right) \leqslant F\left(x,y_{2}\right)$
对 $F(x,y)$ 固定其中一个变量，它关于另一个变量是右连续函数，即 $\begin{array}{c} F(x+0,y)=F(x,y)\\ F(x,y+0)=F(x,y) \end{array}$
对任意实数 $a,b,c,d$，且 $a<b,c<d$，下述结论成立： $F(b,d)-F(a,d)-F(b,c)+F(a,c)=P(a<X \leqslant b,c<Y \leqslant d) \geqslant 0$
$P(X>a,Y>c)=1-F(+\infty,c)-F(a,+\infty)+F(a,c)$

边缘分布函数

设二维随机变量 $(X,Y)$ 的分布函数为 $F(x,y)$，分量 $X$ 和 $Y$ 也都是随机变量，各自的分布函数分别记为 $F_{X}(x)$ 和 $F_{Y}(y)$，并依次称为随机变量 $(X,Y)$ 关于 $X$ 和 $Y$ 的边缘分布函数
由分布函数的定义可得联合分布函数和边缘分布函数的关系，

$F_{X}(x)=F(x,+\infty)$

同理可得

$F_{Y}(y)=F(+\infty,y)$

一般地，我们可以根据分布函数求边缘分布函数 $F_{X}(x)$ 和 $F_{Y}(y)$，反之不然

二维离散型随机变量及其分布律

定义

随机变量 $(X,Y)$ 在二维平面上所有可能的取值为有限对或可列无穷对，则称 $(X,Y)$ 为二维离散型随机变量

分布律

设二维随机变量 $(X,Y)$ 的所有可能取值为 $\left(x_{i},y_{j}\right)$，$i,j=1,2,\cdots$，则称 $P\left(X=x_{i},Y=y_{j}\right)=p_{i j}$，$i,j=1,2,\cdots$ 为二维离散型随机变量 $(X,Y)$ 的联合分布律或联合分布列，简称为分布律

分布律的性质

容易看出分布律具有如下性质：

（非负性）$p_{i j} \geqslant 0(i,j=1,2,\cdots)$
（规范性）$\sum_{i} \sum_{j} p_{i j}=1$
若某数列 $p_{i j}(i,j=1,2,\cdots)$ 满足上述两条性质，就可以作为某个二维离散型随机变量的分布律

分布律和分布函数的关系

二维离散型随机变量的分布函数与分布律互为确定，其分布函数可按下式求得：

$F(x,y)=\sum_{x_{i} \leqslant x} \sum_{y_{j} \leqslant y} p_{i j}$

容易知道，二维离散型随机变量的两个分量均为离散型随机变量，且其分布律分别如下所示

$\begin{array}{l} P\left(X=x_{i}\right)=\sum_{i} p_{i j} \triangleq p_{i \cdot} ,i=1,2,\cdots\\ P\left(Y=y_{j}\right)=\sum_{i} p_{i j} \triangleq p_{\cdot j},j=1,2,\cdots \end{array}$

分别称 $P\left(X=x_{i}\right)$ 和 $P\left(Y=y_{j}\right)$ 为 $(X,Y)$ 关于 $X$ 和关于 $Y$ 的边缘分布律

分布律的计算方法

利用古典概型直接求
利用乘法公式 $p_{i j}=P\left(X=x_{i}\right) P\left(Y=y_{j} \mid X=x_{i}\right)$

二维连续型随机变量

类似于一维连续型随机变量的定义，二维连续型随机变量的定义如下：
对于二维随机变量 $(X,Y)$ 的分布函数 $F(x,y)$，如果存在一个二元非负可积函数 $f(x,y)$，使得对于任意一对实数 $(x,y)$，有

$F(x,y)=\int_{-\infty}^{x} \int_{-\infty}^{y} f(u,v) \mathrm{d} u \mathrm{d} v$

成立，则称 $(X,Y)$ 为二维连续型随机变量，并称 $f(x,y)$ 为 $(X,Y)$ 的联合概率密度函数，简称联合概率密度或联合密度

性质

二维连续型随机变量的联合概率密度具有如下性质：

（非负性）$f(x,y) \geqslant 0,-\infty<x<+\infty,-\infty<y<+\infty$
（规范性）$\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} f(x,y) \mathrm{d} x \mathrm{d} y=1$

若二元函数 $f(x,y)$ 满足上述两条性质，就可以作为某个二维随机变量 $(X,Y)$ 的联合概率密度

设 $(X,Y)$ 为二维连续型随机变量，则对平面上任一区域 $D$，有 $P((X,Y) \in D)=\iint_{D} f(x,y) \mathrm{d} x \mathrm{d} y$
在 $f(x,y)$ 的连续点处，有 $\frac{\partial^{2} F(x,y)}{\partial x \partial y}=f(x,y)$
如果 $(X,Y)$ 为二维连续型随机变量，对平面上任意一条可以求长度的曲线 $L$，有 $P(X,Y) \in L)=0$

边缘分布函数和边缘概率密度

由定义，边缘分布函数 $F_{X}(x),F_{Y}(y)$ 可分别表示为

$\begin{aligned} F_{x}(x) &=P(X \leqslant x)=P(X \leqslant x,Y \leqslant+\infty) \\ &=\int_{-\infty}^{x} \int_{-\infty}^{+\infty} f(u,v) \mathrm{d} u \mathrm{d} v=\int_{-\infty}^{x}\left[\int_{-\infty}^{+\infty} f(u,v) \mathrm{d} v\right] \mathrm{d} u\\ F_{y}(y) &=P(Y \leqslant y)=P(X \leqslant+\infty,Y \leqslant y) \\ &=\int_{-\infty}^{+\infty} \int_{-\infty}^{y} f(u,v) \mathrm{d} u \mathrm{d} v=\int_{-\infty}^{y}\left[\int_{-\infty}^{+\infty} f(u,v) \mathrm{d} u\right] \mathrm{d} v \end{aligned}$

从而 $X,Y$ 也是连续型随机变量，且其概率密度分别为

$f_{X}(x)=\int_{-\infty}^{+\infty} f(x,v) \mathrm{d} v,\quad f_{Y}(y)=\int_{-\infty}^{+\infty} f(u,y) \mathrm{d} u$

分别称 $f_{X}(x)$ 和 $f_{Y}(y)$ 为 $(X,Y)$ 关于 $X$ 和关于 $Y$ 的边缘概率密度

二维均匀分布

如果二维随机变量 $(X,Y)$ 在二维有界区域 $G$ 上取值，且它的联合概率密度为

$f(x，y)=\left\{\begin{array}{ll} \frac{1}{G \mathrm{的面积}},& (x,y) \in G\\ 0,& \mathrm{其他} \end{array}\right.$

则称 $(X,Y)$ 服从 $G$ 上的均匀分布

边平行于坐标轴的矩形域上的均匀分布的边缘分布仍为均匀分布

二维正态分布

如果二维随机变量 $(X,Y)$ 的联合概率密度为

$f(x,y)=\frac{1}{2 \pi \sigma_{1} \sigma_{2} \sqrt{1-\rho^{2}}} \exp \left\{-\frac{1}{2\left(1-\rho^{2}\right)}\left[\frac{\left(x-\mu_{1}\right)^{2}}{\sigma_{1}^{2}}-2 \rho \frac{\left(x-\mu_{1}\right)\left(y-\mu_{2}\right)}{\sigma_{1} \sigma_{2}}+\frac{\left(y-\mu_{2}\right)^{2}}{\sigma_{2}^{2}}\right]\right\}$

其中 $\mu_{1},\mu_{2},\sigma_{1},\sigma_{2},\rho$ 是常数，且 $\sigma_{1}>0,\sigma_{2}>0,-1<\rho<1$，则称 $(X,Y)$ 服从参数为 $\mu_{1},\mu_{2},\sigma_{1},\sigma_{2},\rho$ 的二维正态分布，记为

$(X,Y) \sim N\left(\mu_{1},\sigma_{1}^{2};\mu_{2},\sigma_{2}^{2};\rho\right)$

边缘概率密度

通过积分运算就可以得到服从二维正态分布的随机变量 $(X,Y)$ 的两个边缘概率密度分别为

$f_{X}(x)=\frac{1}{\sqrt{2 \pi} \sigma_{1}} \mathrm{e}^{-\frac{\left(x-\mu_{1}\right)^{2}}{2 \sigma_{1}^{2}}},\quad f_{Y}(y)=\frac{1}{\sqrt{2 \pi} \sigma_{2}} \mathrm{e}^{-\frac{\left(x-\mu_{2}\right)^{2}}{2 \sigma_{2}^{2}}}$

所以 $X \sim N\left(\mu_{1},\sigma_{1}^{2}\right),Y \sim N\left(\mu_{2},\sigma_{2}^{2}\right)$

二维正态分布的两个边缘分布都是正态分布，并且都不依赖于参数 $\rho$
仅有关于 $X$ 和 $Y$ 的边缘分布，一般来说不能确定随机变量 $(X,Y)$ 的联合分布
即使 $(X,Y)$ 不服从二维正态分布，其边缘分布也可能是正态分布

用矩阵向量表示

令

$B=\left(\begin{array}{cc} \sigma_{1}^{2} & \rho \sigma_{1} \sigma_{2} \\ \rho \sigma_{1} \sigma_{2} & \sigma_{2}^{2} \end{array}\right)$

则

$B^{-1}=\frac{1}{1-\rho^{2}}\left(\begin{array}{cc} \frac{1}{\sigma_{1}^{2}} & -\frac{\rho}{\sigma_{1} \sigma_{2}} \\ -\frac{\rho}{\sigma_{1} \sigma_{2}} & \frac{1}{\sigma_{2}^{2}} \end{array}\right)=A$

$|B|=\left(1-\rho^{2}\right) \sigma_{1}^{2} \sigma_{2}^{2}>0$，$B$ 为正定矩阵，再令

$X=\left(x-\mu_{1}, y-\mu_{2}\right)^{T}$

则联合概率密度为

$f(x, y)=\frac{1}{(\sqrt{2 \pi})^{2}|B|^{\frac{1}{2}}} e^{-\frac{1}{2} X^{\mathrm{T}} A X}$

二维离散型随机变量的条件分布

设二维离散型随机变量 $(X,Y)$ 的联合分布律为

$P\left(X=x_{i},Y=y_{j}\right)=p_{i j},\quad i,j=1,2,\cdots$

$(X,Y)$ 关于 $X$ 和关于 $Y$ 的边缘分布律分别为

$\begin{array}{c} p_{i \cdot}=P\left(X=x_{i}\right)=\sum_{i} p_{i j},\quad i=1,2,\cdots\\ p_{\cdot j}=P\left(Y=y_{j}\right)=\sum_{i} p_{i j},\quad j=1,2,\cdots \end{array}$

对于固定的 $j$，若 $P\left(Y=y_{j}\right)>0$，则称

$P\left(X=x_{i} \mid Y=y_{j}\right)=\frac{P\left(X=x_{i},Y=y_{j}\right)}{P\left(Y=y_{j}\right)}=\frac{p_{i j}}{p_{\cdot j}},\quad i=1,2,\cdots$

为在 $\left\{Y=y_{j}\right\}$ 的条件下 $X$ 的条件分布律
同样，对于固定的 $i$，若 $P\left(X=x_{i}\right)>0$，则称

$P\left(Y=y_{j} \mid X=x_{i}\right)=\frac{P\left(X=x_{i},Y=y_{j}\right)}{P\left(X=x_{i}\right)}=\frac{p_{i j}}{p_{i \cdot}},\quad j=1,2,\cdots$

为在 $\left\{X=x_{i}\right\}$ 的条件下 $Y$ 的条件分布律

性质

条件分布律满足概率分布律的性质，比如：

$P\left(X=x_{i} \mid Y=y_{j}\right) \geqslant 0$
$\sum_{i} P\left(X=x_{i} \mid Y=y_{j}\right)=\sum_{i} \frac{p_{i j}}{p_{\cdot j}}=\frac{1}{p_{\cdot j}} \sum_{i} p_{i j}=1$

乘法公式

$P\left(X=x_{i},Y=y_{j}\right)=P\left(Y=y_{j}\right) P\left(X=x_{i} \mid Y=y_{j}\right),i,j=1,2,\cdots$

全概率公式

$P\left(X=x_{i}\right)=\sum P\left(Y=y_{j}\right) P\left(X=x_{i} \mid Y=y_{j}\right),i=1,2,\cdots$

二维连续型随机变量的条件分布

设二维随机变量 $(X,Y)$ 的联合概率密度为 $f(x,y)$，$X$ 与 $Y$ 的边缘概率密度分别为 $f_{X}(x)$ 与 $f_{Y}(y)$。当 $f_{Y}(y)>0$ 时，则称 $\frac{f(x,y)}{f_{Y}(y)}$ 为在 ${Y=y}$ 的条件下 $X$ 的条件概率密度，记为

$f_{X \mid Y}(x \mid y)=\frac{f(x,y)}{f_{Y}(y)},\quad-\infty<x<+\infty$

称

$F_{X \mid Y}(x \mid y)=\int_{-\infty}^{x} \frac{f(u,y)}{f_{Y}(y)} \mathrm{d} u,\quad-\infty<x<+\infty$

为在 $\{Y=y\}$ 的条件下 $X$ 的条件分布函数
当 $f_{X}(x)>0$ 时，在 $\{X=x\}$ 的条件下 $Y$ 的条件概率密度与条件分布函数分别为

$\begin{array}{c} f_{Y \mid X}(y \mid x)=\frac{f(x,y)}{f_{X}(x)},\quad-\infty<y<+\infty \\ F_{Y \mid X}(y \mid x)=\int_{-\infty}^{y} \frac{f(x,v)}{f_{X}(x)} \mathrm{d} v,\quad-\infty<y<+\infty \end{array}$

乘法公式

$\begin{aligned} f(x, y) &=f_{X}(x) f_{Y \mid X}(y x) ,\ f_{X}(x)>0 \\ &=f_{Y}(y) f_{X \mid Y}(x y) ,\ f_{Y}(y)>0 \end{aligned}$

全概率公式

$\begin{array}{c} f_{X}(x) =\int_{-\infty}^{+\infty} f(x, y) \mathrm{d} y=\int_{-\infty}^{+\infty} f_{X\mid Y}(x \mid y) f_{Y}(y) \mathrm{d} y \\ f_{Y}(y) =\int_{-\infty}^{+\infty} f(x, y) \mathrm{d} x=\int_{-\infty}^{+\infty} f_{Y\mid X}(y\mid x) f_{X}(x) \mathrm{d} x \end{array}$

贝叶斯公式

$\begin{array}{c} f_{X \mid Y}(x \mid y)=\frac{f(x, y)}{f_{Y}(y)}=\frac{f_{Y \mid X}(y \mid x) f_{X}(x)}{f_{Y}(y)} \\ f_{Y \mid X}(y \mid x)=\frac{f(x, y)}{f_{X}(x)}=\frac{f_{X \mid Y}(x \mid y) f_{Y}(y)}{f_{X}(x)} \end{array}$

二维随机变量的独立性

设 $(X,Y)$ 是二维随机变量，若对于任意实数 $x,y$，都有

$P(X \leqslant x,Y \leqslant y)=P(X \leqslant x) P(Y \leqslant y)$

则称随机变量 $X$ 与 $Y$ 相互独立

性质&判定

若二维随机变量 $(X,Y)$ 的联合分布函数为 $F(x,y)$，其关于 $X$ 和 $Y$ 的边缘分布函数分别为 $F_{X}(x)$ 和 $F_{Y}(y)$，则 $X$ 与 $Y$ 相互独立等价于对任意实数 $x,y$，都有 $F(x,y)=F_{X}(x) F_{Y}(y)$
若 $(X,Y)$ 为二维离散型随机变量，其联合分布律为 $P\left(X=x_{i},Y=y_{j}\right)=p_{i j},\quad i,j=1,2,\cdots,$ 则 $X$ 和 $Y$ 相互独立的充分必要条件为 $P\left(X=x_{i},Y=y_{j}\right)=P\left(X=x_{i}\right) P\left(Y=y_{j}\right),\quad i,j=1,2,\cdots,$ 即 $p_{i j}=p_{i \cdot} \cdot p_{\cdot j},\quad i,j=1,2,\cdots,$ 也就是联合分布律等于边缘分布律的乘积
设 $(X,Y)$ 为二维连续型随机变量，其联合概率密度为 $f(x,y)$，而关于 $X$ 和 $Y$ 的边缘概率密度分别为 $f_{X}(x)$ 和 $f_{Y}(y)$，则 $X$ 与 $Y$ 相互独立的充分必要条件为 $f(x,y)=f_{x}(x) f_{y}(y)$ 在一切连续点上成立，即联合概率密度等于边缘概率密度的乘积
若随机变量 $X$ 与 $Y$ 相互独立，$g_{1}(x)$ 与 $g_{2}(y)$ 是两个确定函数，则 $g_{1}(X)$，$g_{2}(Y)$ 也相互独立

独立性定理

设 $(X,Y)$ 是二维连续型随机变量，$f(x,y)$ 是 $(X,Y)$ 的联合概率密度，则 $X$ 与 $Y$ 相互独立的充分必要条件是存在非负可积函数 $r(x)$ 和 $g(y)$，使得

$f(x,y)=r(x) g(y)$

在一切连续点上成立，这时

$f_{X}(x)=\frac{r(x)}{\int_{-\infty}^{+\infty} r(x) \mathrm{d} x},\quad f_{Y}(y)=\frac{g(y)}{\int_{-\infty}^{+\infty} g(y) \mathrm{d} y}$

n 维随机变量

随机变量函数

二维离散型随机变量

设 $(X,Y)$ 的联合分布律为 $P\left(X=x_{i},Y=y_{j}\right)=p_{i j}(i,j=1,2,\cdots)$，$z=g(x,y)$ 是一个二元函数，$Z=g(X,Y)$ 就是随机变量 $(X,Y)$ 的函数。假设 $Z$ 的全部不同取值记为 $z_{k}(k=1,2,\cdots)$，并且所有使得 $g(x,y)=z_{k}$ 的点记为 $\left(x_{i_{k}},y_{j_{k}}\right)$，即 $z_{k}=g\left(x_{i_{k}},y_{j_{k}}\right)$。$Z$ 的分布律可通过下式求得：

$P\left(Z=z_{k}\right)=P\left(g(X,Y)=z_{k}\right)=\sum_{g\left(x_{i_{k}},y_{j_{k}}\right)=z_{k}} P\left(X=x_{i_{k}},Y=y_{j_{k}}\right),k=1,2,\cdots$

特别地，当 $Z=X+Y$ 时，

$P(Z=r)=P(X+Y=r)=\sum_{i=0}^{r} P(X=i,Y=r-i)$

进一步，当 $X$ 与 $Y$ 相互独立时，若 $P(X=k)=a_{k},P(Y=k)=b_{k},k=0,1,2,\cdots$，则 $Z=X+Y$ 的分布律为

$P(Z=r)=\sum_{i=0}^{r} P(X=i) P(Y=r-i)=\sum_{i=0}^{r} a_{i} b_{r-i}$

该公式称为离散卷积公式

二项分布的可加性

若随机变量 $X$ 与 $Y$ 相互独立，且都服从二项分布，即 $X \sim B(n,p),Y \sim B(m,p)$，则其和 $X+Y$ 也服从二项分布，即 $X+Y \sim B(n+m,p)$

Poisson 分布的可加性

若随机变量 $X$ 与 $Y$ 相互独立，且都服从 Poisson 分布，即 $X \sim P\left(\lambda_{1}\right)$，$Y \sim P\left(\lambda_{2}\right)$，则其和也服从 Poisson 分布，即 $X+Y \sim P\left(\lambda_{1}+\lambda_{2}\right)$

二维连续型随机变量

设 $(X,Y)$ 的联合概率密度为 $f(x,y),z=g(x,y)$ 是一个二元函数。令 $Z=g(X,Y)$，由分布函数的定义，不难理解 $Z$ 的分布函数为

$F_{Z}(z)=P(Z \leqslant z)=P(g(X,Y) \leqslant z)=\iint_{g(x,y) \leqslant z} f(x,y) \mathrm{d} x \mathrm{d} y$

如果我们求出一个非负可积函数 $f_{Z}(z)$，使得

$F_{Z}(z)=\int_{-\infty}^{z} f_{Z}(u) \mathrm{d} u$

那么随机变量函数 $Z=g(X,Y)$ 的概率密度为

$f_{Z}(z)=F_{Z}^{\prime}(z)$

变量代换法求解

设已知二维随机变量 $(X,Y)$ 的概率密度函数 $f_{XY}(x,y)$，构造一个新的二维随机变量 $(Z,V)$，满足

$\left\{\begin{array}{l} Z=g(X, Y) \\ V=r(X, Y) \end{array}\right.$

设 $\left\{\begin{array}{l} z=g(x, y) \\ v=r(x, y) \end{array}\right.$ 存在唯一的反函数

$\left\{\begin{array}{l} x=h(z, v) \\ y=s(z, v) \end{array}\right.$

其中 $h, s$ 有连续的偏导数，记

$J=\left|\begin{array}{ll} \frac{\partial h}{\partial z} & \frac{\partial h}{\partial v} \\ \frac{\partial s}{\partial z} & \frac{\partial s}{\partial v} \end{array}\right|$

则

$f_{Z V}(z, v)=f_{X Y}[h(z, v), s(z, v)]|J|$

和的分布

设 $(X,Y)$ 为连续型随机变量，其联合概率密度为 $f(x,y)$，令 $Z=X+Y$，则

$f_{Z}(z)=\int_{-\infty}^{+\infty} f(x,z-x) \mathrm{d} x=\int_{-\infty}^{+\infty} f(z-y,y) \mathrm{d} y$

特别地，若 $X,Y$ 相互独立，则

$\begin{aligned} f_{Z}(z) &=\int_{-\infty}^{+\infty} f_{X}(x) f_{Y}(z-x) \mathrm{d} x \\ &=\int_{-\infty}^{+\infty} f_{X}(z-y) f_{Y}(y) \mathrm{d} y \\ &\triangleq f_{X} * f_{Y}(z) \end{aligned}$

函数 $f_{Z}(z)$ 被称为函数 $f_{X}(x)$ 与 $f_{Y}(y)$ 的卷积，记作 $f_{X} * f_{Y}(z)$
更一般地，设 $Z=a X+b Y+c$，其中 $a,b,c$ 为常数，$a,b \neq 0$，则 $Z$ 的概率密度为

$f_{Z}(z)=\frac{1}{|b|} \int_{-\infty}^{+\infty} f\left(t,\frac{z-a t-c}{b}\right) \mathrm{d} t=\frac{1}{|a|} \int_{-\infty}^{+\infty} f\left(\frac{z-b t-c}{a},t\right) \mathrm{d} t$

商的分布

令 $Z=X/Y$，$V=Y$，易知 $f_{ZV}(z,v)=f(zv,v)|v|$

$f_{Z}(z)=\int_{-\infty}^{+\infty} f_{Z V}(z, v) d v=\int_{-\infty}^{+\infty} f(z v, v)|v| d v$

若 $X$ 与 $Y$ 相互独立，则

$f_{Z}(z)=\int_{-\infty}^{+\infty} f_{X}(y z) f_{Y}(y)|y| \mathrm{d} y$

平方和的分布

若 $Z=X^2+Y^2$，则

$f_{Z}(z)=\left\{\begin{array}{ll} 0, & z<0 \\ \frac{1}{2} \int_{0}^{2 \pi} f(\sqrt{z} \cos \theta, \sqrt{z} \sin \theta) \mathrm{d} \theta, & z \geqslant 0 \end{array}\right.$

极值的分布

一般地，若 $X_{1},X_{2},\cdots,X_{n}$ 相互独立，且 $X_{i}$ 的分布函数为 $F_{X_{i}}\left(x_{i}\right),i=1,2,\cdots,n$，$M=\max _{1 \leqslant i \leqslant n}\left\{X_{i}\right\}$，$N=\min _{1 \leqslant i \leqslant n}\left\{X_{i}\right\}$，则 $M,N$ 的分布函数分别为

$\begin{array}{c} F_{M}(z)=\prod_{1 \leqslant i \leqslant n} F_{X_{i}}(z)\\ F_{N}(z)=1-\prod_{1 \leqslant i \leqslant n}\left[1-F_{X_{i}}(z)\right] \end{array}$

特别地，若 $X_{1},X_{2},\cdots,X_{n}$ 相互独立，且具有相同的分布函数 $F(x)$ 时，则有

$\begin{array}{c} F_{M}(z)=[F(z)]^{n}\\ F_{N}(z)=1-[1-F(z)]^{n} \end{array}$

正态分布可加性

若 $(X,Y) \sim N\left(\mu_{1},\sigma_{1}^{2};\mu_{2},\sigma_{2}^{2};\rho\right)$，则

$X+Y \sim N\left(\mu_{1}+\mu_{2},\sigma_{1}^{2}+2 \rho \sigma_{1} \sigma_{2}+\sigma_{2}^{2}\right)$

特别地，若 $X,Y$ 相互独立，且 $X \sim N\left(\mu_{1},\sigma_{1}^{2}\right),Y \sim N\left(\mu_{2},\sigma_{2}^{2}\right)$，则

$X \pm Y \sim N\left(\mu_{1} \pm \mu_{2},\sigma_{1}^{2}+\sigma_{2}^{2}\right)$

第四章随机变量的数字特征

数学期望

定义

设离散型随机变量 $X$ 的分布律为

$\begin{array}{c|ccccc} \hline \quad X \quad & x_{1} & x_{2} & \cdots & x_{k} & \ldots \\ \hline P & p_{1} & p_{2} & \ldots & p_{k} & \cdots \\ \hline \end{array}$

若级数 $\sum_{k=1}^{+\infty} x_{k} p_{k}$ 绝对收敛，即 $\sum_{k=1}^{+\infty}\left|x_{k}\right| p_{k}<+\infty$，则称

$\sum_{k=1}^{+\infty} x_{k} p_{k}$

为随机变量 $X$ 的数学期望，也称为均值，记为 $E(X)$

若级数不绝对收敛，则数学期望不存在

设 $X$ 为连续型随机变量，其概率密度为 $f(x)$，若 $\int_{-\infty}^{+\infty} x f(x) \mathrm{d} x$ 绝对收敛，即 $\int_{-\infty}^{+\infty}|x| f(x) \mathrm{d} x<+\infty$，则称

$\int_{-\infty}^{+\infty} x f(x) \mathrm{d} x$

为随机变量 $X$ 的数学期望，也称为均值，记为 $E(X)$

若积分不绝对收敛，则数学期望不存在

性质

设 $X$ 是任意随机变量，则 $X$ 的数学期望存在的充要条件是 $E(|X|)<+\infty$
设 $X,Y$ 是任意两个数学期望存在的随机变量，且 $X \leqslant Y$，则 $E(X) \leqslant E(Y)$
设 $C$ 为常数，则 $E(C)=C$
设 $X$ 是任意满足 $E(|X|)<+\infty$ 的随机变量，$C$ 是任意常数，则 $E(C X)=C E(X)$
设 $X,Y$ 是任意两个数学期望存在的随机变量，则 $X+Y$ 的数学期望也存在，且 $E(X+Y)=E(X)+E(Y)$
设 $X,Y$ 是任意相互独立的随机变量，且 $X,Y$ 的数学期望都存在，则 $XY$ 的数学期望也存在，且 $E(X Y)=E(X) E(Y)$（逆命题不成立）
若存在数 $a$ 使得 $P(X\ge a)=1$，则 $E(X)\ge a$
若存在数 $b$ 使得 $P(X\le b)=1$，则 $E(X)\le b$
$E^{2}(X Y) \leq E\left(X^{2}\right) E\left(Y^{2}\right)$ 当 $E\left(X^{2}\right)>0,E\left(Y^{2}\right)>0$ 时，当且仅当 $P\left(Y=t_{0} X\right)=1$ 时，等式成立

随机变量函数的数学期望

一维

设 $X$ 为随机变量，$Y=g(X)$，其中 $g(x)$ 是一个确定函数

设 $X$ 为离散型随机变量，其分布律为 $P\left(X=x_{k}\right)=p_{k},k=1,2,\cdots$，若级数 $\sum_{k=1}^{+\infty} g\left(x_{k}\right) p_{k}$ 绝对收敛，则 $E(Y)=E[g(X)]=\sum_{k=1}^{+\infty} g\left(x_{k}\right) p_{k}$
设 $X$ 为连续型随机变量，其概率密度为 $f(x)$，若级数 $\int_{-\infty}^{+\infty} g(x) f(x) \mathrm{d} x$ 绝对收敛，则 $E(Y)=E[g(X)]=\int_{-\infty}^{+\infty} g(x) f(x) \mathrm{d} x$

二维

设 $(X,Y)$ 是二维随机变量，$Z=g(X,Y)$，其中 $g(x,y)$ 是一个确定的函数

设 $(X,Y)$ 为离散型随机变量，其分布律为 $P\left(X=x_{i},Y=y_{j}\right)=p_{i j},i,j=1,2,\cdots$，若级数 $\sum_{i=1}^{+\infty} \sum_{j=1}^{+\infty} g\left(x_{i},y_{j}\right) p_{i j}$ 绝对收敛，则 $E(Z)=E[g(X,Y)]=\sum_{i=1}^{+\infty} \sum_{j=1}^{+\infty} g\left(x_{i},y_{j}\right) p_{i j}$
设 $(X,Y)$ 为连续型随机变量，其联合概率密度为 $f(x,y)$，若积分 $\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} g(x,y) f(x,y) \mathrm{d} x \mathrm{d} y$ 绝对收敛，则 $E(Z)=E[g(X,Y)]=\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} g(x,y) f(x,y) \mathrm{d} x \mathrm{d} y$

方差

设 $X$ 是一个随机变量，若 $E\left\{[X-E(X)]^{2}\right\}$ 存在，则称其为 $X$ 的方差，记为 $D(X)$ 或 $\operatorname{Var}(X)$，即

$D(X)=E\left\{[X-E(X)]^{2}\right\}$

定义 $\sigma_{X}=\sqrt{D(X)}$ 为 $X$ 的均方差或标准差
方差 $D(X)$ 的量纲是原随机变量 $X$ 量纲的平方，而 $\sigma_{X}$ 与 $X$ 的量纲相同
方差 $D(X)$ 反映了随机变量 $X$ 偏离其“分布重心” $E(X)$ 的程度：$D(X)$ 越大，$X$ 偏离 $E(X)$ 的程度就越大，其分布就越分散；反之，其分布就比较集中
$D(X)$ 在某种意义上反映了 $X$ 的“随机性”的大小，$D(X)$ 越大，$X$ 的“随机性”越大

计算

当 $X$ 是离散型随机变量时，

$D(X)=\sum_{i=1}^{+\infty}\left[x_{i}-E(X)\right]^{2} p_{i}$

其中 $P\left(X=x_{i}\right)=p_{i},i=1,2,\cdots$ 是 $X$ 的分布律

当 $X$ 是连续型随机变量时，

$D(X)=\int_{-\infty}^{+\infty}[x-E(X)]^{2} f(x) \mathrm{d} x$

其中 $f(x)$ 是 $X$ 的概率密度

也可用公式计算

$D(X)=E\left(X^{2}\right)-[E(X)]^{2}$

性质

设 $X$ 为任意的随机变量，则 $X$ 的方差存在的充要条件是 $E\left(X^{2}\right)<+\infty$
设 $C$ 为常数，则 $D(C)=0$
$D(aX+b)=a^2 D(X)$
$\begin{aligned} D(X \pm Y) &=D(X)+D(Y) \pm 2 E((X-E(X))(Y-E(Y)))\\ &=D(X)+D(Y) \pm 2 (E(XY)-E(X)E(Y)) &=D(X)+D(Y) \pm 2 \operatorname{cov}(X, Y) \end{aligned}$
设 $X,Y$ 为相互独立的随机变量，$X,Y$ 的方差都存在，则 $D(X+Y)=D(X)+D(Y)$ （逆命题不成立）
设 $X$ 为一个方差存在的随机变量，则对任意实数 $C$，有 $D(X) \leqslant E\left[(X-C)^{2}\right]$
设 $X$ 为一个随机变量，则 $D(X)=0$ 的充要条件是存在一个常数 $C$，使得 $P(X=C)=1$，其中 $C=E(X)$

标准化随机变量

对任意随机变量 $X$，若 $E(X),D(X)$ 存在，且 $D(X)>0$，则称

$X^{\star}=\frac{X-E(X)}{\sqrt{D(X)}}$

为 $X$ 的标准化随机变量。

显然，$E\left(X^{\star}\right)=0$
$D\left(X^{\star}\right)=D\left(\frac{X-E(X)}{\sqrt{D(X)}}\right)=\frac{1}{D(X)} D[X-E(X)]=\frac{1}{D(X)} D(X)=1$
任何随机变量经过标准化后，其均值为 $0$，方差为 $1$。设 $X$ 为任意随机变量，令 $Y=a X+b(a>0)$，则 $X$ 和 $Y$ 有相同的标准化随机变量，即 $X^{\star}=Y^{\star}$

常见分布的期望与方差

	表达式	分布律或概率密度函数	期望 $E(X)$	方差 $D(X)$
二项分布	$X\sim B(n,p)$	$P(X=k)=\mathrm{C}_{n}^{k} p^{k}(1-p)^{n-k}, k=0,1,\cdots,n$	$np$	$np(1-p)$
0-1分布	$X\sim B(1,p)$	$P(X=k)=p^{k}(1-p)^{1-k},k=0,1$	$p$	$p(1-p)$
泊松分布	$X\sim P(\lambda)$	$P(X=k)=\frac{\lambda^{k}}{k !} e^{-\lambda},k=0,1,\cdots$	$\lambda$	$\lambda$
帕斯卡分布	$X\sim NB(r,p)$	$P(X=k)=C_{k-1}^{r-1} p^{r}q^{k-r}, k=r, r+1, \cdots$	$\frac{r}{p}$	$\frac{r(1-p)}{p^2}$
几何分布	$X \sim GE(p)$	$P(X=k)=(1-p)^{k-1} p, k=1,2, \cdots$	$\frac{1}{p}$	$\frac{1}{p^2}-\frac{1}{p}$
正态分布	$X\sim N(\mu,\sigma^2)$	$f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \mathrm{e}^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}},-\infty<x<+\infty$	$\mu$	$\sigma^2$
指数分布	$X \sim E(\lambda)$	$f(x)=\left\{\begin{array}{ll}\lambda e^{-\lambda t} & x>0 \\0 & x \leq 0\end{array}\right.$	$\frac{1}{\lambda}$	$\frac{1}{\lambda^2}$
瑞利分布	/	$f(x)=\frac{x}{\sigma^{2}} e^{-\frac{x^{2}}{2 \sigma^{2}}}, x>0$	$\sqrt{\frac{\pi}{2}}\sigma$	$\frac{4-\pi}{2}\sigma^2$
均匀分布	$X \sim U(a,b)$	$f(x)=\left\{\begin{array}{ll}\frac{1}{b-a},& a<x<b\\0,& \text { 其他}\end{array}\right.$	$\frac{a+b}{2}$	$\frac{(b-a)^2}{12}$

协方差和相关系数

若 $E[(X-E(X))(Y-E(Y))]$ 存在，则称它为随机变量 $X,Y$ 的协方差，记为 $\operatorname{cov}(X,Y)$，即

$\operatorname{cov}(X,Y)=E[(X-E(X))(Y-E(Y))]$

当 $D(X)>0,D(Y)>0$ 时，称

$\rho_{X Y}=\frac{\operatorname{cov}(X,Y)}{\sqrt{D(X)} \sqrt{D(Y)}}$

为随机变量 $X$ 与 $Y$ 的相关系数

当 $\rho_{X Y}=0$ 时，则称 $X$ 与 $Y$ 是不相关的
$\operatorname{cov}(X,Y)$ 依赖于随机变量 $X,Y$ 的量纲，而 $\rho_{X Y}$ 是一个无量纲的数。相关系数实质上是“标准化”了的协方差，即 $\rho_{X Y}=\operatorname{cov}\left(X^{\star},Y^{\star}\right)$，其中 $X^{\star},Y^{\star}$ 为 $X,Y$ 的标准化随机变量
由定义可知方差是协方差的特例： $D(X)=\operatorname{cov}(X,X)$
从协方差的定义可以看出，协方差是随机变量 $(X,Y)$ 的函数的数学期望，故协方差可以由定义计算，也可以通过简单推导由公式计算

协方差矩阵

称下面的矩阵为 $(X, Y)$ 的协方差矩阵

$\left(\begin{array}{cc} D(X) & \operatorname{cov}(X, Y) \\ \operatorname{cov}(X, Y) & D(Y) \end{array}\right)$

协方差矩阵为半正定矩阵

计算

用定义计算

当 $(X,Y)$ 是离散型随机变量时，

$\operatorname{cov}(X,Y)=\sum_{i=1}^{+\infty} \sum_{j=1}^{+\infty}\left[x_{i}-E(X)\right]\left[y_{j}-E(Y)\right] p_{i j}$

其中 $P\left(X=x_{i},Y=y_{j}\right)=p_{i j}, i,j=1,2,\cdots$ 是 $(X,Y)$ 的联合分布律
当 $(X,Y)$ 是连续型随机变量时，

$\operatorname{cov}(X,Y)=\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty}[x-E(X)][y-E(Y)] f(x,y) \mathrm{d} x \mathrm{d} y$

其中 $f(x,y)$ 是 $(X,Y)$ 的联合概率密度

用公式计算

$\operatorname{cov}(X,Y)=E(X Y)-E(X) E(Y)$ $D(X \pm Y)=D(X)+D(Y) \pm 2 \operatorname{cov}(X, Y)$

特例

二维正态分布 $(X, Y) \sim N\left(\mu_{1}, \sigma_{1}^{2} ; \mu_{2}, \sigma_{2}^{2} ; \rho\right)$ 的 $\rho_{X Y}=\rho$

协方差的性质

若随机变量 $X,Y,Z$ 的协方差存在

$\operatorname{cov}(X,Y)=\operatorname{cov}(Y,X)$
$a,b$ 为任意常数，则 $\operatorname{cov}(a X,b Y)=a b \operatorname{cov}(X,Y)$
$a,b$ 为任意常数，$\operatorname{cov}(X,Y)=\operatorname{cov}(X-a,Y-b)$
若 $\operatorname{cov}(X,Z)$ 与 $\operatorname{cov}(Y,Z)$ 都存在，则 $\operatorname{cov}(X+Y,Z)$ 也存在，且 $\operatorname{cov}(X+Y,Z)=\operatorname{cov}(X,Z)+\operatorname{cov}(Y,Z)$
（柯西-施瓦茨不等式）设 $(X,Y)$ 为二维随机变量，若 $X,Y$ 的方差存在，则 $X,Y$ 的协方差也存在，且 $|\operatorname{cov}(X,Y)| \leqslant \sqrt{D(X)} \sqrt{D(Y)}$ 当 $D(X)>0,D(Y)>0$ 时，上式等号成立的充要条件为：存在常数 $t_{0}$（事实上一定有 $t_{0}=\pm\sqrt{\frac{D(Y)}{D(X)}}$），使得 $P\left(Y-E(Y)=t_{0}(X-E(X))\right)=1$，或者说 $P(X^{\star}=\pm Y^{\star})=1$

独立性

设随机变量 $X$ 与 $Y$ 的方差都存在，且 $D(X)>0,D(Y)>0$，则下列命题等价：

$X$ 与 $Y$ 不相关
$\rho_{X Y}=0$
$\operatorname{cov}(X,Y)=0$
$E(X Y)=E(X) E(Y)$
$D(X \pm Y)=D(X)+D(Y)$
$D(X+Y)=D(X-Y)$

★ 设随机变量 $X$ 与 $Y$ 的方差都存在，若 $X$ 与 $Y$ 相互独立，则 $X$ 与 $Y$ 一定不相关，但反之不然
★ 若 $(X,Y)$ 服从二维正态分布，则 $X,Y$ 独立等价于 $X,Y$ 不相关

随机变量的高阶矩

协方差矩阵

设 $\left(X_{1},X_{2},\cdots,X_{n}\right)$ 是 $n$ 维随机变量，$X_{1},X_{2},\cdots,X_{n}$ 的二阶矩都存在，记 $c_{i j}=\operatorname{cov}\left(X_{i},X_{j}\right),i,j=1,2,\cdots,n$ 则称矩阵 $\boldsymbol{C}=\left(\begin{array}{cccc} c_{11} & c_{12} & \cdots & c_{1 n} \\ c_{21} & c_{22} & \cdots & c_{2 n} \\ \vdots & \vdots & & \vdots \\ c_{n 1} & c_{n 2} & \cdots & c_{n n} \end{array}\right)$ 为 $n$ 维随机变量 $\left(X_{1},X_{2},\cdots,X_{n}\right)$ 的协方差矩阵
由于 $c_{i j}=c_{j i}$，故协方差矩阵 $\boldsymbol{C}$ 是对称矩阵

协方差矩阵的性质

设 $\left(X_{1},X_{2},\cdots,X_{n}\right)$ 是 $n$ 维随机变量，$X_{1},X_{2},\cdots,X_{n}$ 的二阶矩都存在，$\boldsymbol{C}$ 是其协方差矩阵，则

对任意实数 $t_{1},t_{2},\cdots,t_{n}$， $D\left(t_{1} X_{1}+t_{2} X_{2}+\cdots+t_{n} X_{n}\right)=\left(t_{1},t_{2},\cdots,t_{n}\right) \boldsymbol{C}\left(\begin{array}{c}t_{1} \\ t_{2} \\ \vdots \\ t_{n}\end{array}\right)$
$\boldsymbol{C}$ 是一个半正定矩阵

应用

二维正态随机变量的概率密度由矩阵表示为

$f\left(x_{1},x_{2}\right)=\frac{1}{2 \pi|C|^{1 / 2}} \mathrm{e}^{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{C}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})}$

其中 $\boldsymbol{\mu}=\left(\mu_{1},\mu_{2}\right)^{\mathrm{T}},\boldsymbol{C}=\left(\begin{array}{cc}\sigma_{1}^{2} & \sigma_{1} \sigma_{2} \rho \\ \sigma_{1} \sigma_{2} \rho & \sigma_{2}^{2}\end{array}\right)$ 分别是二维正态分布的均值向量和协方差矩阵，$|\boldsymbol{C}|,\boldsymbol{C}^{-1}$ 分别是 $\boldsymbol{C}$ 的行列式和逆矩阵，$\boldsymbol{x}=\left(x_{1},x_{2}\right)^{\mathrm{T}}$。

设 $\left(X_{1},X_{2},\cdots,X_{n}\right)$ 为 $n$ 维随机变量，如果 $\left(X_{1},X_{2},\cdots,X_{n}\right)$ 的联合概率密度满足

$f\left(x_{1},x_{2},\cdots，x_{n}\right)=\frac{1}{(2 \pi)^{n / 2}|C|^{1 / 2}} \mathrm{e}^{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{C}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})}$

其中 $\boldsymbol{C}$ 是一个正定矩阵，$\boldsymbol{\mu}=\left(\mu_{1},\mu_{2},\cdots,\mu_{n}\right)^{\mathrm{T}},\boldsymbol{x}=\left(x_{1},x_{2},\cdots,x_{n}\right)^{\mathrm{T}}$ 均为 $n$ 维列向量，则称 $\left(X_{1},X_{2},\cdots,X_{n}\right)$ 服从均值向量为 $\boldsymbol{\mu}=\left(\mu_{1},\mu_{2},\cdots,\mu_{n}\right)^{\mathrm{T}}$；协方差矩阵为 $\boldsymbol{C}$ 的 n 维正态分布，记作 $\left(X_{1},X_{2},\cdots,X_{n}\right) \sim N(\boldsymbol{\mu},\boldsymbol{C})$

设 $X_{1},X_{2},\cdots,X_{n}$ 服从均值向量为 $\boldsymbol{\mu}=\left(\mu_{1},\mu_{2},\cdots,\mu_{n}\right)^{\mathrm{T}}$；协方差矩阵为 $\boldsymbol{C}$ 的 $n$ 维正态分布，则

$X_{1},X_{2},\cdots,X_{n}$ 相互独立的充要条件是 $\boldsymbol{C}$ 为对角矩阵
$X_{1},X_{2},\cdots,X_{n}$ 的任意线性组合仍服从正态分布

第五章大数定律和中心极限定理

重要不等式

设非负连续性随机变量 $X$ 的期望 $E( X )$ 存在，则对于任意实数 $ \varepsilon > 0$，

$P(X \geq \varepsilon) \leq \frac{E(X)}{\varepsilon}$

马尔科夫不等式

设随机变量 $X$ 的 $k$ 阶绝对原点矩 $E(|X|^k)$ 存在，则对于任意实数 $\varepsilon>0$，

$P(|X| \geq \varepsilon) \leq \frac{E\left(|X|^{k}\right)}{\varepsilon^{k}}$

马尔可夫不等式描述的是非负随机变量绝对位置的概率上限

切比雪夫不等式

设随机变量 $X$ 的数学期望 $E(X)=\mu$，方差 $D(X)=\sigma^{2}$，则对于任意正数 $\varepsilon$，恒有不等式

$P(|X-\mu| \geqslant \varepsilon) \leqslant \frac{\sigma^{2}}{\varepsilon^{2}}$

或者

$P(|X-\mu|<\varepsilon)>1-\frac{\sigma^{2}}{\varepsilon^{2}}$

切比雪夫不等式描述的是随机变量距期望相对位置偏离的概率上限

依概率收敛

设 $Y_{1},Y_{2},\cdots,Y_{n},\cdots$ 是一个随机变量序列，$X$ 是一个随机变量，若 $\forall \varepsilon>0$，有

$\lim _{n \rightarrow+\infty} P\left(\left|Y_{n}-X\right| \geqslant \varepsilon\right)=0$

或

$\lim _{n \rightarrow+\infty} P\left(\left|Y_{n}-X\right|<\varepsilon\right)=1$

则称随机变量序列 $Y_{1},Y_{2},\cdots,Y_{n},\cdots$ 依概率收敛于 $X$，记作 $Y_{n} \underset{n \rightarrow+\infty}{\stackrel{P}{\longrightarrow}} X$

大数定律

定义

若随机变量序列 $X_{1},X_{2},\cdots,X_{n},\cdots$ 满足：$\forall \varepsilon>0$，有

$\lim _{n \rightarrow+\infty} P\left(\left|\frac{1}{n} \sum_{k=1}^{n} X_{k}-\frac{1}{n} \sum_{k=1}^{n} E\left(X_{k}\right)\right|<\varepsilon\right)=1$

则称该序列服从大数定律

伯努利（Bernoulli）大数定律

设 $n_{A}$ 表示 $n$ 次独立重复试验中事件 $A$ 发生的次数，$p$ 是每次试验中 $A$ 发生的概率，则 $\forall \varepsilon>0$，有

$\lim _{n \rightarrow+\infty} P\left(\left|\frac{n_{A}}{n}-p\right| \geqslant \varepsilon\right)=0$

或

$\lim _{n \rightarrow+\infty} P\left(\left|\frac{n_{A}}{n}-p\right|<\varepsilon\right)=1$

即随机事件 $A$ 在 $n$ 次试验中发生的频率 $\frac{n_{A}}{n}$ 依概率收敛于 $A$ 在一次试验中发生的概率 $p$

切比雪夫（Chebyshev）大数定律

设随机变量序列 $X_{1},X_{2},\cdots,X_{n},\cdots$ 两两不相关，它们的方差存在，且有共同的上界，即 $\rho_{X_{i} X_{j}}=0,i \neq j,D\left(X_{k}\right)=\sigma_{k}^{2} \leqslant \sigma^{2},k= 1,2,\cdots,n,\cdots$，记 $E\left(X_{k}\right)=\mu_{k}$，则该序列服从大数定律，即

$\lim _{n \rightarrow+\infty} P\left(\left|\frac{1}{n} \sum_{k=1}^{n} X_{k}-\frac{1}{n} \sum_{k=1}^{n} \mu_{k}\right|<\varepsilon\right)=1$

辛钦（Khintchine）大数定律

设随机变量序列 $X_{1},X_{2},\cdots,X_{n},\cdots$ 独立同分布，且它们的数学期望存在，$E\left(X_{k}\right)=\mu$，$k=1,2,\cdots$，则该序列服从大数定律，即 $\forall \varepsilon>0$，有

$\lim _{n \rightarrow+\infty} P\left(\left|\frac{1}{n} \sum_{k=1}^{n} X_{k}-\mu\right| \geqslant \varepsilon\right)=0$

或

$\lim _{n \rightarrow+\infty} P\left(\left|\frac{1}{n} \sum_{k=1}^{n} X_{k}-\mu\right|<\varepsilon\right)=1$

马尔科夫（Markov）大数定律

设一个随机变量序列满足

$\frac{1}{n^{2}} D\left(\sum_{k=1}^{n} X_{k}\right) \stackrel{n \rightarrow \infty}{\longrightarrow } 0$

则该随机变量序列 $\{\mathrm{Xn}\}$ 服从大数定律，即对任意的 $\varepsilon>0$，有

$\lim_{n \rightarrow \infty} P\left(\left|\frac{1}{n} \sum_{i=1}^{n} X_{i}-\frac{1}{n} \sum_{i=1}^{n} E\left(X_{i}\right)\right|<\varepsilon\right)=1$

独立同分布的中心极限定理

设 $X_{1},X_{2},\cdots,X_{n},\cdots$ 为独立同分布的随机变量序列，它们的数学期望和方差都存在，$E\left(X_{k}\right)=\mu$，$D\left(X_{k}\right)=\sigma^{2}$，$k=1,2,\cdots,n,\cdots$，则对于任意实数 $x$，有

$\lim _{n \rightarrow \infty} P\left(\frac{\sum_{k=1}^{n} X_{k}-n \mu}{\sqrt{n} \sigma} \leqslant x\right)=\Phi(x)$

其中 $\Phi(x)=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{x} \mathrm{e}^{-\frac{t^{2}}{2}} \mathrm{d} t$

记 $Y_{n}=\frac{\sum_{k=1}^{n} X_{k}-n \mu}{\sqrt{n} \sigma}$，显然 $Y_{n}$ 是 $\sum_{k=1}^{n} X_{k}$ 的标准化随机变量，定理的结果可简写为 $\lim _{n \rightarrow \infty} P\left(Y_{n} \leqslant x\right)=\Phi(x)$ 即当 $n$ 足够大时，$Y_{n}$ 的分布函数近似于标准正态随机变量的分布函数 $\Phi(x)$，$Y_{n}$ 的概率密度近似于标准正态分布的概率密度，即 $Y_{n}$ 近似服从标准正态分布 $N(0,1)$
我们可以近似计算出 $Y_{n}$ 与 $\sum_{k=1}^{n} X_{k}$ 在任何区间上的概率 $P\left(a<\sum_{k=1}^{n} X_{k} \leqslant b\right)=\Phi\left(\frac{b-n \mu}{\sqrt{n} \sigma}\right)-\Phi\left(\frac{a-n \mu}{\sqrt{n} \sigma}\right)$

棣莫弗—拉普拉斯（De Moivre-Laplace）中心极限定理

设随机变量 $Y_{n} \sim B(n,p)$，$0<p<1,n=1,2,\cdots$，则对任一实数 $x$，有

$\lim _{n \rightarrow \infty} P\left(\frac{Y_{n}-n p}{\sqrt{n p(1-p)}} \leqslant x\right)=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{x} \mathrm{e}^{-\frac{t^{2}}{2}} \mathrm{d} t$

即

$\frac{Y_{n}-n p}{\sqrt{n p(1-p)}} \stackrel{\mathrm{近似}}{\sim} N(0,1) \mathrm{或} Y_{n} \stackrel{\mathrm{近似}}{\sim} N(n p,n p(1-p))$

从而对任意 $a<b$，有

$\lim _{n \rightarrow \infty} P\left(a<\frac{Y_{n}-n p}{\sqrt{n p(1-p)}} \leqslant b\right)=\frac{1}{\sqrt{2 \pi}} \int_{a}^{b} e^{-\frac{t^{2}}{2}} \mathrm{d} t$

用频率估计概率

用切比雪夫不等式可以估计，但是用中心极限定理算的更精确

$\begin{array}{l} \quad P\left\{\left|\frac{\eta_{n}}{n}-p\right|<\varepsilon\right\}=P\left\{\left|\frac{\eta_{n}-n p}{n}\right|<\varepsilon\right\} \\ =P\left\{-\varepsilon \sqrt{\frac{n}{p q}}<\frac{\eta_{n}-n p}{\sqrt{n p q}}<\varepsilon \sqrt{\frac{n}{p q}}\right\} \\ \approx \Phi\left(\varepsilon \sqrt{\frac{n}{p q}}\right)-\Phi\left(-\varepsilon \sqrt{\frac{n}{p q}}\right)=2 \Phi\left(\varepsilon \sqrt{\frac{n}{p q}}\right)-1 \end{array}$

第六章数理统计的预备知识

总体和个体

一般地，所研究对象的某个（或某些）数量指标的全体称为总体。
如果所研究的问题只有一个数量指标，就是一个随机变量，如果所研究的问题有多个数量指标，就是多维随机变量。
个体就是总体的每个数量指标。

样本和样本空间

一般地，为研究总体的特征，从总体中抽取部分个体，称为样本
若从某个总体 $X$ 中抽取了 $n$ 个个体，记为 $\left(X_{1},X_{2},\cdots,X_{n}\right)$，则称其为总体 $X$ 的一个容量为 $n$ 的样本。依次对它们进行观察得到 $n$ 个数据 $\left(x_{1},x_{2},\cdots,x_{n}\right)$，称这 $n$ 个数据（$n$ 维实向量）为总体 $X$ 的一个容量为 $n$ 的样本观测值，简称样本值。可以将它们看作 $n$ 维随机向量 $\left(X_{1},X_{2},\cdots,X_{n}\right)$ 的一组可能的取值，样本 $\left(X_{1},X_{2},\cdots,X_{n}\right)$ 的所有可能取值的集合称为样本空间，记为 $\chi$

简单随机样本

若来自总体 $X$ 的一个样本 $\left(X_{1},X_{2},\cdots,X_{n}\right)$，满足：

同分布性，即 $X_{1},X_{2},\cdots,X_{n}$ 都与 $X$ 服从相同的分布
独立性，即 $X_{1},X_{2},\cdots,X_{n}$ 相互独立

则称 $\left(X_{1},X_{2},\cdots,X_{n}\right)$ 为取自总体 $X$ 的简单随机样本
设总体 $X$ 的分布函数为 $F(x)$，$\left(X_{1},X_{2},\cdots,X_{n}\right)$ 为总体 $X$ 的简单随机样本，则 $\left(X_{1},X_{2},\cdots,X_{n}\right)$ 的联合分布函数为

$F\left(x_{1},x_{2},\cdots,x_{n}\right)=\prod_{i=1}^{n} F\left(x_{i}\right)$

若总体 $X$ 的概率密度为 $f(x)$，则 $\left(X_{1},X_{2},\cdots,X_{n}\right)$ 的联合概率密度为

$f\left(x_{1},x_{2},\cdots,x_{n}\right)=\prod_{i=1}^{n} f\left(x_{i}\right)$

一般，对有限总体，放回抽样所得到的样本为简单随机样本，但使用不方便，常用不放回抽样代替，代替的条件是 $N/n\ge 10$

统计量和样本值

设 $\left(X_{1},X_{2},\cdots,X_{n}\right)$ 为总体 $X$ 的简单随机样本，$g\left(r_{1},r_{2},\cdots,r_{n}\right)$ 是一个实值连续函数，且不含除自变量之外的未知参数，则称随机变量 $g\left(X_{1},X_{2},\cdots,X_{n}\right)$ 为统计量

如果 $\left(x_{1},x_{2},\cdots,x_{n}\right)$ 是一个样本值，则称 $g\left(x_{1},x_{2},\cdots,x_{n}\right)$ 为统计量 $g\left(X_{1},X_{2},\cdots,X_{n}\right)$ 的一个样本值

常用统计量

设 $\left(X_{1},X_{2},\cdots,X_{n}\right)$ 为总体 $X$ 的一个容量为 $n$ 的样本

$\bar{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i}$ 称为样本均值，$\bar{X}$ 的样本值记为 $\bar{x}$
$S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}$ 称为样本方差，$S^{2}$ 的样本值记为 $s^{2}$，$S=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}$ 称为样本标准差，$S$ 的样本值记为 $s$
$M_{k}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k}(k=1,2,\cdots)$ 称为样本 k 阶原点矩，$M_{k}$ 的样本值记为 $m_{k}$
$(C M)_{k}=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{k}(k=1,2,\cdots)$ 称为样本 k 阶中心矩，$(C M)_{k}$ 的样本值记为 $(\mathrm{cm})_{k}$
$S_n^2=(CM)_2$

顺序统计量

设 $\left(X_{1},X_{2},\cdots,X_{n}\right)$ 为来自总体 $X$ 的一个容量为 $n$ 的样本，如果其样本值为 $\left(x_{1},x_{2},\cdots,x_{n}\right)$，且 $x_{1},x_{2},\cdots,x_{n}$ 按从小到大排序后记为 $x_{1}^{\star} \leqslant x_{2}^{\star} \leqslant \cdots \leqslant x_{n}^{\star}$，定义随机变量 $X_{(k)}=x_{k}^{\star},k=1,2,\cdots,n$，即 $X_{(k)}$ 的取值是样本中的由小到大排第 $k$ 位的数，显然 $X_{(1)}=\min _{1 \leqslant k \leqslant n}\left\{X_{k}\right\},X_{(n)}=\max _{1 \leqslant k \leqslant n}\left\{X_{k}\right\}$
称统计量 $X_{(1)},X_{(2)},\cdots,X_{(n)}$ 为顺序统计量
称 $D_{n}=X_{(n)}-X_{(1)}$ 为极差
称 $\tilde{X}=\left\{\begin{array}{cc} X_{\left(\frac{\mathrm{n}+1}{2}\right)}, & \mathrm{n} \text { 为奇数 } \\ \frac{1}{2}\left(X_{\left(\frac{\mathrm{n}}{2}\right)}+X_{\left(\frac{\mathrm{n}}{2}+1\right)}\right), & \mathrm{n} \text { 为偶数 } \end{array}\right.$ 为样本中位数
称 $F_{n}(x)=\left\{\begin{array}{lc} 0, & x<x_{(1)} \\ \frac{k}{n}, & x_{(k)} \leq x<x_{(k+1)} \\ 1, & x \geq x_{(n)} \end{array} \quad k=1,2, \cdots, n-1\right.$ 为样本的经验分布函数

性质

$\begin{array}{c} E(\bar{X})=E(X)\\ D(\bar{X})=\frac{D(X)}{n}\\ E(S^2)=D(X)\\ \end{array}$
若总体服从正态分布 $N(\mu,\sigma^2)$，则 $\frac{(n-1)S^2}{\sigma^2}$ 服从自由度为 $n-1$ 的卡方分布，从而 $D\left(\frac{(n-1)S^2}{\sigma^2}\right)=2(n-1)$，即 $D(S^2)=\frac{2\sigma^4}{n-1}$
若总体 $X$ 的 $k$ 阶矩 $E\left(X^{k}\right)=\mu_{k}(k=1,2,\cdots)$ 存在，根据辛钦大数定律，易得 $M_{k}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k} \underset{n \rightarrow+\infty}{\stackrel{P}{\longrightarrow}} \mu_{k}$
样本方差 $S^2$ 与样本二阶中心矩 $(CM)_2$ 的区别与关系 $(C M)_{2}=M_{2}-\bar{X}^{2}=S_{n}^2, S^{2}=\frac{n}{n-1}\left(M_{2}-\bar{X}^{2}\right)=\frac{n}{n-1}(C M)_{2}$ $E\left(S_{n}^{2}\right)=\frac{n-1}{n} \sigma^{2}, \quad E\left(S^{2}\right)=\sigma^{2}$
当样本容量固定时，经验分布函数 $F_{n}(x)$ 作为 $x$ 的函数是一个阶梯形的函数，$F_{n}(x)$ 表示恰有样本分量小于等于 $x$ 的频率。即对任意实数 $x$，当 $n \rightarrow \infty$ 时， $P\left\{\lim _{n \rightarrow \infty} \sup _{-\infty<x<\infty}\left|F_{n}(x)-F(x)\right|=0\right\}=1$
$\begin{array}{l} \bar{X}_{n+1}=\bar{X}_{n}+\frac{1}{n+1}\left[X_{n+1}-\bar{X}_{n}\right] \\ S_{n+1}^{2}=\frac{n}{n+1} S_{n}^{2}+\frac{n}{(n+1)^{2}}\left(X_{n+1}-\bar{X}_{n}\right)^{2} \end{array}$
总体 $X$（连续型随机变量）分布函数 $F(x)$，密度函数 $f(x)$，得样本极小值 $X_{(1)}$ 的分布密度与分布函数为： $\begin{array}{l} f_{1}(y)=n[1-F(y)]^{n-1} f(y) \\ F_{1}(y)=1-[1-F(y)]^{n} \end{array}$ 样本极大值 $X_{(n)}$ 的分布密度与分布函数为： $\begin{array}{l} f_{n}(y)=n[F(y)]^{n-1} f(y) \\ F_{n}(y)=[F(y)]^{n} \end{array}$

几个常用统计量的分布

正态分布

若随机变量 $X_{1},X_{2},\cdots,X_{n}$ 相互独立，且 $X_{i} \sim N\left(\mu_{i},\sigma_{i}^{2}\right)(i=1,2,\cdots,n)$，则

$\sum_{i=1}^{n} a_{i} X_{i} \sim N\left(\sum_{i=1}^{n} a_{i} \mu_{i},\sum_{i=1}^{n} a_{i}^{2} \sigma_{i}^{2}\right)$

特别地，当 $X_{i} \sim N\left(\mu,\sigma^{2}\right)(i=1,2,\cdots,n)$ 时，有

$\frac{1}{n} \sum_{i=1}^{n} X_{i} \sim N\left(\mu,\frac{\sigma^{2}}{n}\right)$

卡方分布

设随机变量 $X_{1},X_{2},\cdots,X_{n}$ 相互独立，且均服从标准正态分布 $N(0,1)$，则称统计量 $\chi^{2}=\sum_{i=1}^{n} X_{i}^{2}$ 服从自由度为 $n$ 的 $\chi^{2}$ 分布，记为 $\sum_{i=1}^{n} X_{i}^{2} \sim\chi^{2}(n)$，其概率密度为

$f_{\chi^{2}}(x)=\left\{\begin{array}{ll} \frac{1}{2^{\frac{n}{2}} \Gamma\left(\frac{n}{2}\right)} \mathrm{e}^{-\frac{x}{2}} x^{\frac{n}{2}-1},& x>0,\\ 0,& x \leqslant 0, \end{array}\right.$

其中 $\Gamma(x)=\int_{0}^{+\infty} t^{x-1} \mathrm{e}^{-t} \mathrm{d} t$

性质

对于 $\chi^{2}=\sum_{i=1}^{n} X_{i}^{2},X_{i} \sim N(0,1),i=1,2,\cdots,n$，有 $E\left(\chi^{2}\right)=n$，$D\left(\chi^{2}\right)=2 n$
若 $X_{1} \sim \chi^{2}\left(n_{1}\right)$，$X_{2} \sim \chi^{2}\left(n_{2}\right)$，且两者相互独立，则 $X_{1}+X_{2} \sim \chi^{2}\left(n_{1}+n_{2}\right)$
当 $n$ 很大时，$\chi^{2}=\sum_{i=1}^{n} X_{i}^{2}$ 近似服从正态分布 $N(n,2 n)$
$\begin{array}{c} \Gamma(1)=1\\ \Gamma(1 / 2)=\sqrt{\pi} \\ \Gamma(x+1)=x \Gamma(x)\\ \Gamma(n)=(n-1)!\\ \Gamma\left(n+\frac{1}{2}\right)=\frac{(2 n) ! \sqrt{\pi}}{n ! 4^{n}} \end{array}$

t 分布

设 $X \sim N(0,1)$，$Y \sim \chi^{2}(n)$ 且 $X$，$Y$ 相互独立，则称随机变量 $T= \frac{X}{\sqrt{Y / n}}$ 服从自由度为 $n$ 的 $t$ 分布（又称为 student 分布），记为 $T \sim t(n)$，其概率密度为

$f(t)=\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n \pi} \Gamma\left(\frac{n}{2}\right)}\left(1+\frac{t^{2}}{n}\right)^{-\frac{n+1}{2}},\quad-\infty<t<+\infty$

性质

$t$ 分布的概率密度 $f(t)$ 为偶函数，且当 $n \rightarrow+\infty$ 时， $f(t) \rightarrow \varphi(t)=\frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-\frac{t^{2}}{2}}$ 即当自由度 $n$ 充分大时，$t$ 分布近似服从标准正态分布
$t$ 分布的上侧 $\alpha$ 分位数 $t_{\alpha}(n)\left(P\left(T>t_{\alpha}(n)\right)=\alpha\right)$ 可查附表，且 $t_{1-\alpha}(n)=-t_{\alpha}(n)$ 当 $n>45$ 时，$t$ 分布可用标准正态分布近似

F 分布

设 $U \sim \chi^{2}(m),V \sim \chi^{2}(n)$，且 $U$ 与 $V$ 相互独立，则称随机变量

$F=\frac{U / m}{V / n}$

服从第一自由度为 $m$，第二自由度为 $n$ 的 $F$ 分布，记为 $F \sim F(m,n)$，其概率密度为

$f_{F}(t)=\left\{\begin{array}{ll} \frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right) \Gamma\left(\frac{n}{2}\right)}\left(\frac{m}{n}\right)^{\frac{m}{2}} t^{\frac{m}{2}-1}\left(1+\frac{m}{n} t\right)^{-\frac{m+n}{2}},& t>0,\\ 0,& t \leqslant 0 \end{array}\right.$

性质

若 $F \sim F(m$，$n)$，则 $\frac{1}{F} \sim F(n,m)$
$F(m,n)$ 的上侧 $\alpha$ 分位数 $F_{\alpha}(m,n)\left(P\left(F>F_{\alpha}(m,n)\right)=\alpha\right)$ 可查附表，且 $F_{1-\alpha}(m,n)=\frac{1}{F_{\alpha}(n,m)}$

关系

$t_{1-\frac{\alpha}{2}}^{2}(n)=F_{\alpha}(1, n)$

单个正态总体的抽样分布

设 $X \sim N\left(\mu,\sigma^{2}\right),\left(X_{1},X_{2},\cdots,X_{n}\right)$ 是来自总体 $X$ 的一个简单随机样本，$\bar{X}$，$S^{2}$ 分别是样本均值与样本方差，则

$\bar{X} \sim N\left(\mu,\frac{\sigma^{2}}{n}\right) ，或者 \frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \sim N(0,1)$
$\frac{(n-1) S^{2}}{\sigma^{2}}=\sum_{i=1}^{n}\left(\frac{X_{i}-\bar{X}}{\sigma}\right)^{2} \sim \chi^{2}(n-1)$ 注意区分： $\sum_{i=1}^{n}\left(\frac{X_{i}-\mu}{\sigma}\right)^{2} \sim \chi^{2}(n)$
$\frac{(n-1) S^{2}}{\sigma^{2}} 与 \bar{X} 相互独立$

推论：设 $X \sim N\left(\mu,\sigma^{2}\right),\left(X_{1},X_{2},\cdots,X_{n}\right)$ 是来自总体 $X$ 的一个简单随机样本，$\bar{X},S^{2}$ 分别是样本均值与样本方差，则

$\frac{\bar{X}-\mu}{S / \sqrt{n}} \sim t(n-1)$

两个正态总体的抽样分布

设 $X \sim N\left(\mu_{1},\sigma_{1}^{2}\right),\left(X_{1},X_{2},\cdots,X_{n}\right)$ 是来自总体 $X$ 的一个简单随机样本；$Y \sim N\left(\mu_{2},\sigma_{2}^{2}\right),\left(Y_{1},Y_{2},\cdots,Y_{m}\right)$ 是来自总体 $Y$ 的一个简单随机样本，并且 $X$ 与 $Y$ 相互独立。令 $\bar{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i}$，$S_{1}^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}$，$\bar{Y}=\frac{1}{m} \sum_{j=1}^{m} Y_{j}$，$S_{2}^{2}= \frac{1}{m-1} \sum_{j=1}^{m}\left(Y_{j}-\bar{Y}\right)^{2}$，则

$\frac{S_{1}^{2}}{S_{2}^{2}} / \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} \sim F(n-1,m-1)$，特别地，当 $\sigma_{1}=\sigma_{2}$ 时，$\frac{S_{1}^{2}}{S_{2}^{2}} \sim F(n-1,m-1)$
当 $\sigma_{1}=\sigma_{2}=\sigma$ 时， $\frac{(\bar{X}-\bar{Y})-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\frac{1}{n}+\frac{1}{m}} \sqrt{\frac{(n-1) S_{1}^{2}+(m-1) S_{2}^{2}}{n+m-2}}} \sim t(n+m-2)$

第七章参数估计

点估计法

我们常常会遇到总体 $X$ 的分布函数

$F\left(x;\theta_{1},\theta_{2},\cdots,\theta_{k}\right)$

的形式已知，但其中存在未知参数 $\theta_{1},\theta_{2},\cdots,\theta_{k}$，甚至分布函数的形式未知的情况，可以利用如下估计参数的方法：设

$\left(X_{1},X_{2},\cdots,X_{n}\right)$

是总体 $X$ 的一个样本，根据一定的原理，用 $\left(X_{1},X_{2},\cdots,X_{n}\right)$ 构造统计量

$\hat{\theta}_{j}=\hat{\theta}_{j}\left(X_{1},X_{2},\cdots,X_{n}\right),j=1,2,\cdots,k$

然后再代入样本数据 $\left(x_{1},x_{2},\cdots,x_{n}\right)$，由此对未知参数 $\theta_{j}(j=1,2,\cdots,k)$ 进行估计。

这种用 $\left(X_{1},X_{2},\cdots,X_{n}\right)$ 构造统计量去估计未知参数的方法称为点估计法

频率估计法

利用事件 $A$ 在 $n$ 次试验中发生的频率 $n_{A} / n$ 作为事件 $A$ 发生的概率 $p$ 的估计量 $\frac{n_{A}}{n} \stackrel{p}{\longrightarrow} p$

矩估计法

矩估计法，顾名思义就是用样本矩估计总体矩，从而得到总体分布中参数的⼀种估计方法。它的思想实质是用样本的经验分布和样本矩去替换总体的理论分布和总体矩

矩估计法的优点是简单易行，并不需要事先知道总体是什么分布
其缺点是当总体类型已知时，没有充分利用分布提供的信息
在一般情况下，矩估计量不具有唯一性

一般地，设总体 $X$ 的分布函数为 $F\left(x;\theta_{1},\theta_{2},\cdots,\theta_{k}\right)$，其中待估计的参数为 $\theta_{1},\theta_{2},\cdots,\theta_{k}$，并假设 $k$ 阶原点矩存在，记

$E\left(X^{r}\right)=\mu_{r}\left(\theta_{1},\theta_{2},\cdots,\theta_{k}\right),r=1,2,\cdots,k$

根据大数定律，列出如下方程：

$\left\{\begin{array}{c} \mu_{1}\left(\theta_{1},\theta_{2},\cdots,\theta_{k}\right)=\frac{1}{n} \sum_{i=1}^{n} X_{i},\\ \mu_{2}\left(\theta_{1},\theta_{2},\cdots,\theta_{k}\right)=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{2},\\ \vdots \\ \mu_{k}\left(\theta_{1},\theta_{2},\cdots,\theta_{k}\right)=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k} \end{array}\right.$

如果方程组有解（事实上，上述方程都是近似方程）

$\begin{array}{c} \hat{\theta}_{1}=\hat{\theta}_{1}\left(X_{1},X_{2},\cdots,X_{n}\right),\\ \hat{\theta}_{2}=\hat{\theta}_{2}\left(X_{1},X_{2},\cdots,X_{n}\right),\\ \vdots \\ \hat{\theta}_{k}=\hat{\theta}_{k}\left(X_{1},X_{2},\cdots,X_{n}\right), \end{array}$

称其为矩估计量，代入样本值得矩估计量的样本值

$\begin{array}{c} \hat{\theta}_{1}=\hat{\theta}_{1}\left(x_{1},x_{2},\cdots,x_{n}\right),\\ \hat{\theta}_{2}=\hat{\theta}_{2}\left(x_{1},x_{2},\cdots,x_{n}\right),\\ \vdots \\ \hat{\theta}_{k}=\hat{\theta}_{k}\left(x_{1},x_{2},\cdots,x_{n}\right), \end{array}$

称其为矩估计值

常见分布的矩估计量

正态分布

$\hat{\mu}_{\text {矩 }} =\bar{X}$ $\hat{\sigma}_{\text {矩 }}^{2} =\frac{1}{n} \sum_{i=1}^{n} X_{i}^{2}-\bar{X}^{2}$

指数分布

$\hat{\lambda}_{\text {矩 }} =1/\bar{X}$

均匀分布

$\hat{a}_{\text {矩 }}=\bar{X}-\sqrt{3\left(\frac{1}{n} \sum_{i=1}^{n} X_{i}^{2}-\bar{X}^{2}\right)}=\bar{X}-\sqrt{\frac{3}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}$ $\hat{b}_{\text {矩 }}=\bar{X}+\sqrt{3\left(\frac{1}{n} \sum_{i=1}^{n} X_{i}^{2}-\bar{X}^{2}\right)}=\bar{X}+\sqrt{\frac{3}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}$

最大似然估计法

一般地，如果总体 $X$ 为离散型随机变量，其分布律为 $P(X=x)=P\left(x;\theta_{1},\theta_{2},\cdots,\theta_{k}\right)$，其中 $\theta_{1},\theta_{2},\cdots,\theta_{k}$ 为未知参数，$\left(X_{1},X_{2},\cdots,X_{n}\right)$ 是来自总体 $X$ 的一个样本，$\left(x_{1},x_{2},\cdots,x_{n}\right)$ 是该样本的一组观测值，则似然函数为

$\begin{aligned} L\left(\theta_{1},\theta_{2},\cdots,\theta_{k}\right) &=P\left(X_{1}=x_{1},X_{2}=x_{2},\cdots,X_{n}=x_{n}\right)\\ &=\prod_{i=1}^{n} P\left(x_{i};\theta_{1},\theta_{2},\cdots,\theta_{k}\right) \end{aligned}$

由于上式中观测值是取定的，$L\left(\theta_{1},\theta_{2},\cdots,\theta_{k}\right)$ 仅是 $\theta_{1},\theta_{2},\cdots,\theta_{k}$ 的函数。如果总体 $X$ 为连续型随机变量，其概率密度为 $f\left(x;\theta_{1},\theta_{2},\cdots,\theta_{k}\right)$，其中 $\theta_{1},\theta_{2},\cdots,\theta_{k}$ 为未知参数，$\left(X_{1},X_{2},\cdots,X_{n}\right)$ 是来自总体 $X$ 的一个样本，$\left(x_{1},x_{2},\cdots,x_{n}\right)$ 是该样本的一组观测值，则似然函数为

$L\left(\theta_{1},\theta_{2},\cdots,\theta_{k}\right)=\prod_{i=1}^{n} f\left(x_{i};\theta_{1},\theta_{2},\cdots,\theta_{k}\right)$

若 $X$ 连续，取 $f\left(x_{i},\theta\right)$ 为 $X_{i}$ 的密度函数，似然函数为

$L(\theta)=\prod_{i=1}^{n} f\left(x_{i},\theta\right)$

无论是对离散型总体还是连续型总体，通常认为一次试验就得到这组观测值，那么取到该观测值或落在其附近应该有较大的概率，所以要求 $L\left(\theta_{1},\theta_{2},\cdots,\theta_{k}\right)$ 的极大值点 $\left(\hat{\theta}_{1},\hat{\theta}_{2},\cdots,\hat{\theta}_{k}\right)$，即使

$L\left(\hat{\theta}_{1},\hat{\theta}_{2},\cdots,\hat{\theta}_{k}\right)=\max L\left(\theta_{1},\theta_{2},\cdots,\theta_{k}\right),$

将 $\hat{\theta}_{1},\hat{\theta}_{2},\cdots,\hat{\theta}_{k}$ 作为未知参数 $\theta_{1},\theta_{2},\cdots,\theta_{k}$ 的估计，这种方法称为最大似然估计法。确定最大似然估计的问题就转化为微积分中求极值的问题，可通过

$\frac{\partial L\left(\theta_{1},\theta_{2},\cdots,\theta_{k}\right)}{\partial \theta_{i}}=0,i=1,2,\cdots,k$

求解 $\left(\hat{\theta}_{1},\hat{\theta}_{2},\cdots,\hat{\theta}_{k}\right)$，称上述方程为似然方程组
由于最大似然估计关心的是 $L\left(\theta_{1},\theta_{2},\cdots,\theta_{k}\right)$ 的极大值点，而不是极大值本身。而 $L\left(\theta_{1},\theta_{2},\cdots,\theta_{k}\right)$ 与 $\ln L\left(\theta_{1},\theta_{2},\cdots,\theta_{k}\right)$ 在相同的点取到极大值，为简化运算，常常求函数 $\ln L\left(\theta_{1},\theta_{2},\cdots,\theta_{k}\right)$ 的极大值点。称

$\frac{\partial \ln L\left(\theta_{1},\theta_{2},\cdots,\theta_{k}\right)}{\partial \theta_{i}}=0,i=1,2,\cdots,k$

为对数似然方程组，简称似然方程组
最后，通过求解似然方程组（对数似然方程组）得到驻点，若能判断该点是极大值点，那么该点就是未知参数 $\theta$ 的最大似然估计

常见分布的极大似然估计

正态分布

$\hat{\mu}_{m l e} =\frac{1}{n} \sum_{i=1}^{n} x_{i}=\bar{x}$ $\hat{\sigma}^{2}_{m l e} =\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}$

均匀分布

$\hat{a}=x_{\min }, \quad \hat{b}=x_{\max }$

性质

若 $\hat{\theta}$ 是未知参数 $\theta$ 的最大似然估计，又 $g(\theta)$ 是 $\theta$ 的连续函数，则 $\hat{g}=g(\hat{\theta})$ 是 $g=g(\theta)$ 的最大似然估计。

此性质称为最大似然估计不变性原理
不变性原理对矩估计一般不成立

估计量的无偏性

设参数 $\theta$ 的估计量为 $\hat{\theta}=\hat{\theta}\left(X_{1},X_{2},\cdots,X_{n}\right)$，若满足

$E(\hat{\theta})=\theta$

则称 $\hat{\theta}$ 是 $\theta$ 的无偏估计量。反之若 $E(\hat{\theta}) \neq \theta$，则称 $\varepsilon=E(\hat{\theta})-\theta$ 为估计量 $\hat{\theta}$ 的偏差。

对一个未知参数 $\theta$ 的估计量 $\hat{\theta}$ 来说，最基本的要求就是满足无偏性
它的重要意义在于确定一个估计量的好坏，不能仅根据某一次的观测结果来衡量，而是希望在多次观测中，$\hat{\theta}$ 在未知参数 $\theta$ 附近波动
一般情况下，如果 $\hat{\boldsymbol{\theta}}$ 是 $\boldsymbol{\theta}$ 的无偏估计量， $\boldsymbol{f}(\hat{\boldsymbol{\theta}})$ 不一定是 $\boldsymbol{f}(\boldsymbol{\theta})$ 的无偏估计量

典例

设总体 $X$ 的数学期望和方差均存在，并且记 $\mu=E(X),\sigma^{2}= D(X)$，$\left(X_{1},X_{2},\cdots,X_{n}\right)$ 是来自总体 $X$ 的一个简单随机样本

样本均值 $\bar{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i}$ 是 $\mu$ 的无偏性估计量，即 $E(\bar{X})=\mu$
样本方差 $S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}$ 是 $\sigma^{2}$ 的无偏估计量，即 $E(S^{2})=\sigma^{2}$
二阶中心矩 $C M_{2}=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}$ 不是 $\sigma^{2}$ 的无偏估计量，但是有 $E(C M_{2})=\frac{n-1}{n}\sigma^{2}$
样本 k 阶原点矩 $M_k$ 是 $\mu_k=E(X^k)$ 的无偏估计量 $E\left(M_{k}\right)= E\left(\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k}\right)=\mu_{k}$

估计量的有效性

设 $\hat{\theta}_{1}=\hat{\theta}_{1}\left(X_{1},X_{2},\cdots,X_{n}\right)$ 和 $\hat{\theta}_{2}=\hat{\theta}_{2}\left(X_{1},X_{2},\cdots,X_{n}\right)$ 均为参数 $\theta$ 的无偏估计量，若

$D\left(\hat{\theta}_{1}\right)<D\left(\hat{\theta}_{2}\right)$

则称 $\hat{\theta}_{1}$ 比 $\hat{\theta}_{2}$ 有效

有效性是建立在无偏估计量的基础上的
无论用什么方法得到的无偏估计量的方差不可能任意小

Rao-Cramer（拉奥-克拉默）不等式

设总体 $X$ 为离散型随机变量，其分布律为 $P(X=x;\theta)=P(x;\theta),\theta$ 为未知参数，$\left(X_{1},X_{2},\cdots,X_{n}\right)$ 是来自总体的一个简单随机样本，若 $\hat{\theta}$ 是 $\theta$ 的无偏估计量，则

$D(\hat{\theta}) \geqslant I(\theta)=\frac{1}{ n E\left[\left(\frac{\partial \ln P(X;\theta)}{\partial \theta}\right)^{2}\right]}>0$

设总体 $X$ 为连续型随机变量，其概率密度为 $f(x;\theta),\theta$ 为未知参数，$\left(X_{1},X_{2},\cdots,X_{n}\right)$ 是来自总体的一个样本，若 $\hat{\theta}$ 是 $\theta$ 的无偏估计量，则

$D(\hat{\theta}) \geqslant I(\theta)=\frac{1}{n E\left[\left(\frac{\partial \ln f(X;\theta)}{\partial \theta}\right)^{2}\right]}>0$

$I(\theta)$ 称为无偏估计的方差下界

设 $\hat{\theta}_{0}$ 是未知参数 $\theta$ 的一个无偏估计量，如果在所有 $\theta$ 的无偏估计量 $\hat{\theta}$ 中均有

$D\left(\hat{\theta}_{0}\right) \leqslant D(\hat{\theta})$

成立，则称 $\hat{\theta}_{0}$ 是 $\theta$ 的有效估计量

估计量的一致性

设 $\hat{\theta}_{n}=\hat{\theta}\left(X_{1},X_{2},\cdots,X_{n}\right)$ 是参数 $\theta$ 的估计量，如果随机变量序列 $\left\{\hat{\theta}_{n}\right\}$ 依概率收玫于 $\theta$，即 $\forall \varepsilon>0$，有

$\lim _{n \rightarrow+\infty} P\left(\left|\hat{\theta}_{n}-\theta\right|<\varepsilon\right)=1$

或

$\lim _{n \rightarrow+\infty} P\left(\left|\hat{\theta}_{n}-\theta\right| \geqslant \varepsilon\right)=0$

则称 $\hat{\theta}_{n}$ 是 $\theta$ 的一致估计量（或相合估计量）

一致性的概念在样本容量较大的情况下才有意义，通常容量越大，数据越多，满足一致性的估计量所获得的估计效果越好
样本矩依概率收敛于总体矩，因此用矩估计法得到的矩估计量通常是一致估计量
- 样本均值是总体期望的一致估计量，样本方差是总体方差的一致估计量

典例

设 $\hat{\theta}=\hat{\theta}\left(X_{1},X_{2},\cdots,X_{n}\right)$ 是未知参数 $\theta$ 的无偏估计量，且

$\lim _{n \rightarrow+\infty} D\left(\hat{\theta}_{n}\right)=0$

则 $\hat{\theta}_{n}$ 是 $\theta$ 的一致估计量

三个性的关系

有效一定无偏，无偏不一定有效
无偏一定一致，一致不一定无偏
有效一定一致，一致不一定有效

区间估计

设总体 $X$ 的分布函数为 $F(x;\theta)$，其中 $\theta$ 是未知参数，$\left(X_{1},X_{2},\cdots,X_{n}\right)$ 是来自总体 $X$ 的一个样本。若 $\forall \alpha(0<\alpha<1)$，存在 $\hat{\theta}_{1}=\hat{\theta}_{1}\left(X_{1},X_{2},\cdots,X_{n}\right)$ 和 $\hat{\theta}_{2}=\hat{\theta}_{2}\left(X_{1},X_{2},\cdots,X_{n}\right)$，使得 $P\left(\hat{\theta}_{1}<\theta<\hat{\theta}_{2}\right)=1-\alpha$ 成立，则称区间 $\left(\hat{\theta}_{1},\hat{\theta}_{2}\right)$ 是 $\theta$ 的置信度为 $1-\alpha$ 的置信区间，$\hat{\theta}_{1}$ 和 $\hat{\theta}_{2}$ 分别称为置信下限与置信上限

求未知参数的置信区间的一般步骤

确定一个合适的样本函数 $U\left(X_{1},X_{2},\cdots,X_{n};\theta\right)$ 使得 $U$ 仅含待估参数 $\theta$ 而没有其他未知参数，$U$ 的分布已知且不依赖于任何未知参数，称 $U$ 为枢轴量
由给定的置信度 $1-\alpha$，确定满足 $P(a<U<b)=1-\alpha$ 的 $a,b$，由于 $U$ 的分布已知，可通过查表得 $a,b$；
利用不等式变形得 $P\left(\hat{\theta}_{1}<\theta<\hat{\theta}_{2}\right)=1-\alpha$ 从而得到 $\theta$ 的置信度为 $1-\alpha$ 的置信区间 $\left(\hat{\theta}_{1},\hat{\theta}_{2}\right)$

单个正态总体参数的置信区间

设总体 $X \sim N\left(\mu,\sigma^{2}\right),\left(X_{1},X_{2},\cdots,X_{n}\right)$ 是来自总体的一个样本，样本均值和方差分别是 $\bar{X},S^{2},1-\alpha$ 是给定的置信度

均值 $\mu$ 的置信区间

方差 $\sigma^{2}$ 已知

采用 $U=\frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \sim N(0,1)$ 为枢轴量，可得 $\mu$ 的置信度为 $1-\alpha$ 的置信区间是

$\left(\bar{X}-u_{\alpha / 2} \frac{\sigma}{\sqrt{n}},\bar{X}+u_{\alpha / 2} \frac{\sigma}{\sqrt{n}}\right)$

方差 $\sigma^{2}$ 未知

此时 $U=\frac{\bar{X}-\mu}{\sigma / \sqrt{n}}$ 不能作为枢轴量，可用 $S=\sqrt{S^{2}}$ 代替均方差 $\sigma$，得到枢轴量 $T=\frac{\bar{X}-\mu}{S / \sqrt{n}} \sim t(n-1)$，可得

$P\left(-t_{\alpha / 2}(n-1)<\frac{\bar{X}-\mu}{S / \sqrt{n}}<t_{\alpha / 2}(n-1)\right)=1-\alpha$

即

$P\left(\bar{X}-t_{\alpha / 2}(n-1) \frac{S}{\sqrt{n}}<\mu<\bar{X}+t_{\alpha / 2}(n-1) \frac{S}{\sqrt{n}}\right)=1-\alpha$

由此得到 $\mu$ 的置信度为 $1-\alpha$ 的置信区间是

$\left(\bar{X}-t_{\alpha / 2}(n-1) \frac{S}{\sqrt{n}},\bar{X}+t_{\alpha / 2}(n-1) \frac{S}{\sqrt{n}}\right)$

方差 $\sigma^{2}$ 的置信区间

均值 $\mu$ 未知

选取枢轴量 $\chi^{2}=\frac{(n-1) S^{2}}{\sigma^{2}} \sim \chi^{2}(n-1)$，可得

$P\left(\chi_{1-\alpha / 2}^{2}(n-1)<\frac{(n-1) S^{2}}{\sigma^{2}}<\chi_{\alpha / 2}^{2}(n-1)\right)=1-\alpha$

即

$P\left(\frac{(n-1) S^{2}}{\chi_{\alpha / 2}^{2}(n-1)}<\sigma^{2}<\frac{(n-1) S^{2}}{\chi_{1-\alpha / 2}^{2}(n-1)}\right)=1-\alpha$

由此得到 $\sigma^{2}$ 的置信度为 $1-\alpha$ 的置信区间是

$\left(\frac{(n-1) S^{2}}{\chi_{\alpha / 2}^{2}(n-1)},\frac{(n-1) S^{2}}{\chi_{1-\alpha / 2}^{2}(n-1)}\right)$

均值 $\mu$ 已知

选取枢轴量 $\chi^{2}=\frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2} \sim \chi^{2}(n)$，与上述推导类似，得到 $\sigma^{2}$ 的置信度为 $1-\alpha$ 的置信区间是

$\left(\frac{\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}}{\chi_{\alpha / 2}^{2}(n)},\frac{\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}}{\chi_{1-\alpha / 2}^{2}(n)}\right)$

两个正态总体参数的置信区间

设 $X \sim N\left(\mu_{1},\sigma_{1}^{2}\right),Y \sim N\left(\mu_{2},\sigma_{2}^{2}\right)$，并且 $X$ 和 $Y$ 相互独立。$\left(X_{1},X_{2},\cdots,X_{n_{1}}\right)$ 和 $\left(Y_{1},Y_{2},\cdots,Y_{n_{2}}\right)$ 分别是来自两个正态总体 $X$ 和 $Y$ 的样本，总体 $X$ 的样本均值和方差分别记为 $\bar{X}$，$S_{1}^{2}$；总体 $Y$ 的样本均值和方差分别记为 $\bar{Y}$，$S_{2}^{2}$，给定置信度为 $1-\alpha$

均值差 $\mu_{1}-\mu_{2}$ 的置信区间

$\sigma_{1}^{2}$ 和 $\sigma_{2}^{2}$ 均已知
由于 $\bar{X} \sim N\left(\mu_{1}\frac{\sigma_{1}^{2}}{n_{1}}\right)$，$\bar{Y} \sim N\left(\mu_{2},\frac{\sigma_{2}^{2}}{n_{2}}\right)$，且它们相互独立，选取枢轴量
$U=\frac{\bar{X}-\bar{Y}-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}} \sim N(0,1)$
则 $\mu_{1}-\mu_{2}$ 的一个置信度为 $1-\alpha$ 的置信区间是
$\left(\bar{X}-\bar{Y}-u_{\alpha / 2} \sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}},\bar{X}-\bar{Y}+u_{\alpha / 2} \sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}\right)$
$\sigma_{1}^{2}$ 和 $\sigma_{2}^{2}$ 均末知，但 $\sigma_{1}^{2}=\sigma_{2}^{2}$
选取枢轴量
$T=\frac{\bar{X}-\bar{Y}-\left(\mu_{1}-\mu_{2}\right)}{S_{W} \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}} \sim t\left(n_{1}+n_{2}-2\right)$
其中 $S_{W}^{2}=\frac{\left(n_{1}-1\right) S_{1}^{2}+\left(n_{2}-1\right) S_{2}^{2}}{n_{1}+n_{2}-2}$，则 $\mu_{1}-\mu_{2}$ 的一个置信度为 $1-\alpha$ 的置信区间是
$\left(\bar{X}-\bar{Y}-t_{\alpha / 2}\left(n_{1}+n_{2}-2\right) S_{W} \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}},\bar{X}-\bar{Y}+t_{\alpha / 2}\left(n_{1}+n_{2}-2\right) S_{W} \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}\right)$
$\sigma_{1}^{2}$ 和 $\sigma_{2}^{2}$ 均末知且不一定相等，但 $n_{1}=n_{2}$
由于 $n_{1}=n_{2}$，可采取配对抽样。令 $Z_{i}=X_{i}-Y_{i},i=1,2,\cdots,n\left(n=n_{1}=n_{2}\right)$，则 $Z_{i}=X_{i}-Y_{i} \sim N\left(\mu_{1}-\mu_{2},\sigma_{1}^{2}+\sigma_{2}^{2}\right)$。此时利用单个正态总体的区间估计方法，选取枢轴量
$T=\frac{\bar{Z}-\left(\mu_{1}-\mu_{2}\right)}{S_{z} / \sqrt{n}} \sim t(n-1),$
其中 $\bar{Z}=\bar{X}-\bar{Y},S_{Z}^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left[\left(X_{i}-Y_{i}\right)-(\bar{X}-\bar{Y})\right]^{2}$，则 $\mu_{1}-\mu_{2}$ 的一个置信度为 $1-\alpha$ 的置信区间是
$\left(\bar{Z}-t_{\alpha / 2}(n-1) S_{z} / \sqrt{n},\quad \bar{Z}+t_{\alpha / 2}(n-1) S_{z} / \sqrt{n}\right)$
$\sigma_{1}^{2}$ 和 $\sigma_{2}^{2}$ 均末知，但 $n_{1}$ 和 $n_{2}$ 很大 $\left(n_{1},n_{2}>50\right)$
虽然
$\frac{\bar{X}-\bar{Y}-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}} \sim N(0,1)$
但是由于其中 $\sigma_{1}^{2}$ 和 $\sigma_{2}^{2}$ 均末知，上式左侧不能构成枢轴量。可用 $S_{1}^{2}$ 和 $S_{2}^{2}$ 代替 $\sigma_{1}^{2}$
和 $\sigma_{2}^{2}$，根据中心极限定理，当 $n_{1}$ 和 $n_{2}$ 很大时，
$U=\frac{\bar{X}-\bar{Y}-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}}}\stackrel{\text{近似}}{\sim} N(0,1)$
因此当 $n_{1}$ 和 $n_{2}$ 很大 $\left(n_{1},n_{2}>50\right)$ 时，$U$ 可近似看成枢轴量，由此可得 $\mu_{1}-\mu_{2}$ 的一个置信度为 $1-\alpha$ 的近似置信区间是
$\left(\bar{X}-\bar{Y}-u_{\alpha / 2} \sqrt{\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}},\bar{X}-\bar{Y}+u_{\alpha / 2} \sqrt{\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}}\right)$
方差比 $\frac{\sigma_{1}^{2}}{\sigma_{2}^{2}}$ 的置信区间（$\mu_1,\mu_2$ 未知）
构造一个枢轴量
$F=\frac{S_{1}^{2} / \sigma_{1}^{2}}{S_{2}^{2} / \sigma_{2}^{2}}=\frac{S_{1}^{2} / S_{2}^{2}}{\sigma_{1}^{2} / \sigma_{2}^{2}} \sim F\left(n_{1}-1,n_{2}-1\right)$
则 $\frac{\sigma_{1}^{2}}{\sigma_{2}^{2}}$ 的一个置信度为 $1-\alpha$ 的置信区间是
$\left(\frac{S_{1}^{2} / S_{2}^{2}}{F_{\alpha / 2}\left(n_{1}-1,n_{2}-1\right)},\quad \frac{S_{1}^{2} / S_{2}^{2}}{F_{1-\alpha / 2}\left(n_{1}-1,n_{2}-1\right)}\right)$
方差比 $\frac{\sigma_{1}^{2}}{\sigma_{2}^{2}}$ 的置信区间（$\mu_1,\mu_2$ 已知）
构造一个枢轴量
$F=\frac{\frac{1}{n} \frac{\sum_{i=1}^{n}\left(X_{i}-\mu_{1}\right)^{2}}{\sigma_{1}^{2}}}{\frac{1}{m} \frac{\sum_{j=1}^{m}\left(Y_{j}-\mu_{2}\right)^{2}}{\sigma_{2}^{2}}}=\frac{\frac{m}{n} \frac{\sum_{i=1}^{n}\left(X_{i}-\mu_{1}\right)^{2}}{\sum_{j=1}^{m}\left(Y_{j}-\mu_{2}\right)^{2}}}{\frac{\sigma_{1}^{2}}{\sigma_{2}^{2}}} \sim F(n, m)$
置信区间为
$\left(\frac{\frac{m}{n} \cdot \frac{\sum_{i=1}^{n}\left(X_{i}-\mu_{1}\right)^{2}}{\sum_{j=1}^{m}\left(Y_{j}-\mu_{2}\right)^{2}}}{F_{\frac{\alpha}{2}}(n, m)}, \frac{\frac{m}{n} \cdot \frac{\sum_{i=1}^{n}\left(X_{i}-\mu_{1}\right)^{2}}{\sum_{j=1}^{m}\left(Y_{j}-\mu_{2}\right)^{2}}}{F_{1-\frac{\alpha}{2}}(n, m)}\right)$

单侧置信区间

总体 $X$ 的分布函数为 $F(x;\theta)$，其中 $\theta$ 末知，$\left(X_{1},X_{2},\cdots,X_{n}\right)$ 为来自总体 $X$ 的一个样本。对任意给定的 $\alpha(0<\alpha<1)$，

若存在统计量 $\hat{\theta}_{1}=\hat{\theta}_{1}\left(X_{1},X_{2},\cdots,X_{n}\right)$ 满足 $P\left(\theta>\hat{\theta}_{1}\right)=1-\alpha$ 则称随机区间 $\left(\hat{\theta}_{1},+\infty\right)$ 是 $\theta$ 的置信度为 $1-\alpha$ 的单侧置信区间，$\hat{\theta}_{1}$ 称为单侧置信下限。
又若存在统计量 $\hat{\theta}_{2}=\hat{\theta}_{2}\left(X_{1},X_{2},\cdots,X_{n}\right)$ 满足 $P\left(\theta<\hat{\theta}_{2}\right)=1-\alpha$ 则称随机区间 $\left(-\infty,\hat{\theta}_{2}\right)$ 是 $\theta$ 的置信度为 $1-\alpha$ 的单侧置信区间，$\hat{\theta}_{2}$ 称为单侧置信上限

正态总体均值的单侧区间估计

方差 $\sigma^{2}$ 已知，均值的单侧置信区间

$\left(\bar{X}-u_{\alpha} \frac{\sigma}{\sqrt{n}},+\infty\right)$ $\left(-\infty,\bar{X}+u_{\alpha} \frac{\sigma}{\sqrt{n}}\right)$

方差 $\sigma^{2}$ 未知，均值的单侧置信区间

$\left(\bar{X}-t_{\alpha}(n-1) \frac{S}{\sqrt{n}},+\infty\right)$ $\left(-\infty,\bar{X}+t_{\alpha}(n-1) \frac{S}{\sqrt{n}}\right)$

均值 $\mu $已知，方差的单侧置信区间

$\left(\frac{\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}}{\chi_{\alpha}^{2}(n)},+\infty\right)$ $\left(-\infty,\frac{\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}}{\chi_{1-\alpha}^{2}(n)}\right)$

均值 $\mu $未知，方差的单侧置信区间

$\left(\frac{(n-1) S^{2}}{\chi_{\alpha}^{2}(n-1)},+\infty\right)$ $\left(-\infty,\frac{(n-1) S^{2}}{\chi_{1-\alpha}^{2}(n-1)}\right)$

非正态总体均值的区间估计

设总体 $X$ 的分布是任意的，$\left(X_{1},X_{2},\cdots,X_{n}\right)$ 是来自总体 $X$ 的一个样本，利用该样本对总体中末知参数 $\mu=E(X)$ 做区间估计。由中心极限定理，可知当 $n$ 充分大时，

$U=\frac{\bar{X}-\mu}{S / \sqrt{n}} \stackrel{\text{近似}}{\sim} N(0,1)$

对给定的 $\alpha(0<\alpha<1)$，要使得

$P\left(|U|<u_{\alpha / 2}\right) \approx 1-\alpha$

即

$P\left(\bar{X}-u_{\alpha / 2} \frac{S}{\sqrt{n}}<\mu<\bar{X}+u_{\alpha / 2} \frac{S}{\sqrt{n}}\right) \approx 1-\alpha$

于是 $\mu$ 的一个近似的置信度为 $1-\alpha$ 的置信区间是

$\left(\bar{X}-u_{\alpha / 2} \frac{S}{\sqrt{n}},\bar{X}+u_{\alpha / 2} \frac{S}{\sqrt{n}}\right)$

这里对 $n$ 充分大的一般要求是 $n>50$

第八章假设检验

参数假设检验的主要步骤

设总体 $X$ 的分布函数为 $F(x)$，一般来说 $F(x)$ 完全或部分末知，又设 $X_{1},X_{2},\cdots,X_{n}$ 为总体 $X$ 的一个简单随机样本，相应的样本观测值为 $x_{1},x_{2},\cdots,x_{n}$

把实际问题转换为假设检验问题，提出原假设 $H_{0}$ 和备择假设 $H_{1}$（通常把研究者要证明的假设作为备择假设；将所作出的声明/现状/不能轻易否定的假设作为原假设）
在 $H_{0}$ 成立的条件下，构造适当的检验统计量，例如 $U=g\left(X_{1},X_{2},\cdots,X_{n}\right)$，要求 $U$ 的分布完全已知（不含末知参数）
给定一个很小的 $\alpha$（称为显著性水平），由 $U$ 构造拒绝域 $\mathscr{W}$，使得当 $H_{0}$ 成立时， $P\left(\left(X_{1},X_{2},\cdots,X_{n}\right) \in \mathscr{W}\right) \leqslant \alpha$ 即构造一个小概率事件“$\left(X_{1},X_{2},\cdots,X_{n}\right) \in \mathscr{W}$”
代入样本数据，计算检验统计量 $U$ 的观测值 $\hat{U}=g\left(x_{1},x_{2},\cdots,x_{n}\right)$，由此判断 $\left(X_{1},X_{2},\cdots,X_{n}\right)$ 是否落在 $\mathscr{W}$ 中，从而做出决策，即
- 若 $\left(X_{1},X_{2},\cdots,X_{n}\right) \in \mathscr{W}$，则拒绝 $H_{0}$
- 若 $\left(X_{1},X_{2},\cdots,X_{n}\right) \notin \mathscr{W}$，则接受 $H_{0}$

决策错误

如果原假设 $H_{0}$ 为真，由于样本的随机性，恰巧使所构造的小概率事件发生了，根据上述方法做出拒绝 $H_{0}$ 的决策，此时就犯了错误，称这类错误为第Ⅰ类错误（又称为“弃真”错误）
而如果 $H_{0}$ 实际上为假（即 $H_{1}$ 为真），但根据样本错误地接受了 $H_{0}$，此时也犯了错误，称这类错误为第Ⅱ类错误（又称为“存伪”错误）
犯第Ⅰ类错误的概率为 $P\left(\text{拒绝} H_{0} \mid H_{0} \text{为真}\right) \leqslant \alpha$ 即犯第Ⅰ类错误的概率不会超过显著性水平 $\alpha$，$\alpha$ 越小，犯第Ⅰ类错误的概率就越小，一般当 $\alpha=0.05$ 时，拒绝 $H_{0}$ 称为是“显著”的，当 $\alpha=0.01$ 时，拒绝 $H_{0}$ 称为是“高度显著”的

把犯第Ⅱ类错误的概率记为 $\beta$，即 $P \left(\text{接受} H_{0} \mid H_{0} \text{为假}\right)=P \left(\text{接受} H_{0} \mid H_{1} \text{为真}\right)=\beta$ 两类错误及其概率如下表所示：

		实际情况
		接受 $H_0$	拒绝 $H_0$
所做判断	$H_0$ 为真	正确（$>1-\alpha$）	犯第Ⅰ类错误（$\le \alpha$）
所做判断	$H_0$ 为假	犯第Ⅱ类错误（$\beta$）	正确（$1-\beta$）

p 检验法

在 $p$ 值检验法中，无须事先给出显著性水平，在原假设 $H_{0}$ 成立的基础上所构造的检验统计量 $U$ 以及拒绝域 $\mathscr{W}$ 都与经典方法相同
首先算出检验统计量的观测值（把它记为 $u_{0}$），再计算事件 $|U|> \left|u_{0}\right|$ 的概率，假设 $P\left(|U|>\left|u_{0}\right|\right)=p$，这个 $p$ 值就等于拒绝原假设的概率
如果这个 $p$ 值很小，我们认为发生这个事件的可能性非常小，因而拒绝 $H_{0}$；如果这个概率不算太小，则接受原假设
p 值检验法和经典方法的关联：假设设定了一个显著性水平 $\alpha$，此时如果 $p \leqslant \alpha$，则表明比 $\alpha$ 更小概率值的事件发生了，故拒绝 $H_{0}$；反之，若 $p>\alpha$，则接受 $H_{0}$

单个正态总体均值的假设检验

方差已知（U 检验法）

检验统计量：

$U=\frac{\bar{X}-\mu_{0}}{\sigma / \sqrt{n}} \sim N(0,1)$

原假设 $H_0$	备择假设 $H_1$	拒绝域
$\mu=\mu_0$	$\mu\ne\mu_0$	$\mid U\mid\ge z_\frac{\alpha}{2}$
$\mu\ge\mu_0$	$\mu<\mu_0$	$U\le -z_\alpha$
$\mu\le\mu_0$	$\mu>\mu_0$	$U\ge z_\alpha$

方差未知

小样本（$n<30$）情况下，用 t 分布来检验总体均值，通常称为 t 检验，统计量

$T=\frac{\bar{X}-\mu_{0}}{S / \sqrt{n}} \sim t(n-1)$

原假设 $H_0$	备择假设 $H_1$	拒绝域
$\mu=\mu_0$	$\mu\ne\mu_0$	$\mid T\mid\ge t_\frac{\alpha}{2}(n-1)$
$\mu\ge\mu_0$	$\mu<\mu_0$	$T\le -t_\alpha(n-1)$
$\mu\le\mu_0$	$\mu>\mu_0$	$T\ge t_\alpha(n-1)$

单个正态总体方差的假设检验

均值已知

选取检验统计量

$\chi^{2}=\frac{\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}}{\sigma_{0}^{2}} \sim \chi^{2}(n)$

原假设 $H_0$	备择假设 $H_1$	拒绝域
$\sigma^2=\sigma_0^2$	$\sigma^2\ne\sigma_0^2$	$\chi^2\ge \chi_\frac{\alpha}{2}(n)$ 或 $\chi^2\le \chi_{1-\frac{\alpha}{2}}(n)$
$\sigma^2\ge\sigma_0^2$	$\sigma^2<\sigma_0^2$	$\chi^2\le \chi_{1-\alpha}(n)$
$\sigma^2\le\sigma_0^2$	$\sigma^2>\sigma_0^2$	$\chi^2\ge \chi_\alpha(n)$

均值未知

选取检验统计量

$\chi^{2}=\frac{(n-1) S^{2}}{\sigma_{0}^{2}}=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}{\sigma_{0}^{2}} \sim \chi^{2}(n-1)$

原假设 $H_0$	备择假设 $H_1$	拒绝域
$\sigma^2=\sigma_0^2$	$\sigma^2\ne\sigma_0^2$	$\chi^2\ge \chi_\frac{\alpha}{2}(n-1)$ 或 $\chi^2\le \chi_{1-\frac{\alpha}{2}}(n-1)$
$\sigma^2\ge\sigma_0^2$	$\sigma^2<\sigma_0^2$	$\chi^2\le \chi_{1-\alpha}(n-1)$
$\sigma^2\le\sigma_0^2$	$\sigma^2>\sigma_0^2$	$\chi^2\ge \chi_\alpha(n-1)$

两个正态总体均值差的假设检验

两个正态总体方差比的假设检验

随机事件概率 p 的假设检验

选取检验统计量

$U=\frac{\bar{X}-p_{0}}{\sqrt{p_{0}\left(1-p_{0}\right) / n}} \stackrel{\text { 近似 }}{\sim} N(0,1)$

原假设 $H_0$	备择假设 $H_1$	拒绝域
$p=p_0$	$p\ne p_0$	$\mid U\mid\ge z_\frac{\alpha}{2}$
$p\ge p_0$	$p<p_0$	$U\le -z_\alpha$
$p\le p_0$	$p>p_0$	$U\ge z_\alpha$

非正态总体的大样本检验

大学学习生活数学

学习数学大学概统

本博客所有文章除特别声明外，均采用 CC BY-NC-ND 4.0 协议，转载请注明出处！

离散（数理逻辑）笔记上一篇

离散（图论）笔记下一篇

置顶链接

第一章 随机事件和概率

基础概念

随机事件之间的关系和运算

包含关系

相等关系

事件的和（或并）

事件的积（或交）

事件的差

对立事件

互不相容

事件运算律

随机事件的概率

频率

概率的统计定义

古典概型

经典例题

几何概型

概率的基本性质

条件概率

条件概率的乘法公式

全概率公式

贝叶斯（Bayes）公式

先验概率和后验概率

随机事件的独立性

n个事件的独立性

独立性的判定

独立性的应用

伯努利试验概型

第二章 随机变量及其分布

随机变量

随机变量的分布函数

用分布函数表示概率

离散型随机变量及其分布律

定义

0-1 分布（两点分布）

二项分布

最可能出现次数

泊松定理

帕斯卡分布

几何分布

泊松分布

连续型随机变量及其分布律

概率密度函数

分位数

均匀分布

指数分布

正态分布（高斯分布）

离散型随机变量函数的分布

连续型随机变量函数的分布

第三章 多维随机变量及其分布

二维随机变量及其分布

边缘分布函数

二维离散型随机变量及其分布律

定义

分布律

分布律的性质

分布律和分布函数的关系

分布律的计算方法

二维连续型随机变量

性质

边缘分布函数和边缘概率密度

二维均匀分布

二维正态分布

边缘概率密度

用矩阵向量表示

二维离散型随机变量的条件分布

性质

乘法公式

全概率公式

二维连续型随机变量的条件分布

乘法公式

全概率公式

贝叶斯公式

二维随机变量的独立性

性质&判定

独立性定理

n 维随机变量

随机变量函数

第一章随机事件和概率

第二章随机变量及其分布

第三章多维随机变量及其分布

第四章随机变量的数字特征

第五章大数定律和中心极限定理

第六章数理统计的预备知识