#sdsc5001

English / 中文


总体与样本

  • 总体(Population):研究对象的完整集合

  • 样本(Sample):从总体中抽取的部分观察对象

  • 关系:通过样本推断总体特征是统计与机器学习的核心

例如抛硬币实验中,总体是所有可能的抛硬币结果,样本是实际观察到的10,000次抛硬币结果


概率基础

  • 实验(Experiment):任何产生观察结果的过程

  • 样本空间(Sample Space):实验所有可能结果的集合,记为 SS

  • 事件(Event):样本空间 SS 的子集

示例:掷六面骰子

  • 实验:掷骰子

  • 样本空间 S={1,2,3,4,5,6}S = \{1, 2, 3, 4, 5, 6\}

  • 事件"得到偶数":{2,4,6}\{2, 4, 6\}


集合运算

给定事件 AABB

  • ABA \cup BAABB 的并集

  • ABA \cap BAABB 的交集

  • AA'AA 的补集

这些运算是计算复杂事件概率的基础

集合运算可用韦恩图直观表示(文档中未提供图示)


概率计算

概率定义为:

P(A)=事件A中的结果数样本空间中的结果总数P(A) = \frac{\text{事件A中的结果数}}{\text{样本空间中的结果总数}}

计数技术

  • 乘积法则:若实验1有 mm 种结果,实验2有 nn 种结果,则组合实验有 m×nm \times n 种结果

    • 示例:掷骰子两次,有 6×6=366 \times 6 = 36 种可能结果
  • 排列:从 nn 个不同对象中有序选择 kk 个对象的方式数:

    Pnk=n!(nk)!P_n^k = \frac{n!}{(n-k)!}

    • 示例:排列字母 {a, b, c},有 3!=63! = 6 种方式:(abc), (acb), (bac), (bca), (cab), (cba)
  • 组合:从 nn 个不同对象中无序选择 kk 个对象的方式数:

    Cnk=(nk)=n!k!(nk)!C_n^k = \binom{n}{k} = \frac{n!}{k!(n-k)!}

    • 示例:从 {a, b, c, d, e} 选3个,有 (53)=10\binom{5}{3} = 10 种方式

示例:掷两个公平骰子,第二个骰子值大于第一个的概率

  • 样本空间 SS 有36种结果

  • 事件 EE:第二个骰子值更大,有15种结果(如 (1,2), (1,3), …, (5,6))

  • P(E)=1536P(E) = \frac{15}{36}


概率公理

  • 补集规则P(A)=1P(A)P(A') = 1 - P(A)

  • 加法规则P(AB)=P(A)+P(B)P(AB)P(A \cup B) = P(A) + P(B) - P(A \cap B)

    • AABB 互斥(AB=A \cap B = \emptyset),则 P(AB)=P(A)+P(B)P(A \cup B) = P(A) + P(B)
  • 三事件扩展

    P(ABC)=P(A)+P(B)+P(C)P(AB)P(AC)P(BC)+P(ABC)P(A \cup B \cup C) = P(A) + P(B) + P(C) - P(A \cap B) - P(A \cap C) - P(B \cap C) + P(A \cap B \cap C)

示例:会议中选择至少一名心理学家的概率

  • 30名精神病学家和24名心理学家,共54人,随机选3人

  • 事件 AA:至少选一名心理学家

  • 使用补集:AA':未选心理学家(全选精神病学家)

  • P(A)=1P(A)=1(303)(543)=130×29×2854×53×520.84P(A) = 1 - P(A') = 1 - \frac{\binom{30}{3}}{\binom{54}{3}} = 1 - \frac{30 \times 29 \times 28}{54 \times 53 \times 52} \approx 0.84

生日悖论

  • nn 人中至少两人生日相同的概率:

    P(A)=1365×364××(365n+1)365nP(A) = 1 - \frac{365 \times 364 \times \cdots \times (365 - n + 1)}{365^n}

    • n=23n = 23 时,概率超过50%

条件概率与贝叶斯定理

  • 条件概率BB 发生时 AA 的概率:

    P(AB)=P(AB)P(B)P(A \mid B) = \frac{P(A \cap B)}{P(B)}

  • 独立性:若 P(AB)=P(A)P(A \mid B) = P(A)P(AB)=P(A)P(B)P(A \cap B) = P(A)P(B),则 AABB 独立

  • 贝叶斯定理

    P(AiB)=P(Ai)P(BAi)k=1KP(Ak)P(BAk)P(A_i \mid B) = \frac{P(A_i) P(B \mid A_i)}{\sum_{k=1}^K P(A_k) P(B \mid A_k)}

    • P(AiB)P(A_i \mid B):后验概率
    • P(BAi)P(B \mid A_i):似然
    • P(Ai)P(A_i):先验概率
    • P(B)P(B):边际似然(证据)

示例:药物检测

  • 检测真阳性率 P(+用药者)=0.99P(+ \mid \text{用药者}) = 0.99,真阴性率 P(非用药者)=0.99P(- \mid \text{非用药者}) = 0.99,用药者比例 P(用药者)=0.005P(\text{用药者}) = 0.005

  • P(用药者+)P(\text{用药者} \mid +)

    P(用药者+)=0.99×0.0050.99×0.005+0.01×0.9950.332P(\text{用药者} \mid +) = \frac{0.99 \times 0.005}{0.99 \times 0.005 + 0.01 \times 0.995} \approx 0.332

    即使检测呈阳性,真正用药者的概率仅约33.2%,这是由于基础概率较低

蒙提霍尔问题

  • 三扇门,一扇后有车,两扇后为山羊。主持人打开一扇山羊门后,是否换门?

  • 使用贝叶斯定理计算:

    • 假设初始选择门1,主持人打开门3(显示山羊)
    • P(A1B)=1/3×1/21/2=13P(A_1 \mid B) = \frac{1/3 \times 1/2}{1/2} = \frac{1}{3}

    • P(A2B)=1/3×11/2=23P(A_2 \mid B) = \frac{1/3 \times 1}{1/2} = \frac{2}{3}

    因此换门获胜概率为2/3,坚持为1/3,应选择换门


随机变量

  • 随机变量(Random Variable):取值随机的变量

  • 描述统计

    • 数值特征:均值、中位数、修剪均值、方差、标准差
    • 图形表示:直方图、饼图、箱线图

离散随机变量

  • 取值有限或可数无限

  • 概率质量函数(PMF)p(x)=P(X=x)p(x) = P(X = x)

  • 累积分布函数(CDF)F(x)=P(Xx)F(x) = P(X \leq x)

  • 期望E(X)=xp(x)E(X) = \sum x p(x)

  • 方差Var(X)=E[(XE(X))2]=E(X2)[E(X)]2\operatorname{Var}(X) = E[(X - E(X))^2] = E(X^2) - [E(X)]^2

常见离散分布

  • 伯努利分布XBern(p)X \sim \operatorname{Bern}(p)p(x)=px(1p)1xp(x) = p^x (1-p)^{1-x}x=0,1x=0,1

  • 二项分布XBin(n,p)X \sim \operatorname{Bin}(n, p)p(x)=(nx)px(1p)nxp(x) = \binom{n}{x} p^x (1-p)^{n-x}x=0,1,,nx=0,1,\ldots,n

  • 泊松分布XPoi(λ)X \sim \operatorname{Poi}(\lambda)p(x)=λxx!eλp(x) = \frac{\lambda^x}{x!} e^{-\lambda}x=0,1,x=0,1,\ldots

    • 示例:呼叫中心平均每小时5通电话(λ=5\lambda=5),恰好接到3通电话的概率:p(3)=533!e5p(3) = \frac{5^3}{3!} e^{-5}

连续随机变量

  • 取值为实数区间

  • 概率密度函数(PDF)f(x)=limh0P(xXx+h)hf(x) = \lim_{h \to 0} \frac{P(x \leq X \leq x+h)}{h}

  • 累积分布函数(CDF)F(x)=P(Xx)=xf(t)dtF(x) = P(X \leq x) = \int_{-\infty}^x f(t) dt

  • 期望E(X)=xf(x)dxE(X) = \int_{-\infty}^{\infty} x f(x) dx

  • 方差Var(X)=E[(XE(X))2]=E(X2)[E(X)]2\operatorname{Var}(X) = E[(X - E(X))^2] = E(X^2) - [E(X)]^2

常见连续分布

  • 均匀分布XUnif(a,b)X \sim \operatorname{Unif}(a, b)f(x)=1baf(x) = \frac{1}{b-a}x[a,b]x \in [a, b]

  • 指数分布XExp(λ)X \sim \operatorname{Exp}(\lambda)f(x)=λeλxf(x) = \lambda e^{-\lambda x}x>0x > 0

  • 正态分布XN(μ,σ2)X \sim N(\mu, \sigma^2)f(x)=12πσ2e(xμ)22σ2f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}<x<-\infty < x < \infty


联合分布

对于随机变量 XXYY(连续或离散):

  • 联合PDF/PMFf(x,y)f(x, y)

  • 边缘分布fX(x)=f(x,y)dyf_X(x) = \int f(x, y) dy(连续)或 f(x,y)\sum f(x, y)(离散)

  • 独立性:若 f(x,y)=fX(x)fY(y)f(x, y) = f_X(x) f_Y(y),则 XXYY 独立

  • 条件分布fYX(yx)=f(x,y)fX(x)f_{Y \mid X}(y \mid x) = \frac{f(x, y)}{f_X(x)}

  • 期望E[h(X,Y)]=h(x,y)f(x,y)dydxE[h(X, Y)] = \int \int h(x, y) f(x, y) dy dx

  • 协方差Cov(X,Y)=E(XY)E(X)E(Y)\operatorname{Cov}(X, Y) = E(XY) - E(X)E(Y)

  • 相关系数Corr(X,Y)=Cov(X,Y)Var(X)Var(Y)\operatorname{Corr}(X, Y) = \frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}(X) \operatorname{Var}(Y)}}


统计量及其分布

  • 统计量:数据的函数,因而是随机变量

  • 简单随机样本:若 X1,X2,,XnX_1, X_2, \ldots, X_n 独立同分布(i.i.d.),称为简单随机样本

  • 样本均值Xˉ=1ni=1nXi\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i

    • XiN(μ,σ2)X_i \sim N(\mu, \sigma^2),则 XˉN(μ,σ2n)\bar{X} \sim N(\mu, \frac{\sigma^2}{n})
  • 中心极限定理(CLT):若 XiX_i i.i.d. 且具有均值 μ\mu 和方差 σ2\sigma^2,则:

    n(Xˉμ)σdN(0,1)\frac{\sqrt{n} (\bar{X} - \mu)}{\sigma} \xrightarrow{d} N(0,1)

    即使原始分布非正态,样本均值在大样本下近似服从正态分布

一般结论

  • XiN(μi,σi2)X_i \sim N(\mu_i, \sigma_i^2) 且独立,则 Y=aiXiN(aiμi,ai2σi2)Y = \sum a_i X_i \sim N(\sum a_i \mu_i, \sum a_i^2 \sigma_i^2)

  • 期望和方差线性性质:E(Y)=aiμiE(Y) = \sum a_i \mu_iVar(Y)=ai2σi2\operatorname{Var}(Y) = \sum a_i^2 \sigma_i^2(若独立),否则需添加协方差项


统计推断

基于样本数据推断总体特征:

  • 估计:寻找未知参数的估计值

    • 点估计:如 μ^=2.5\hat{\mu} = 2.5
    • 区间估计:如95%置信区间 μ(2.0,3.0)\mu \in (2.0, 3.0)
  • 假设检验:基于特定假设进行决策(如 μ2\mu \leq 2 vs. μ>2\mu > 2

点估计

  • 点估计量:用于估计参数 θ\theta 的统计量

  • 示例:从样本数据估计总体均值

    • 样本均值:xˉ=1nxi\bar{x} = \frac{1}{n} \sum x_i
    • 样本中位数:排序后的中间值
    • 修剪均值:去除极端值后的均值

    问题:哪种估计更接近总体均值?取决于分布特征

无偏估计

  • 无偏估计量:若 E(θ^)=θE(\hat{\theta}) = \theta,则 θ^\hat{\theta}θ\theta 的无偏估计

  • 偏差E(θ^)θE(\hat{\theta}) - \theta

  • 示例

    • 样本均值 Xˉ\bar{X}μ\mu 的无偏估计
    • 样本方差 σ^2=1n1(XiXˉ)2\hat{\sigma}^2 = \frac{1}{n-1} \sum (X_i - \bar{X})^2σ2\sigma^2 的无偏估计(贝塞尔校正)

      自由度 n1n-1 是因为估计中使用了样本均值,损失了一个自由度

另一示例XiUnif(0,θ)X_i \sim \operatorname{Unif}(0, \theta)θ^=max{Xi}\hat{\theta} = \max\{X_i\},则 E[θ^]=nn+1θE[\hat{\theta}] = \frac{n}{n+1} \theta,为有偏估计

最小方差无偏估计(MVUE)

  • 在所有无偏估计中选择方差最小的估计量

  • 示例:均匀分布中,θ^1=n+1nmax{Xi}\hat{\theta}_1 = \frac{n+1}{n} \max\{X_i\}θ^2=2Xˉ\hat{\theta}_2 = 2\bar{X} 均为无偏,但 θ^1\hat{\theta}_1 方差更小

  • XiN(μ,σ2)X_i \sim N(\mu, \sigma^2),则 Xˉ\bar{X}μ\mu 的MVUE

矩估计法(MM)

  • 基本思想:样本矩应与总体矩相似

  • 第k样本矩1nXik\frac{1}{n} \sum X_i^k

  • 第k总体矩E(Xk)E(X^k)

  • 通过令样本矩等于总体矩来求解参数

示例:估计正态分布的 μ\muσ2\sigma^2

  • 一阶矩:E(X)=μE(X) = \mu,样本矩 Xˉ\bar{X},故 μ^MM=Xˉ\hat{\mu}_{MM} = \bar{X}

  • 二阶矩:E(X2)=μ2+σ2E(X^2) = \mu^2 + \sigma^2,样本矩 1nXi2\frac{1}{n} \sum X_i^2,故 σ^MM2=1nXi2(Xˉ)2\hat{\sigma}_{MM}^2 = \frac{1}{n} \sum X_i^2 - (\bar{X})^2

最大似然估计(MLE)

  • 基本思想:选择使观测数据出现概率最大的参数值

  • 似然函数L(θ)=f(x1,,xn;θ)L(\theta) = f(x_1, \ldots, x_n; \theta),视为 θ\theta 的函数

  • MLE估计量 θ^\hat{\theta} 最大化 L(θ)L(\theta)

示例XiN(μ,σ2)X_i \sim N(\mu, \sigma^2)

  • 似然函数:L(μ,σ2)=(2πσ2)n/2exp[12σ2(xiμ)2]L(\mu, \sigma^2) = (2\pi\sigma^2)^{-n/2} \exp\left[ -\frac{1}{2\sigma^2} \sum (x_i - \mu)^2 \right]

  • MLE: μ^=Xˉ\hat{\mu} = \bar{X}, σ^2=1n(XiXˉ)2\hat{\sigma}^2 = \frac{1}{n} \sum (X_i - \bar{X})^2

另一示例XiUnif(0,θ)X_i \sim \operatorname{Unif}(0, \theta)

  • 似然函数:L(θ)=(1θ)nL(\theta) = \left( \frac{1}{\theta} \right)^n(若所有 Xi[0,θ]X_i \in [0, \theta]),否则为0

  • 为最大化似然函数,θ\theta 应取尽可能小的值但不小于任何 XiX_i,故 θ^MLE=max{Xi}\hat{\theta}_{MLE} = \max\{X_i\}


置信区间(CI)

  • 置信区间:基于统计量的区间估计,以预定概率包含未知总体参数

  • CI = 点估计 ± 误差边际

示例:正态分布且 σ2\sigma^2 已知,μ\mu100(1α)%100(1-\alpha)\% 置信区间:

(Xˉzα/2σn,Xˉ+zα/2σn)\left( \bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right)

  • σ\sigma 未知,使用样本标准差 ss 和 t分布:

(Xˉtα/2,n1sn,Xˉ+tα/2,n1sn)\left( \bar{X} - t_{\alpha/2, n-1} \frac{s}{\sqrt{n}}, \bar{X} + t_{\alpha/2, n-1} \frac{s}{\sqrt{n}} \right)

解释:置信区间是随机区间;若重复抽样多次,约 100(1α)%100(1-\alpha)\% 的置信区间会覆盖真实参数 μ\mu

一般置信区间构造

  • 若估计量 θ^\hat{\theta} 近似正态、无偏、方差 σθ^2\sigma_{\hat{\theta}}^2 已知,则近似 100(1α)%100(1-\alpha)\% CI为:

(θ^zα/2σθ^,θ^+zα/2σθ^)\left( \hat{\theta} - z_{\alpha/2} \sigma_{\hat{\theta}}, \hat{\theta} + z_{\alpha/2} \sigma_{\hat{\theta}} \right)


假设检验

  • 假设:关于概率分布特征的陈述

  • 假设检验:利用数据在两个竞争假设间做出决策

    • 零假设(H0H_0:初始假定为真的假设
    • 备择假设(HaH_a:与 H0H_0 矛盾的假设

检验类型

  • 对于 H0:θ=θ0H_0: \theta = \theta_0HaH_a 可以是:

    • θ>θ0\theta > \theta_0(右侧检验)
    • θ<θ0\theta < \theta_0(左侧检验)
    • θθ0\theta \neq \theta_0(双侧检验)

检验过程

  • 检验统计量:基于样本数据的函数

  • 拒绝域:导致拒绝 H0H_0 的检验统计量取值区域

错误类型

  • 第一类错误:拒绝真 H0H_0,概率为 α\alpha(显著性水平)

  • 第二类错误:未拒绝假 H0H_0,概率为 β\beta

  • 检验功效1β1 - \beta,即拒绝假 H0H_0 的概率

p值

  • 在给定数据下,拒绝 H0H_0 的最小显著性水平

  • 若 p值 < α\alpha,拒绝 H0H_0;否则不拒绝

  • p值是假定 H0H_0 为真时,获得至少与样本同样极端的检验统计量的概率

通常设定 α=0.05\alpha = 0.05,但需谨慎使用,因为p值受样本量影响较大