#sdsc5001
English / 中文
总体与样本
-
总体(Population):研究对象的完整集合
-
样本(Sample):从总体中抽取的部分观察对象
-
关系:通过样本推断总体特征是统计与机器学习的核心
例如抛硬币实验中,总体是所有可能的抛硬币结果,样本是实际观察到的10,000次抛硬币结果
概率基础
示例:掷六面骰子
-
实验:掷骰子
-
样本空间 S={1,2,3,4,5,6}
-
事件"得到偶数":{2,4,6}
集合运算
给定事件 A 和 B:
这些运算是计算复杂事件概率的基础
集合运算可用韦恩图直观表示(文档中未提供图示)
概率计算
概率定义为:
P(A)=样本空间中的结果总数事件A中的结果数
计数技术:
-
乘积法则:若实验1有 m 种结果,实验2有 n 种结果,则组合实验有 m×n 种结果
- 示例:掷骰子两次,有 6×6=36 种可能结果
-
排列:从 n 个不同对象中有序选择 k 个对象的方式数:
Pnk=(n−k)!n!
- 示例:排列字母 {a, b, c},有 3!=6 种方式:(abc), (acb), (bac), (bca), (cab), (cba)
-
组合:从 n 个不同对象中无序选择 k 个对象的方式数:
Cnk=(kn)=k!(n−k)!n!
- 示例:从 {a, b, c, d, e} 选3个,有 (35)=10 种方式
示例:掷两个公平骰子,第二个骰子值大于第一个的概率
-
样本空间 S 有36种结果
-
事件 E:第二个骰子值更大,有15种结果(如 (1,2), (1,3), …, (5,6))
-
P(E)=3615
概率公理
-
补集规则:P(A′)=1−P(A)
-
加法规则:P(A∪B)=P(A)+P(B)−P(A∩B)
- 若 A 和 B 互斥(A∩B=∅),则 P(A∪B)=P(A)+P(B)
-
三事件扩展:
P(A∪B∪C)=P(A)+P(B)+P(C)−P(A∩B)−P(A∩C)−P(B∩C)+P(A∩B∩C)
示例:会议中选择至少一名心理学家的概率
-
30名精神病学家和24名心理学家,共54人,随机选3人
-
事件 A:至少选一名心理学家
-
使用补集:A′:未选心理学家(全选精神病学家)
-
P(A)=1−P(A′)=1−(354)(330)=1−54×53×5230×29×28≈0.84
生日悖论
条件概率与贝叶斯定理
-
条件概率:B 发生时 A 的概率:
P(A∣B)=P(B)P(A∩B)
-
独立性:若 P(A∣B)=P(A) 或 P(A∩B)=P(A)P(B),则 A 和 B 独立
-
贝叶斯定理:
P(Ai∣B)=∑k=1KP(Ak)P(B∣Ak)P(Ai)P(B∣Ai)
- P(Ai∣B):后验概率
- P(B∣Ai):似然
- P(Ai):先验概率
- P(B):边际似然(证据)
示例:药物检测
-
检测真阳性率 P(+∣用药者)=0.99,真阴性率 P(−∣非用药者)=0.99,用药者比例 P(用药者)=0.005
-
求 P(用药者∣+):
P(用药者∣+)=0.99×0.005+0.01×0.9950.99×0.005≈0.332
即使检测呈阳性,真正用药者的概率仅约33.2%,这是由于基础概率较低
蒙提霍尔问题
随机变量
离散随机变量
-
取值有限或可数无限
-
概率质量函数(PMF):p(x)=P(X=x)
-
累积分布函数(CDF):F(x)=P(X≤x)
-
期望:E(X)=∑xp(x)
-
方差:Var(X)=E[(X−E(X))2]=E(X2)−[E(X)]2
常见离散分布:
-
伯努利分布:X∼Bern(p),p(x)=px(1−p)1−x(x=0,1)
-
二项分布:X∼Bin(n,p),p(x)=(xn)px(1−p)n−x(x=0,1,…,n)
-
泊松分布:X∼Poi(λ),p(x)=x!λxe−λ(x=0,1,…)
- 示例:呼叫中心平均每小时5通电话(λ=5),恰好接到3通电话的概率:p(3)=3!53e−5
连续随机变量
-
取值为实数区间
-
概率密度函数(PDF):f(x)=limh→0hP(x≤X≤x+h)
-
累积分布函数(CDF):F(x)=P(X≤x)=∫−∞xf(t)dt
-
期望:E(X)=∫−∞∞xf(x)dx
-
方差:Var(X)=E[(X−E(X))2]=E(X2)−[E(X)]2
常见连续分布:
-
均匀分布:X∼Unif(a,b),f(x)=b−a1(x∈[a,b])
-
指数分布:X∼Exp(λ),f(x)=λe−λx(x>0)
-
正态分布:X∼N(μ,σ2),f(x)=2πσ21e−2σ2(x−μ)2(−∞<x<∞)
联合分布
对于随机变量 X 和 Y(连续或离散):
-
联合PDF/PMF:f(x,y)
-
边缘分布:fX(x)=∫f(x,y)dy(连续)或 ∑f(x,y)(离散)
-
独立性:若 f(x,y)=fX(x)fY(y),则 X 和 Y 独立
-
条件分布:fY∣X(y∣x)=fX(x)f(x,y)
-
期望:E[h(X,Y)]=∫∫h(x,y)f(x,y)dydx
-
协方差:Cov(X,Y)=E(XY)−E(X)E(Y)
-
相关系数:Corr(X,Y)=Var(X)Var(Y)Cov(X,Y)
统计量及其分布
-
统计量:数据的函数,因而是随机变量
-
简单随机样本:若 X1,X2,…,Xn 独立同分布(i.i.d.),称为简单随机样本
-
样本均值:Xˉ=n1∑i=1nXi
- 若 Xi∼N(μ,σ2),则 Xˉ∼N(μ,nσ2)
-
中心极限定理(CLT):若 Xi i.i.d. 且具有均值 μ 和方差 σ2,则:
σn(Xˉ−μ)dN(0,1)
即使原始分布非正态,样本均值在大样本下近似服从正态分布
一般结论:
-
若 Xi∼N(μi,σi2) 且独立,则 Y=∑aiXi∼N(∑aiμi,∑ai2σi2)
-
期望和方差线性性质:E(Y)=∑aiμi,Var(Y)=∑ai2σi2(若独立),否则需添加协方差项
统计推断
基于样本数据推断总体特征:
点估计
无偏估计
另一示例:Xi∼Unif(0,θ),θ^=max{Xi},则 E[θ^]=n+1nθ,为有偏估计
最小方差无偏估计(MVUE)
-
在所有无偏估计中选择方差最小的估计量
-
示例:均匀分布中,θ^1=nn+1max{Xi} 和 θ^2=2Xˉ 均为无偏,但 θ^1 方差更小
-
若 Xi∼N(μ,σ2),则 Xˉ 是 μ 的MVUE
矩估计法(MM)
示例:估计正态分布的 μ 和 σ2
-
一阶矩:E(X)=μ,样本矩 Xˉ,故 μ^MM=Xˉ
-
二阶矩:E(X2)=μ2+σ2,样本矩 n1∑Xi2,故 σ^MM2=n1∑Xi2−(Xˉ)2
最大似然估计(MLE)
-
基本思想:选择使观测数据出现概率最大的参数值
-
似然函数:L(θ)=f(x1,…,xn;θ),视为 θ 的函数
-
MLE估计量 θ^ 最大化 L(θ)
示例:Xi∼N(μ,σ2)
-
似然函数:L(μ,σ2)=(2πσ2)−n/2exp[−2σ21∑(xi−μ)2]
-
MLE: μ^=Xˉ, σ^2=n1∑(Xi−Xˉ)2
另一示例:Xi∼Unif(0,θ)
-
似然函数:L(θ)=(θ1)n(若所有 Xi∈[0,θ]),否则为0
-
为最大化似然函数,θ 应取尽可能小的值但不小于任何 Xi,故 θ^MLE=max{Xi}
置信区间(CI)
示例:正态分布且 σ2 已知,μ 的 100(1−α)% 置信区间:
(Xˉ−zα/2nσ,Xˉ+zα/2nσ)
(Xˉ−tα/2,n−1ns,Xˉ+tα/2,n−1ns)
解释:置信区间是随机区间;若重复抽样多次,约 100(1−α)% 的置信区间会覆盖真实参数 μ
一般置信区间构造:
(θ^−zα/2σθ^,θ^+zα/2σθ^)
假设检验
-
假设:关于概率分布特征的陈述
-
假设检验:利用数据在两个竞争假设间做出决策
- 零假设(H0):初始假定为真的假设
- 备择假设(Ha):与 H0 矛盾的假设
检验类型:
检验过程:
错误类型:
-
第一类错误:拒绝真 H0,概率为 α(显著性水平)
-
第二类错误:未拒绝假 H0,概率为 β
-
检验功效:1−β,即拒绝假 H0 的概率
p值:
-
在给定数据下,拒绝 H0 的最小显著性水平
-
若 p值 < α,拒绝 H0;否则不拒绝
-
p值是假定 H0 为真时,获得至少与样本同样极端的检验统计量的概率
通常设定 α=0.05,但需谨慎使用,因为p值受样本量影响较大