Probabilism_notes
概率论笔记
随机事件与概率
概率论基本概念
- 随机试验
- 样本空间(集合)、样本点
- 随机事件:样本空间的子集
- 事件间的关系
- 包含:A发发生一定导致B发生,则B包含A
- 相等:A=B,A包含B,B包含A
- 互斥:AB不可能同时发生,A∩B=∅
- 对立一定互斥,互斥不一定对立
- 事件的运算
- 并:A、B至少发生一个
- 交:A、B同时发生
- 差:A-B,A发生B不发生
- 对立事件:A不发生
- 德摩根律,A-B=A-AB=AB’差变交
概率
公理化定义
- 非负性
- 规范性
- 可列可加性(互不相容时)
性质
P(A-B) = P(A) - P(AB)
若A⊂B,则P(A)≤P(B)
P(A⋃B)=P(A)+P(B)-P(AB)
𝑷(𝑨⋃𝑩⋃𝑪)=𝑷(𝑨)+𝑷(𝑩)+𝑷(𝑪)−𝑷(𝑨𝑩)−𝑷(𝑨𝑪)−𝑷(𝑩𝑪)+𝑷(𝑨𝑩𝑪), 推广
Boole不等式: (Union Bound) (非互不相容的事件集) 两种方法证明

古典概型
特点:样本空间的元素只有有限个; 每个样本点发生的可能性相同
定义:P(A)=A包含样本点数/Ω包含样本点数=(|A|)/(|Ω|)
典型例题
男n女m,围成一圈,女生互不相邻的概率?

抽签原理
随机取数(乘积能被10整除):分解成两个事件的交——至少一个偶数,至少一个5
取铆钉:利用互斥性
几何概型
特点:样本空间无限性;等可能性
定义:𝑷(𝑨)=𝑨的几何测度/𝛀的几何测度=(𝝁(𝑨))/(𝝁(𝛀))
典型例题
约会问题:0<=x, y<=60, |x-y| <= 15, 面积
蒲丰投针


条件概率
定义:𝑷(𝑨│𝑩)=𝑷(𝑨𝑩)/𝑷(𝑩)
本质:缩减的样本空间

乘法公式:
- 𝑷(𝑨𝑩)=𝑷(𝑨)𝑷(𝑩|𝑨), 𝑷(𝑨𝑩)=𝑷(𝑩)𝑷(𝑨|𝑩),
- 推广到多个事件:若𝑷(𝑨𝟏 𝑨𝟐⋯𝑨(𝒏−𝟏) )>𝟎,则𝑷(𝑨𝟏 𝑨𝟐⋯𝑨𝒏 )=𝑷(𝑨𝟏 )𝑷(𝑨𝟐│𝑨𝟏 )⋯𝑷(𝑨𝒏 |𝑨𝟏 𝑨𝟐⋯𝑨(𝒏−𝟏))
全概率公式(求结果发生的概率(即求𝑷(𝑩)))


- 应用:推迟决定原则
贝叶斯公式:(已知事件𝑩发生,求𝑩由第𝒊个原因引起的概率(即求𝑷(𝑨𝒊 |𝑩)))

- 应用:患肝癌概率,三囚犯问题,三门问题
独立性: P(AB) = P(A)P(B)
性质:P(B|A) = P(B), 概率为0或1的事件与任意事件独立,A,A’与B,B’都相互独立
独立与互不相容的关系:(P(A)、P(B)均大于0)若A、B相互独立,则不可能互不相容; 若A、B互不相容,则不可能相互独立(P(A)P(B) > 0)
n个事件的独立性:n个事件独立 =>其中任意k个事件独立,反之不成立
分组独立性:

独立事件至少发生一次的概率:

- 应用:系统可靠性,矩阵乘法验证
离散型随机变量
随机变量
- 定义:把𝛀中的每一个样本点𝝎与一个实数𝑿(𝝎)相对应,称实值函数𝑿:𝛀→𝑹为随机变量,随机变量在某范围的取值表示随机事件
Y = g(X)的分布:合并相同项
二维离散型随机变量(X, Y)
- 联合分布律:𝒑𝒊𝒋=𝑷(𝑿=𝒙𝒊,𝒀=𝒚𝒋 )(列表)
- 边缘分布律:P{X = xi} = Pi·, P(Y = yj) = P·j
- 两个离散型随机变量的独立性:对所有x, y, 𝑷(𝑿=𝒙,𝒀=𝒚)=𝑷(𝑿=𝒙)𝑷(𝒀=𝒚), 则X, Y独立
- 推广:多个离散型随机变量的独立性:对任意取值的x1, …, xn, P(X1=x1, …, Xn = xn) = P(X1 = x1)…P(Xn = xn) (只要一个公式)
期望
定义

有4个盒子,编号为1,2,3,4。现将3个球随机放入4只盒子。用𝑿表示有球盒子的最小号码,求𝑬(𝑿).
随机变量函数的期望:

期望的线性性质:(**如何证明***)(不依赖于独立性)

- 例:猴子打字
一般E(f(x)) != f(E(x)), 如E[x^2] >= E[x] ^2
Jensen不等式:设f为下凸函数,则E[f(x)] >= f(E[x])
几个典型的离散型随机变量
0-1分布(伯努利试验):随机试验只有两个结果:A与A’,A发生则X=1,否则X=0,X为指示变量
- 期望:E[X] = p
- 方差:D(X) = p(1-p)
二项分布(n重伯努利试验, 每次实验结果相互独立, X为n次试验中A发生的次数):
定义:记为X~B(n, p)

期望:E(x) = np(证明:公式* / 期望的线性性质)
二项式定理:

方差:D(X) = np(1-p) (由0-1分布方差相加而来)
二项分布的最大值(**解法***):(n+1)p-1<=k0<=(n+1)p (np附近)
泊松近似公式:(n>=20, p <= 0.1)时,P(X = k)近似于

泊松分布(大量实验中稀有事件出现的次数, λ意义:事件的平均发生次数)
定义:(验证*)


期望:E(X) = λ(证明*)
方差:D(X) = λ (**证明***)
泊松变量的和:仍是泊松变量:若𝑿∼𝑷(𝝀𝟏),𝒀
𝑷(𝝀𝟐)且𝑿,𝒀独立,则𝑿+𝒀𝑷(𝝀𝟏+𝝀𝟐)(证明*!)例:昆虫卵的分布*(条件概率+全概率公式)
几何分布(多重伯努利试验,不断重复直至A发生所需次数)
定义:

无记忆性(证明*, P(X>t) = q^t):假设已经经历了𝒏次失败,则从当前起直至成功所需次数与𝒏无关。严格地,设𝑿~𝑮(𝒑),则对于任意自然数𝒔,𝒕有𝑷(𝑿>𝒔+𝒕│𝑿>𝒔)=𝑷(𝑿>𝒕),等价地,𝑷(𝑿=𝒔+𝒕│𝑿>𝒔)=𝑷(𝑿=𝒕)
期望:E(x) = 1/p(三种证明方法*:定义(注意求导、负号) / 定理 / 条件期望)

方差:D(x) = (1-p)/p^2 (证明*:两种算E[X^2]方法: 定义(求导、错位相减) / 条件期望+无记忆性)
典型例题:票券收集问题(调和级数H(n) = lnn+θ(1)),快速排序比较次数X的期望
条件期望(常结合无记忆性)
条件分布(某事件A发生的条件下X的分布):P(X = x | A)
条件期望


全期望公式(**证明***)

- 应用:证明几何分布的期望(按第一次事件是否发生分情况,利用无记忆性)
条件期望定义的随机变量:f(Y) = E[X|Y] -> Y的函数构成的随机变量
- 性质:E[E[X|Y]] = E[X](**证明*, 用全期望公式**)
- 应用:分支过程(递归式)
方差
马尔可夫不等式(**证明*,引入变量I<=x/a**) 只知道期望,且取值非负时使用 ,P(X>=cE[x]) <= 1/c

方差(反应数据的离散程度)
- 定义:D(X) = E[(X-E[X])^2]
- 简便计算:D(X) = E[X^2] - E[X]^2
- 性质:D(c) = 0,D(cX) = c^2D(X), D(-X) = D(X) (无线性性质)
协方差
- 定义:随机变量𝑿和𝒀间的协方差为𝐜𝐨𝐯(𝑿,𝒀)=𝑬[(𝑿−𝑬[𝑿])(𝒀−𝑬[𝒀])]=𝑬[𝑿𝒀]−𝑬[𝑿]⋅𝑬[𝒀]. 特别地,𝐜𝐨𝐯(𝑿,𝑿)=𝑫(𝑿).
- 𝑫(𝑿±𝒀)=𝑫(𝑿)+𝑫(𝒀)±𝟐𝐜𝐨𝐯(𝑿,𝒀) (证明)
- 性质
- cov(X, c) = 0
- cov(aX, bY) = ab·cov(X, Y)
- cov(X1+X2, Y) = cov(X1, Y) + cov(X2, Y)
- 若X与Y独立,则cov(X, Y) = 0 (反之不成立),即E[XY] = E[X]E[Y] , D(X+Y) = D(X - Y)= D(X) + D(Y)
随机变量和的方差

切比雪夫不等式(**证明***:利用马尔可夫)

- 例:抛硬币
连续型随机变量
一维连续型随机变量
分布函数
定义:F(x ) = P(X <= x)
P(x1 <= X <= x2) = F(x2) - F(x1)
性质(反之,任一有下列三个性质的函数都是某随机变量的分布函数)
单调不减(证明)
F(-∞) = 0, F(+∞) = 1
F(x) 是右连续的(左闭右开)

连续型随机变量
定义

性质
- 对任意x,p(x) > 0
- ∫(-∞,+∞) p(x)dx = 1
- F(x)是连续函数
- P(x1 <= X <= x2) = F(x2) - F(x1) = ∫(x1,x2) p(x)dx
- P(x=a) = 0
- 若p(x)在点x处连续,则F(x)’ = p(x)
连续型随机变量函数的分布计算
分布函数法

定理(绕过积分)

联合分布函数
- 定义:F(x, y) = P(X < x, Y < y) (几何意义:无穷矩形)
- 性质
- F(x,y)对每个变量单增不减
- F(-∞, y) = 0, F(0, -∞) = 0, F(-∞, -∞) = 0, F(+∞, +∞) = 1
- F(x, y)关于每个变量右连续
- 边缘分布函数: FX(x) = F(x, +∞) = P(X <= x) , FY(y) = F(+∞, y) = P(Y <= y)
随机变量的独立性
- 定义:对任意x,y, P(X<=x, Y<=y) = P(X<=x)P(Y<=y) <=> F(x, y) = FX(x)FY(y), 则随机变量X,Y相互独立
- 定理:若X, Y独立, 则f(X), g(Y)也独立
期望(绝对收敛则存在)

性质

方差、协方差:同连续型
二维连续型随机变量
定义

性质
p(x, y) >= 0
∫(-∞,+∞)∫(-∞,+∞)p(x, y)dxdy = F(+∞, +∞) = 1


边缘密度:已知联合密度p(x, y),求X, Y的密度函数


二维随机变量函数的分布:已知p(x, y), 求Z = g(X, Y)的概率密度
分布函数法

卷积公式(Z=X+Y)

不独立时

极大极小分布

二维随机变量条件分布率
二维连续型随机变量独立的条件:p(x, y) = pX(x)·pY(y)
条件分布、条件密度

乘法公式

全概率公式

典型连续型随机变量的分布
均匀分布
密度函数

分布函数

期望,方差

定理(FY(y) <= y)


指数分布
密度函数

分布函数

期望,方差

无记忆性

多个指数分布随机变量极小值的分布

正态分布
密度函数

几何特征
-

曲线在𝒙=𝝁±𝝈处有拐点
当固定𝝈,改变𝝁大小时,图形的形状不变,只是沿着横轴作平移变换
当固定𝝁,改变𝝈大小时,图形对称轴不变,但形状在改变;𝝈越小,图形越高越陡,反之图形越低越缓
分布函数

期望,方差(证明*:换元,奇函数,σ=1、μ=1的正态分布积分=1)

标准正态分布N(0,1)

性质(随机变量函数公式证明*)

一般正态分布的概率计算

独立正态分布随机变量的和

典型二维连续型随机变量分布
二维均匀分布

二维正态分布

边缘分布

独立性:X,Y独立 <=> ρ=0
协方差:cov(X,Y) = ρσ1σ2, cov(X*, Y*) = ρ
相关系数
标准化随机变量

相关系数


相关系数性质
柯西许瓦兹不等式



不相关等价定义


相关性
- 若|𝝆𝑿𝒀|=𝟏,则称𝑿,𝒀线性相关
- 𝝆𝑿𝒀=𝟏, 正相关
- 𝝆𝑿𝒀=−𝟏, 负相关
- 𝝆𝑿𝒀表示𝑿与𝒀存在线性关系的强弱程度。
- |𝝆𝑿𝒀|越大, 𝑿与𝒀线性关系越强,反之越弱
- |𝝆𝑿𝒀|=𝟎表示𝑿与𝒀不存在线性关系,称为不相关。
- 若|𝝆𝑿𝒀|=𝟏,则称𝑿,𝒀线性相关
极限理论
大数定律(研究随机变量序列的均值收敛问题)
实例:如果工件的测量值真值为𝒂,第𝒏次测量值为𝑿𝒏,则{𝑿𝒏}就是一个独立同分布,均值为𝒂的随机变量序列。当𝒏充分大时,𝒏次测量的平均值应该和真值𝒂很接近。大量测量值的算术平均值具有稳定性,这就是大数定律的反映。
依概率收敛

- 区别于数列的收敛:对于给定的ε,Yn和a的距离可能会大于或等于ε,只是当n趋向于无穷时,这个取值偏差较大的概率将趋于0
连续映射定理(依概率收敛的随机变量的函数也依概率收敛)(证明)

大数定律
定义:随机变量的平均值依概率趋向于它们数学期望的平均值.

马尔可夫大数定律(利用切比雪夫不等式)

切比雪夫大数定律(两两互不相关)

独立同分布大数定律(切比雪夫大数定律的特殊情形)

- 该定理条件𝑫(𝑿𝒌 )=𝝈^𝟐可以省去,即只需期望存在。(被称为辛钦大数定律)
伯努利大数定律(频率稳定性的严格数学定义)

中心极限定理(随机变量和的正态分布)
定义(Zn的极限分布为标准正态分布)

独立同分布情形中心极限定理(本质上∑Xk服从正态分布,从而标准化后服从标准正态分布)

- 对于独立同分布的随机变量序列{𝑿_𝒏}
- 大数定律描述了其均值(或和)在𝒏→∞的趋势
- 中心极限定理则能给出给定n与x时的具体概率近似(也可以知道概率与x,求n;或者知道概率与n,求x)
- 对于独立同分布的随机变量序列{𝑿_𝒏}
伯努利情形中心极限定理

推论(n较大时二项分布的概率计算方法)n较大时,μn~N(np, np(1-p))

用频率估计概率时误差的估计
统计量与抽样分布
基本概念
总体、个体
- 总体:研究对象的某项数量指标的值的全体。
- 个体:总体中的每个元素为个体。
- 研究对象的数量指标𝑿的取值在客观上有一定的分布,因此,可将其看做随机变量,它的分布称为总体分布。
样本
样本的二重性:
- 就一次具体观察而言,样本值是确定的数
- 在不同的抽样下,样本值会发生变化,因此可看做是随机变量
样本定义

特点
- 代表性:样本的每个分量𝑿𝒊与总体𝑿具有相同的分布
- 独立性:𝑿𝟏,𝑿𝟐,…,𝑿𝒏相互独立。
样本联合分布/密度

统计量(是随机变量)

常用统计量
样本均值

样本方差

修正样本方差

二者关系


样本标准差

样本k阶原点矩

样本k阶中心距

结论1:样本均值的均值和方差

正态总体的抽样分布
正态总体样本的线性函数的分布
定义

- 特别地,若取a=1/n,则U = X¯~N(μ,σ²/n)
标准正态分布的上α分位点


χ²分布(独立+**N(0,1)!**)
定义

性质
1、可加性:设X1
χ²(n1), X2χ²(n2),且 X1, X2相互独立,则X1+X2 ~χ²(n1+n2)2、若X~χ²(n) , 则E(X)=n, D(X)=2n. (证明)

χ²分布的上α分位点

t分布
定义(二者独立!)

t分布的上α分位点

性质

F分布
定义(独立!)

F分布的上α分位点

性质
-

-

关于正态总体抽样分布的四个定理
1、样本均值的分布(X¯~N(μ,σ²/n))

2、样本方差的分布(χ²分布)(独立*)

3、由1和2推论(t分布)

4、两正态总体,样本方差比(S1²/S2²)**(F分布)、样本均值差(X¯-Y¯)的分布(t分布)(证明***)


参数估计
点估计(构造1个统计量)
矩估计
原则:以样本矩作为总体矩的估计,从而得到参数的估计量。
矩的定义
- k阶原点矩:E[X^k]
- k阶中心距:E[(X-EX)^k]
- 期望是1阶矩,方差是2阶中心距
矩估计定义


方法
一个未知参数时(用X¯代替EX)

两个未知参数时

注意:Sn有两种形式!

结论

极大似然估计
原则:选取估计值使得观测值出现的概率最大
离散情况:似然函数


连续情况:似然函数

单参数情况求最大值:


多参数情况求最大值:

没有极值时,从似然函数本身考虑最大值
正态分布的极大似然估计量:μ = 样本均值,σ^2=样本方差
极大似然估计的不变性

估计量的评选标准
无偏性
定义

k阶样本矩一定是k阶总体矩的无偏且一致估计量

特别地

样本方差Sn^2是有偏的!(**证明***)修正样本方差S^2是无偏的!
注意

- 特别地,虽然S^2是σ^2的无偏估计量,但S不是σ的无偏估计量
有效性
多个估计量都无偏时,以方差小为好
定义:

算术均值比加权均值更有效.
一致性
无偏性与有效性都研究固定样本量的情况
一致性关注样本量n->∞的情况
定义

证明一致性的两个常用结论
k阶矩

已知是无偏估计量时

区间估计(构造两个统计量作为一个区间)
基本概念
区间估计

置信区间:[θ1^,θ2^]
置信度:1-α
说明
- 置信区间长度L反映了估计精度,L越小,估计精度越高
- α反映了估计的可靠度,α越小,1-α越大,估计的可靠度越高,但此时L往往增大,估计精度降低
- α确定后,置信区间的选取方法不唯一,常选长度最小的一个
枢轴变量法

单正态总体情形
均值μ的区间估计
已知方差,估计均值(样本均值的正态分布:定理1)



未知方差,估计均值(定理3)



未知均值,估计方差σ²(定理2)



双正态总体情形
已知方差σ1²、σ2²,估计均值差μ1-μ2(样本均值差服从正态分布)

未知均值,估计方差比(定理4(1),F分布)

单侧置信区间:只关心置信区间的上限或下限
单侧置信下限

单侧置信上限

非正态总体:均值的区间估计(大样本法)
大样本法:若样本量较大,可利用极限定理求出枢轴变量的近似分布,再求出未知参数的区间估计。

假设检验
基本概念
- 假设:假设是指施加于一个或多个总体的概率分布或参数的假设. 所作假设可以被接受或被拒绝.
- 反证法思想:为判断所作的假设能否被接受, 先假设其成立, 然后从总体中抽取样本, 根据样本的取值看是否有不合理的现象出现, 最后作出接受或拒绝所作假设的决定.
- 不合理:小概率事件在一次试验中几乎不会发生
- 本检验方法是 概率意义下的反证法,故拒绝原假设是有说服力的, 而接受原假设是没有说服力的. 因此应把希望否定的假设作为原假设
- 主要内容
- 参数检验
- 总体均值、方差的检验
- 双正态总体均值差、方差比的检验
- 非参数检验
- 拟合优度检验
- 独立性检验
- 参数检验
- 显著水平α
- 假设检验中,我们需要对小概率的说法给出统一界定,通常给出一个上限α,当一个事件发生的概率小于α,我们认为这是小概率事件。
- α常见取值 0.01, 0.05, 0.1
- 在假定 H0成立下,若根据样本提供的信息判断出某“异常”现象(发生概率p <=α)发生,则认为H0错误显著。称α为显著水平。
- 假设检验步骤
- \1. 根据实际问题,提出原假设H0和备择假设H1;
- \2. 确定检验统计量
- \3. 根据显著水平α,确定拒绝域
- \4. 由样本计算统计量值
- \5. 做出判断是否接受H0
- 两类错误
- 第一类错误: 为真时,我们仍有可能拒绝 ,此时犯了“弃真”错误
- 第二类错误: 不成立时,我们仍有可能接受 ,此时犯了“存伪”错误
正态总体均值的假设检验
单正态总体
σ²已知(正态分布检验)


σ²未知(t检验)


双正态总体
σ1²,σ2²已知,检验均值差(正态分布检验)


σ1²,σ2²未知但相等(定理4(2))

成对数据
之前均假设X与Y的独立性;现实中,X和Y可能来源于同一个总体的重复测量称为block数据)


正态总体方差的假设检验
单正态总体(μ未知,χ²分布检验,定理2)


双正态总体,检验方差比


二项分布的检验
- 对于伯努利分布中p的检验(大样本法)
总结
关于μ的检验


关于σ²的检验

双正态总体μ1=μ2的检验

双正态总体σ1=σ2的检验

Tips
- 一致性关注n趋于无穷情况,可用连续映射定理,证明一致性两个常用定理
- 样本k阶矩是总体k阶矩的一致性估计量
- 已知无偏时,方差趋于0
- 注意估计量是σ²还是σ
- 连续型随机变量的函数均值,不用求密度函数,直接积分,与离散型相同
- max与min
- P(min<10) = 1-P(min>10) = 1-P(x1>10)···P(xn>10)
- max、min的分布函数
- 多个指数分布极小值的分布
- 碰到α最好先画个图,别弄反
- 分部积分 注意正负号
- 1/θ求导时别忘了复合求导
- o.w.的情况
- 独立时,E[XY] = E[X]E[Y]而不是0
- 非正态总体区间估计:中心极限定理,服从正态分布,若方差不知道则用样本方差代替
- χ²分布的期望和方差样本均值和样本方差独立
- 求和的方差时,注意独立性!
- 正态分布:X、Y不相关(cov = 0) <=> X、Y独立
- 注意绝对值拆成两部分
- 求随机变量函数Z的密度,先看Z的取值范围
- 边缘密度的范围不应该带变量
- 泊松分布的和仍是泊松变量,或反向分解成多个泊松变量
- 独立时E[XY]=E[X]E[Y]可扩展
- 将事件A分解为等价的B交C
Probabilism_notes

