Posted 2020-12-27Updated 2021-01-26Learnan hour read (About 8964 words)

Probabilism_notes

概率论笔记

Term Review

随机事件与概率

概率论基本概念
- 随机试验
- 样本空间（集合）、样本点
- 随机事件：样本空间的子集
- 事件间的关系
  - 包含：A发发生一定导致B发生，则B包含A
  - 相等：A=B,A包含B，B包含A
  - 互斥：AB不可能同时发生，A∩B=∅
  - 对立一定互斥，互斥不一定对立
- 事件的运算
  - 并：A、B至少发生一个
  - 交：A、B同时发生
  - 差：A-B，A发生B不发生
  - 对立事件：A不发生
- 德摩根律，A-B=A-AB=AB’差变交
概率
- 公理化定义
  - 非负性
  - 规范性
  - 可列可加性（互不相容时）
- 性质
  - P(A-B) = P(A) - P(AB)
  - 若A⊂B,则P(A)≤P(B)
  - P(A⋃B)=P(A)+P(B)-P(AB)
  - 𝑷(𝑨⋃𝑩⋃𝑪)=𝑷(𝑨)+𝑷(𝑩)+𝑷(𝑪)−𝑷(𝑨𝑩)−𝑷(𝑨𝑪)−𝑷(𝑩𝑪)+𝑷(𝑨𝑩𝑪)，推广
  - Boole不等式: (Union Bound) (非互不相容的事件集) 两种方法证明
古典概型
- 特点：样本空间的元素只有有限个; 每个样本点发生的可能性相同
- 定义：P(A)=A包含样本点数/Ω包含样本点数=(|A|)/(|Ω|)
- 典型例题
  - 男n女m，围成一圈，女生互不相邻的概率？
  - 抽签原理
  - 随机取数（乘积能被10整除）：分解成两个事件的交——至少一个偶数，至少一个5
  - 取铆钉：利用互斥性
几何概型
- 特点：样本空间无限性；等可能性
- 定义：𝑷(𝑨)=𝑨的几何测度/𝛀的几何测度=(𝝁(𝑨))/(𝝁(𝛀))
- 典型例题
  - 约会问题：0<=x, y<=60, |x-y| <= 15, 面积
  - 蒲丰投针
条件概率
- 定义：𝑷(𝑨│𝑩)=𝑷(𝑨𝑩)/𝑷(𝑩)
- 本质：缩减的样本空间
- 乘法公式：
  - 𝑷(𝑨𝑩)=𝑷(𝑨)𝑷(𝑩|𝑨)， 𝑷(𝑨𝑩)=𝑷(𝑩)𝑷(𝑨|𝑩)，
  - 推广到多个事件：若𝑷(𝑨𝟏 𝑨𝟐⋯𝑨(𝒏−𝟏) )>𝟎，则𝑷(𝑨𝟏 𝑨𝟐⋯𝑨𝒏 )=𝑷(𝑨𝟏 )𝑷(𝑨𝟐│𝑨𝟏 )⋯𝑷(𝑨𝒏 |𝑨𝟏 𝑨𝟐⋯𝑨(𝒏−𝟏)）
- 全概率公式（求结果发生的概率（即求𝑷(𝑩))）
  - 应用：推迟决定原则
- 贝叶斯公式：（已知事件𝑩发生，求𝑩由第𝒊个原因引起的概率（即求𝑷(𝑨𝒊 |𝑩)））
  - 应用：患肝癌概率，三囚犯问题，三门问题
独立性： P(AB) = P(A)P(B)
- 性质：P(B|A) = P(B), 概率为0或1的事件与任意事件独立，A,A’与B,B’都相互独立
- 独立与互不相容的关系：（P(A)、P(B)均大于0）若A、B相互独立，则不可能互不相容; 若A、B互不相容，则不可能相互独立（P(A)P(B) > 0）
- n个事件的独立性：n个事件独立 =>其中任意k个事件独立，反之不成立
- 分组独立性：
- 独立事件至少发生一次的概率：
  - 应用：系统可靠性，矩阵乘法验证

离散型随机变量

随机变量
- 定义：把𝛀中的每一个样本点𝝎与一个实数𝑿(𝝎)相对应，称实值函数𝑿:𝛀→𝑹为随机变量，随机变量在某范围的取值表示随机事件
Y = g(X)的分布：合并相同项
二维离散型随机变量(X, Y)
- 联合分布律：𝒑𝒊𝒋=𝑷(𝑿=𝒙𝒊,𝒀=𝒚𝒋 )（列表）
- 边缘分布律：P{X = xi} = Pi·, P(Y = yj) = P·j
- 两个离散型随机变量的独立性：对所有x, y, 𝑷(𝑿=𝒙,𝒀=𝒚)=𝑷(𝑿=𝒙)𝑷(𝒀=𝒚), 则X, Y独立
- 推广：多个离散型随机变量的独立性：对任意取值的x1, …, xn, P(X1=x1, …, Xn = xn) = P(X1 = x1)…P(Xn = xn) (只要一个公式)
期望
- 定义
- 有4个盒子，编号为1,2,3,4。现将3个球随机放入4只盒子。用𝑿表示有球盒子的最小号码，求𝑬(𝑿).
- 随机变量函数的期望：
- 期望的线性性质：（**如何证明***）（不依赖于独立性）
  - 例：猴子打字
- 一般E(f(x)) != f(E(x)), 如E[x^2] >= E[x] ^2
- Jensen不等式：设f为下凸函数，则E[f(x)] >= f(E[x])
几个典型的离散型随机变量
- 0-1分布（伯努利试验）：随机试验只有两个结果：A与A’，A发生则X=1，否则X=0，X为指示变量
  - 期望：E[X] = p
  - 方差：D(X) = p(1-p)
- 二项分布（n重伯努利试验, 每次实验结果相互独立， X为n次试验中A发生的次数）：
  - 定义：记为X~B(n, p)
  - 期望：E(x) = np（证明：公式* / 期望的线性性质）
    - 二项式定理：
  - 方差：D(X) = np(1-p) (由0-1分布方差相加而来)
  - 二项分布的最大值（**解法***）：(n+1)p-1<=k0<=(n+1)p (np附近)
  - 泊松近似公式：(n>=20, p <= 0.1)时，P(X = k)近似于
- 泊松分布（大量实验中稀有事件出现的次数， λ意义：事件的平均发生次数）
  - 定义：（验证*）
  - 期望：E(X) = λ（证明*）
  - 方差：D(X) = λ （**证明***）
  - 泊松变量的和：仍是泊松变量：若𝑿∼𝑷(𝝀𝟏)，𝒀~~𝑷(𝝀𝟐)且𝑿,𝒀独立，则𝑿+𝒀~~𝑷(𝝀𝟏+𝝀𝟐)（证明*！）
  - 例：昆虫卵的分布*（条件概率+全概率公式）
- 几何分布（多重伯努利试验，不断重复直至A发生所需次数）
  - 定义：
  - 无记忆性（证明*， P(X>t) = q^t）：假设已经经历了𝒏次失败，则从当前起直至成功所需次数与𝒏无关。严格地，设𝑿~𝑮(𝒑)，则对于任意自然数𝒔,𝒕有𝑷(𝑿>𝒔+𝒕│𝑿>𝒔)=𝑷(𝑿>𝒕)，等价地，𝑷(𝑿=𝒔+𝒕│𝑿>𝒔)=𝑷(𝑿=𝒕)
  - 期望：E(x) = 1/p(三种证明方法*：定义(注意求导、负号) / 定理 / 条件期望)
  - 方差：D(x) = (1-p)/p^2 (证明*：两种算E[X^2]方法: 定义（求导、错位相减） / 条件期望+无记忆性)
  - 典型例题：票券收集问题（调和级数H(n) = lnn+θ(1)），快速排序比较次数X的期望
条件期望（常结合无记忆性）
- 条件分布(某事件A发生的条件下X的分布)：P(X = x | A)
- 条件期望
- 全期望公式（**证明***）
  - 应用：证明几何分布的期望（按第一次事件是否发生分情况，利用无记忆性）
- 条件期望定义的随机变量：f(Y) = E[X|Y] -> Y的函数构成的随机变量
  - 性质：E[E[X|Y]] = E[X](**证明*, 用全期望公式**)
  - 应用：分支过程（递归式）
方差
- 马尔可夫不等式（**证明*,引入变量I<=x/a**）只知道期望，且取值非负时使用，P(X>=cE[x]) <= 1/c
- 方差（反应数据的离散程度）
  - 定义：D(X) = E[(X-E[X])^2]
  - 简便计算：D(X) = E[X^2] - E[X]^2
  - 性质：D(c) = 0,D(cX) = c^2D(X), D(-X) = D(X) (无线性性质)
- 协方差
  - 定义：随机变量𝑿和𝒀间的协方差为𝐜𝐨𝐯(𝑿,𝒀)=𝑬[(𝑿−𝑬[𝑿])(𝒀−𝑬[𝒀])]=𝑬[𝑿𝒀]−𝑬[𝑿]⋅𝑬[𝒀]. 特别地，𝐜𝐨𝐯(𝑿,𝑿)=𝑫(𝑿).
  - 𝑫(𝑿±𝒀)=𝑫(𝑿)+𝑫(𝒀)±𝟐𝐜𝐨𝐯(𝑿,𝒀) （证明）
  - 性质
    - cov(X, c) = 0
    - cov(aX, bY) = ab·cov(X, Y)
    - cov(X1+X2, Y) = cov(X1, Y) + cov(X2, Y)
    - 若X与Y独立，则cov(X, Y) = 0 (反之不成立),即E[XY] = E[X]E[Y] , D(X+Y) = D(X - Y)= D(X) + D(Y)
- 随机变量和的方差
- 切比雪夫不等式（**证明***：利用马尔可夫）
  - 例：抛硬币

连续型随机变量

一维连续型随机变量
- 分布函数
  - 定义：F(x ) = P(X <= x)
  - P(x1 <= X <= x2) = F(x2) - F(x1)
  - 性质（反之，任一有下列三个性质的函数都是某随机变量的分布函数）
    - 单调不减（证明）
    - F(-∞) = 0， F(+∞) = 1
    - F(x) 是右连续的（左闭右开）
- 连续型随机变量
  - 定义
  - 性质
    - 对任意x，p(x) > 0
    - ∫(-∞,+∞) p(x)dx = 1
    - F(x)是连续函数
    - P(x1 <= X <= x2) = F(x2) - F(x1) = ∫(x1,x2) p(x)dx
    - P(x=a) = 0
    - 若p(x)在点x处连续，则F(x)’ = p(x)
- 连续型随机变量函数的分布计算
  - 分布函数法
  - 定理（绕过积分）
- 联合分布函数
  - 定义：F(x, y) = P(X < x, Y < y) (几何意义：无穷矩形)
  - 性质
    - F(x,y)对每个变量单增不减
    - F(-∞, y) = 0, F(0, -∞) = 0, F(-∞, -∞) = 0, F(+∞, +∞) = 1
    - F(x, y)关于每个变量右连续
    - 边缘分布函数： FX(x) = F(x, +∞) = P(X <= x) , FY(y) = F(+∞, y) = P(Y <= y)
- 随机变量的独立性
  - 定义：对任意x,y, P(X<=x, Y<=y) = P(X<=x)P(Y<=y) <=> F(x, y) = FX(x)FY(y), 则随机变量X,Y相互独立
  - 定理：若X, Y独立，则f(X), g(Y)也独立
- 期望（绝对收敛则存在）
  - 性质
- 方差、协方差：同连续型
二维连续型随机变量
- 定义
- 性质
  - p(x, y) >= 0
  - ∫(-∞,+∞)∫(-∞,+∞)p(x, y)dxdy = F(+∞, +∞) = 1
- 边缘密度：已知联合密度p(x, y)，求X, Y的密度函数
- 二维随机变量函数的分布：已知p(x, y), 求Z = g(X, Y)的概率密度
  - 分布函数法
  - 卷积公式(Z=X+Y)
    - 不独立时
  - 极大极小分布
- 二维随机变量条件分布率
  - 二维连续型随机变量独立的条件：p(x, y) = pX(x)·pY(y)
  - 条件分布、条件密度
  - 乘法公式
  - 全概率公式
典型连续型随机变量的分布
- 均匀分布
  - 密度函数
  - 分布函数
  - 期望，方差
  - 定理(FY(y) <= y)
- 指数分布
  - 密度函数
  - 分布函数
  - 期望，方差
  - 无记忆性
  - 多个指数分布随机变量极小值的分布
- 正态分布
  - 密度函数
  - 几何特征
    
    -
    - 曲线在𝒙=𝝁±𝝈处有拐点
    - 当固定𝝈,改变𝝁大小时，图形的形状不变，只是沿着横轴作平移变换
    - 当固定𝝁,改变𝝈大小时，图形对称轴不变，但形状在改变；𝝈越小，图形越高越陡，反之图形越低越缓
  - 分布函数
  - 期望，方差（证明*：换元，奇函数，σ=1、μ=1的正态分布积分=1）
  - 标准正态分布N(0,1)
  - 性质（随机变量函数公式证明*）
  - 一般正态分布的概率计算
  - 独立正态分布随机变量的和
典型二维连续型随机变量分布
- 二维均匀分布
- 二维正态分布
  - 边缘分布
  - 独立性：X,Y独立 <=> ρ=0
  - 协方差：cov(X,Y) = ρσ1σ2， cov(X*, Y*) = ρ
相关系数
- 标准化随机变量
- 相关系数
- 相关系数性质
  - 柯西许瓦兹不等式
- 不相关等价定义
- 相关性
  - 若|𝝆𝑿𝒀|=𝟏，则称𝑿,𝒀线性相关
    - 𝝆𝑿𝒀=𝟏, 正相关
    - 𝝆𝑿𝒀=−𝟏, 负相关
  - 𝝆𝑿𝒀表示𝑿与𝒀存在线性关系的强弱程度。
    - |𝝆𝑿𝒀|越大， 𝑿与𝒀线性关系越强，反之越弱
    - |𝝆𝑿𝒀|=𝟎表示𝑿与𝒀不存在线性关系，称为不相关。

极限理论

大数定律（研究随机变量序列的均值收敛问题）
- 实例：如果工件的测量值真值为𝒂，第𝒏次测量值为𝑿𝒏,则{𝑿𝒏}就是一个独立同分布，均值为𝒂的随机变量序列。当𝒏充分大时，𝒏次测量的平均值应该和真值𝒂很接近。大量测量值的算术平均值具有稳定性，这就是大数定律的反映。
- 依概率收敛
  - 区别于数列的收敛：对于给定的ε，Yn和a的距离可能会大于或等于ε，只是当n趋向于无穷时，这个取值偏差较大的概率将趋于0
- 连续映射定理（依概率收敛的随机变量的函数也依概率收敛）（证明）
- 大数定律
  - 定义：随机变量的平均值依概率趋向于它们数学期望的平均值.
  - 马尔可夫大数定律（利用切比雪夫不等式）
  - 切比雪夫大数定律（两两互不相关）
  - 独立同分布大数定律（切比雪夫大数定律的特殊情形）
    - 该定理条件𝑫(𝑿𝒌 )=𝝈^𝟐可以省去，即只需期望存在。（被称为辛钦大数定律）
  - 伯努利大数定律（频率稳定性的严格数学定义）
中心极限定理（随机变量和的正态分布）
- 定义（Zn的极限分布为标准正态分布）
- 独立同分布情形中心极限定理（本质上∑Xk服从正态分布，从而标准化后服从标准正态分布）
  - 对于独立同分布的随机变量序列{𝑿_𝒏}
    - 大数定律描述了其均值（或和）在𝒏→∞的趋势
    - 中心极限定理则能给出给定n与x时的具体概率近似(也可以知道概率与x，求n；或者知道概率与n，求x)
- 伯努利情形中心极限定理
  - 推论（n较大时二项分布的概率计算方法）n较大时，μn~N(np, np(1-p))
  - 用频率估计概率时误差的估计

统计量与抽样分布

基本概念
- 总体、个体
  - 总体：研究对象的某项数量指标的值的全体。
  - 个体：总体中的每个元素为个体。
  - 研究对象的数量指标𝑿的取值在客观上有一定的分布，因此，可将其看做随机变量，它的分布称为总体分布。
- 样本
  - 样本的二重性：
    - 就一次具体观察而言，样本值是确定的数
    - 在不同的抽样下，样本值会发生变化，因此可看做是随机变量
  - 样本定义
  - 特点
    - 代表性：样本的每个分量𝑿𝒊与总体𝑿具有相同的分布
    - 独立性：𝑿𝟏,𝑿𝟐,…,𝑿𝒏相互独立。
  - 样本联合分布/密度
- 统计量（是随机变量）
  - 常用统计量
    - 样本均值
    - 样本方差
    - 修正样本方差
      - 二者关系
    - 样本标准差
    - 样本k阶原点矩
    - 样本k阶中心距
- 结论1：样本均值的均值和方差
正态总体的抽样分布
- 正态总体样本的线性函数的分布
  - 定义
    - 特别地，若取a=1/n，则U = X¯~N(μ，σ²/n)
  - 标准正态分布的上α分位点
- χ²分布（独立+**N(0,1)!**）
  - 定义
  - 性质
    - 1、可加性：设X1~~χ²(n1), X2~~χ²(n2),且 X1, X2相互独立，则X1+X2 ~χ²(n1+n2)
    - 2、若X~χ²(n) , 则E(X)=n, D(X)=2n. (证明)
  - χ²分布的上α分位点
- t分布
  - 定义（二者独立！）
  - t分布的上α分位点
    - 性质
- F分布
  - 定义（独立！）
  - F分布的上α分位点
  - 性质
    
    -
    
    -
关于正态总体抽样分布的四个定理
- 1、样本均值的分布（X¯~N(μ，σ²/n)）
- 2、样本方差的分布（χ²分布）（独立*）
- 3、由1和2推论（t分布）
- 4、两正态总体，样本方差比(S1²/S2²)**(F分布)、样本均值差(X¯-Y¯)的分布(t分布)（证明***）

参数估计

点估计（构造1个统计量）
- 矩估计
  - 原则：以样本矩作为总体矩的估计，从而得到参数的估计量。
  - 矩的定义
    - k阶原点矩：E[X^k]
    - k阶中心距：E[(X-EX)^k]
    - 期望是1阶矩，方差是2阶中心距
  - 矩估计定义
  - 方法
    - 一个未知参数时（用X¯代替EX）
    - 两个未知参数时
    - 注意：Sn有两种形式！
    - 结论
- 极大似然估计
  - 原则：选取估计值使得观测值出现的概率最大
  - 离散情况：似然函数
  - 连续情况：似然函数
  - 单参数情况求最大值：
  - 多参数情况求最大值：
  - 没有极值时，从似然函数本身考虑最大值
  - 正态分布的极大似然估计量：μ = 样本均值，σ^2=样本方差
  - 极大似然估计的不变性
估计量的评选标准
- 无偏性
  - 定义
  - k阶样本矩一定是k阶总体矩的无偏且一致估计量
    - 特别地
  - 样本方差Sn^2是有偏的！（**证明***）修正样本方差S^2是无偏的！
  - 注意
    - 特别地，虽然S^2是σ^2的无偏估计量，但S不是σ的无偏估计量
- 有效性
  - 多个估计量都无偏时，以方差小为好
  - 定义：
  - 算术均值比加权均值更有效.
- 一致性
  - 无偏性与有效性都研究固定样本量的情况
  - 一致性关注样本量n->∞的情况
  - 定义
  - 证明一致性的两个常用结论
    - k阶矩
    - 已知是无偏估计量时
区间估计（构造两个统计量作为一个区间）
- 基本概念
  - 区间估计
  - 置信区间：[θ1^,θ2^]
  - 置信度：1-α
  - 说明
    - 置信区间长度L反映了估计精度，L越小，估计精度越高
    - α反映了估计的可靠度，α越小，1-α越大，估计的可靠度越高，但此时L往往增大，估计精度降低
    - α确定后，置信区间的选取方法不唯一，常选长度最小的一个
- 枢轴变量法
- 单正态总体情形
  - 均值μ的区间估计
    - 已知方差，估计均值（样本均值的正态分布：定理1）
    - 未知方差，估计均值（定理3）
  - 未知均值，估计方差σ²（定理2）
- 双正态总体情形
  - 已知方差σ1²、σ2²，估计均值差μ1-μ2（样本均值差服从正态分布）
  - 未知均值，估计方差比（定理4(1),F分布）
- 单侧置信区间：只关心置信区间的上限或下限
  - 单侧置信下限
  - 单侧置信上限
- 非正态总体：均值的区间估计（大样本法）
  - 大样本法：若样本量较大，可利用极限定理求出枢轴变量的近似分布，再求出未知参数的区间估计。

假设检验

基本概念
- 假设：假设是指施加于一个或多个总体的概率分布或参数的假设. 所作假设可以被接受或被拒绝.
- 反证法思想：为判断所作的假设能否被接受, 先假设其成立, 然后从总体中抽取样本, 根据样本的取值看是否有不合理的现象出现, 最后作出接受或拒绝所作假设的决定.
- 不合理：小概率事件在一次试验中几乎不会发生
- 本检验方法是概率意义下的反证法，故拒绝原假设是有说服力的, 而接受原假设是没有说服力的. 因此应把希望否定的假设作为原假设
- 主要内容
  - 参数检验
    - 总体均值、方差的检验
    - 双正态总体均值差、方差比的检验
  - 非参数检验
    - 拟合优度检验
    - 独立性检验
- 显著水平α
  - 假设检验中，我们需要对小概率的说法给出统一界定，通常给出一个上限α，当一个事件发生的概率小于α，我们认为这是小概率事件。
  - α常见取值 0.01, 0.05, 0.1
  - 在假定 H0成立下，若根据样本提供的信息判断出某“异常”现象(发生概率p <=α)发生，则认为H0错误显著。称α为显著水平。
- 假设检验步骤
  - \1. 根据实际问题，提出原假设H0和备择假设H1；
  - \2. 确定检验统计量
  - \3. 根据显著水平α，确定拒绝域
  - \4. 由样本计算统计量值
  - \5. 做出判断是否接受H0
- 两类错误
  - 第一类错误：为真时，我们仍有可能拒绝，此时犯了“弃真”错误
  - 第二类错误：不成立时，我们仍有可能接受，此时犯了“存伪”错误
正态总体均值的假设检验
- 单正态总体
  - σ²已知（正态分布检验）
  - σ²未知（t检验）
- 双正态总体
  - σ1²,σ2²已知，检验均值差（正态分布检验）
  - σ1²,σ2²未知但相等（定理4(2)）
  - 成对数据
    - 之前均假设X与Y的独立性；现实中，X和Y可能来源于同一个总体的重复测量称为block数据)
正态总体方差的假设检验
- 单正态总体（μ未知，χ²分布检验，定理2）
- 双正态总体，检验方差比
二项分布的检验
- 对于伯努利分布中p的检验（大样本法）
总结
- 关于μ的检验
- 关于σ²的检验
- 双正态总体μ1=μ2的检验
- 双正态总体σ1=σ2的检验

Tips

一致性关注n趋于无穷情况，可用连续映射定理，证明一致性两个常用定理
- 样本k阶矩是总体k阶矩的一致性估计量
- 已知无偏时，方差趋于0
注意估计量是σ²还是σ
连续型随机变量的函数均值，不用求密度函数，直接积分，与离散型相同
max与min
- P(min<10) = 1-P(min>10) = 1-P(x1>10)···P(xn>10)
- max、min的分布函数
- 多个指数分布极小值的分布
碰到α最好先画个图，别弄反
分部积分注意正负号
1/θ求导时别忘了复合求导
o.w.的情况
独立时，E[XY] = E[X]E[Y]而不是0
非正态总体区间估计：中心极限定理，服从正态分布，若方差不知道则用样本方差代替
χ²分布的期望和方差样本均值和样本方差独立
求和的方差时，注意独立性！
正态分布：X、Y不相关（cov = 0） <=> X、Y独立
注意绝对值拆成两部分
求随机变量函数Z的密度，先看Z的取值范围
边缘密度的范围不应该带变量
泊松分布的和仍是泊松变量，或反向分解成多个泊松变量
独立时E[XY]=E[X]E[Y]可扩展
将事件A分解为等价的B交C

Probabilism_notes

http://example.com/2020/12/27/Probabilism_notes/

Author

苒

Posted on

2020-12-27

Updated on

2021-01-26

Licensed under

#Probabilism

Probabilism_notes

随机事件与概率

离散型随机变量

连续型随机变量

极限理论

统计量与抽样分布

参数估计

假设检验

Tips

Author

Posted on

Updated on

Licensed under

Like this article? Support the author with

Catalogue