• 概率论与数理统计 公式

    这里将重点放在公式本身,一些不太重要的条件会忽略掉.

    杂七杂八

    Γ 函数

    借助 Γ 函数计算与正态分布有关的矩:

    0+xαeβx2 dx=Γ((α+1)/2)2β(α+1)/2,

    α>1,β>0.

    含参变量积分的可微性

    dduabf(x,u) dx=abf(x,u)u dx,ddua(u)b(u)f(x,u) dx=a(u)b(u)f(x,u)u dx+f(b(u),u)b(u)f(a(u),u)a(u).

    特别,

    ddya(y)b(y)f(x) dx=f(b(y))b(y)f(a(y))a(y).

    此时也可以从另一个角度考虑:

    ddya(y)b(y)f(x) dx=ddy(F(b(y))F(a(y)))=f(b(y))b(y)f(a(y))a(y).

    事件及其概率

    条件概率

    定义:

    P(A|B)=P(AB)P(B).

    乘法公式:

    P(AB)=P(A)P(B|A).

    全概率公式:

    P(A)=i=1nP(A|Bi)P(Bi),

    其中 B1,B2,,Bn 是样本空间 Ω 的一个划分.


    贝叶斯公式:

    P(Bi|A)=P(BiA)P(A)=P(A|Bi)P(Bi)j=1nP(A|Bj)P(Bj);

    特别,

    P(B|A)=P(A|B)P(B)P(A|B)P(B)+P(A|B)P(B).

    随机变量及其分布

    离散型随机变量的分布

    两点分布(伯努利分布)

    P(X=x)=px(1p)1x, x=0  1.

    离散均匀分布

    P(X=xk)=1n, k=1,2,,n.

    超几何分布

    XH(N,M,n)N 条鱼、M 条被标记、捞 n 条鱼,

    P(X=m)=CMmCNMnmCNn, m=0,1,,n.

    二项分布

    XB(n,p)

    P(X=k)=Cnkpk(1p)nk, k=0,1,,n.

    负二项分布

    负二项分布(帕斯卡分布)

    XNB(r,p)

    P(Xr=k)=Ck1r1prqkr, k=r,r+1,.
    几何分布

    r=1X1Ge(p)

    P(X1=k)=qk1p, k=1,2,.

    几何分布有无记忆性,

    P(X>m+n|X>m)=P(X>n).

    泊松分布

    定义:XP(λ)

    P(X=k)=eλλkk!, k=0,1,, λ>0.

    泊松逼近定理:

    XnB(n,pn)n,npnλ>0

    limnP(Xn=k)=λkk!eλ, k=0,1,2,.

    实际应用n30npn5 时即可应用;当 n100 时,npn10 情况下仍有较高的精度.

    连续型随机变量的分布

    均匀分布

    XU(a,b)

    f(x)=1baI(a,b)(x),
    F(x)={0,xa,xaba,a<x<b,1,xb.

    指数分布

    XExp(λ)

    f(x)=λeλxI(0,+)(x),
    F(x)={1eλx,x>0,0,x0.

    指数分布有无记忆性

    P(X>s+t|X>t)=P(X>s).

    一个非负连续型随机变量,如果具有无记忆性,那么其分布必为指数分布.

    正态分布

    XN(μ,σ2)

    f(x)=12πσexp{(xμ)22σ2}, xR;

    XN(0,1)

    φ(x)=12πex22,
    Φ(x)=xφ(u) du=12πxeu22 du.

    image-20230323080227030

    标准化变换:XN(μ,σ2)XμσN(0,1)

    F(x)=Φ(xμσ).

    随机变量函数的分布

    离散型随机变量函数的分布

    略.

    连续型随机变量函数的分布

    定义:Xf(x),Y=g(X)

    F1(y)=P(Yy)=P(g(X)y)=g(x)yf(x) dx.

    密度函数变换公式:

    g(x) 严格单调且反函数可导,

    f1(y)=f(h(y))|h(y)|I(α,β)(y),

    其中 h(y)g(x) 的反函数,α=min{g(),g(+)}β=max{g(),g(+)}.

    g 逐段单调,

    f1(y)=jf(hj(y))|hj(y)|Ij(y).

    多维随机变量及其分布

    边缘分布

    略.

    条件分布

    定义:

    fX|Y(x|y)=f(x,y)f2(y),
    fY|X(y|x)=f(x,y)f1(x).

    乘法公式:

    f(x,y)=fY|X(y|x)f1(x)=fX|Y(x|y)f2(y).

    贝叶斯公式:

    fY|X(y|x)=f(x,y)f1(x)=fX|Y(x|y)f2(y)f1(x),fX|Y(x|y)=f(x,y)f2(y)=fY|X(y|x)f1(x)f2(y).

    随机向量函数的分布

    (X,Y)f(x,y)

    注意:当随机变量 X,Y 相互独立时,有 f(x,y)=f1(x)f2(y)​,计算会方便进行.


    独立随机变量的和:

    设随机变量 X,Y 相互独立,分别具有概率密度函数 f1(x),f2(y),考虑 Z=X+Y

    FZ(z)=+f1(x)zxf2(y) dydx,
    fZ(z)=+f1(x)f2(zx) dx=+f2(y)f1(zy) dyf1f2(z).

    指数分布随机变量的和(Γ 分布)与差(拉普拉斯分布):


    正态分布随机变量的和:

    XY 互相独立,分别服从 N(μ1,σ12)N(μ2,σ22),则 Z=X+YN(μ1+μ2,σ12+σ22).

    正态分布 N(μ,σ2) 对参数 μ,σ2 具有再生性.


    独立随机变量商的分布:

    XY 相互独立,Xf1(x)Yf2(y)U=XY

    fU(u)=+|v|f1(uv)f2(v) dv.

    其中 U=XY,V=Y.

    特别,X,Y i.i.d.N(0,σ2)Z=XY,则

    fZ(z)=1π(1+z2),

    该分布称为柯西分布,即独立同正态分布随机变量的商服从柯西分布.


    相互独立随机变量变量最大值和最小值的分布:

    XY 相互独立,XF1(x)YF2(y),求 max{X,Y}min{X,Y} 的分布.

    随机变量的数字特征和极限定理

    数学期望

    数学期望

    定义:

    E(X)=+x dF(x)=+xf(x) dx.

    性质:

    条件数学期望

    定义:

    E(Y|X=x)=+yfY|X(y|x) dy.

    条件期望的平滑公式(全期望公式):

    E(E(Y|X))=E(h(X))=E(Y).

    方差

    方差和标准差的定义:

    σ2=Var(X)E[(Xμ)2],σ=Var(X).

    方差的性质:


    马尔可夫不等式

    P(Yε)E(Y)ε.

    切比雪夫不等式

    P(|Xμ|ε)Var(X)ε2.

    若干分布的期望和方差总结

    01 分布

    XB(1,p)

    P(X=x)=px(1p)1x, x=0  1,
    E(X)=p,
    Var(X)=p(1p)=pq.

    离散均匀分布

    P(X=xk)=1n, k=1,2,,n,

    意义不大.

    超几何分布

    XH(N,M,n)

    P(X=m)=CMmCNMnmCNn, m=0,1,,n,
    E(X)=MnN=MNn,

    二项分布

    XB(n,p)

    P(X=k)=Cnkpk(1p)nk, k=0,1,,n,
    E(X)=np,
    Var(X)=np(1p)=npq.

    负二项分布

    XNB(r,p)

    P(Xr=k)=Ck1r1prqkr, k=r,r+1,,
    E(X)=rp.

    特别,对几何分布 X1Ge(p)

    P(X1=k)=qk1p, k=1,2,,
    E(X)=1p.

    负二项分布的期望可以借助几何分布的期望,由期望的线性性得到;直接计算则相对麻烦.

    泊松分布

    XP(λ)

    P(X=k)=eλλkk!, k=0,1,, λ>0,
    E(X)=λ,
    Var(X)=λ.

    均匀分布

    XU(a,b)

    f(x)=1baI(a,b)(x),
    E(X)=a+b2,
    Var(X)=(ba)212.

    指数分布

    XExp(λ)

    f(x)=λeλxI(0,+)(x),
    E(X)=1λ,
    Var(X)=1λ2.

    正态分布

    XN(μ,σ2)

    f(x)=12πσexp{(xμ)22σ2}, xR,
    E(X)=μ,
    Var(X)=σ2.

    定义:

    协方差

    定义:

    Cov(X,Y)=E[(XE(X))(YE(Y))].

    性质:

    相关系数

    定义:

    ρX,Y=Cov(XE(X)Var(X),YE(Y)Var(Y))=Cov(X,Y)Var(X)Var(Y).

    |ρ|1,等号成立的充要条件是随机变量之间有严格的线性关系.


    有关正态分布随机变量的结论:


    对任何非退化的随机变量 X,Y 存在方差,如下四个命题相互等价:

    定义:

    大数定律

    依概率收敛:

    X1,X2,,Xn, 是一随机变量序列,X 为随机变量,如果 ε>0,有

    limnP(|XnX|ε)=0,

    那么称随机变量序列 {Xn} 依概率收敛于随机变量 X,记为 XnN, in PXnPX​.


    (弱)大数定律:i.i.d. 随机变量序列的前 n 项部分和的平均 依概率收敛于 公共期望 μ,即

    SnnPμ,n.

    伯努利大数定律:

    {Xk} 为独立的 01 分布随机变量序列,则

    1nk=1nXkPp,n.

    中心极限定理

    依分布收敛:

    X1,X2,,Xn, 为一列实值随机变量,X 为随机变量,FnF 分别为随机变量 XnX 的分布函数. 如果对 F 的所有连续点 xR

    limnFn(x)=F(x),

    那么称 {Fn} 弱收敛于 F,也称 {Xn} 依分布收敛于 X,常记为 XnLXXndX​.


    林德伯格-莱维中心极限定理:

    X1,X2,,Xn, 是一列 i.i.d. 随机变量序列,记它们相同的期望和方差分别为 μ,σ2,则部分和 Sn 标准化后的分布函数近似于标准正态分布函数,即

    n(Xμ)σLN(0,1),

    其中 X=Snn.


    棣莫弗-拉普拉斯中心极限定理:

    X1,X2,,Xn, 是一列 i.i.d. 随机变量序列,Sn=i=1nXi,0<p<1,XiB(1,p),则  xR,有

    limnP(Snnpnp(1p)x)=Φ(x).

    SnB(n,p),因而棣莫弗-拉普拉斯中心极限定理告诉我们可以用正态分布来近似二项分布,即

    统计学基本概念

    基本概念

    X1,X2,,Xn 是从某总体 X 中抽取的一个简单样本,则常见的统计量包括:

    抽样分布

    χ2 分布

    定义:

    设样本 (X1,X2,,Xn) 为来自标准正态总体的一个简单随机样本,

    X=X12+X22++Xn2,

    Xχn2.

    image-20230608091827422image-20230608091846232

    性质:

    E(X)=n,Var(X)=2n.

    t 分布

    定义:

    XN(0,1),Yχn2,且 X,Y 相互独立,

    T=XY/n,

    Ttn.

    image-20230608161139218

    性质:

    F 分布

    定义:

    Xχm2,Yχn2,且 X,Y 相互独立,

    F=X/mY/n,

    FFm,n.


    性质:

    其它

    设随机变量 X1,X2,,Xn i.i.d.N(μ,σ2)c1,c2,,cn 是不全为零的常数,则有


    X1,X2,,Xn i.i.d. 服从指数分布

    f(x,λ)=λeλxI(0,+)(x),

    则有

    2λnX=2λi=1nXiχ2n2.

    参数点估计

    矩估计法

    αj=αj(θ1,θ2,,θk)aj=1ni=1nXij,μj=μj(θ1,θ2,,θk)mj=1ni=1n(XiX)j.

    结论:

    最大似然估计

    L(θ1,θ2,,θk;x1,x2,,xn)=max(θ1,θ2,,θk)ΘL(θ1,θ2,,θk;x1,x2,,xn).

    结论:

    优良性准则

    点估计的无偏性

    定义:

    g^(X1,X2,,Xn)g(θ1,θ2,,θk) 的一个估计量,称

    Eθ(g^(X1,X2,,Xn))g(θ1,θ2,,θk)

    为估计量 g^ 的偏差. 若对任一可能的 (θ1,θ2,,θk)Θ,都有

    Eθ1,θ2,,θk(g^(X1,X2,,Xn))=g(θ1,θ2,,θk),

    则称 g^g(θ1,θ2,,θk) 的一个无偏估计量.


    结论:

    最小方差无偏估计

    有效性的定义:

    θ^1,θ^2 都是总体参数 θ 的无偏估计,方差存在,若

    Varθ(θ^1)Varθ(θ^2),θΘ,

    且至少存在一个 θ 使上式不等号成立,则称 θ^1θ^2 更有效.

    点估计量的大样本理论

    相合性

    θ^(X1,X2,,Xn) 是参数 θ 的一个点估计,若当样本量 n 时有

    θ^(X1,X2,,Xn)Pθ,

    则称 θ^(X1,X2,,Xn)θ 的一个(弱)相合估计量.

    (依概率收敛的定义见大数定律一节.)

    渐进正态性

    θ^(X1,X2,,Xn) 是参数 θ 的一个点估计,设它的方差存在,记

    Varθ(θ^(X1,X2,,Xn))=σn2(θ),

    若当样本量 n 时有

    limnP(θ^(X1,X2,,Xn)θσn(θ)x)=Φ(x),xR,

    则称估计量 θ^(X1,X2,,Xn) 有渐进正态性.

    区间估计

    枢轴变量法

    方法

    设感兴趣的参数为 θ.

    (1) 找一个 θ 的良好点估计 T(X),一般为 θ 的最大似然估计.

    (2) 构造一个函数 S(T,U,θ),称为枢轴变量,其中 U=U(X) 为统计量,使得它的分布 F 已知,注意枢轴变量仅是 T,U,θ 的函数,不能包含其他未知参数.

    (3) 枢轴变量必须满足如下条件:a<b,不等式 aS(T,U,θ)b 能改写为等价形式 AθB,其中 A,B 只能与 T,U,a,b 有关,与 θ 无关.

    (4) 取分布 F 的上 α/2 分位数 wα/2 和上 1α/2 分位数 w1α/2,由分位数定义,有

    P(w1α/2S(T,U,θ)wα/2)=1α.

    结论

    正态总体均值 μ

    置信区间为 x±d,其中误差界限

    d={σnuα/2,σ2,sntn1(α/2),σ2,σ^nuα/2,n>30,σ2,.

    其中前两种情况所用枢轴变量分别为

    n(Xμ)σN(0,1)

    n(Xμ)Stn1.

    正态总体方差 σ2

    枢轴变量为

    (n1)S2σ2χn12,

    置信区间为

    σ2[(n1)s2χn12(α/2),(n1)s2χn12(1α/2)].

    两个正态总体均值差 μ1μ2


    两个正态总体方差比 σ12/σ22

    枢轴变量

    S12/σ12S22/σ22Fm1,n1,

    置信区间

    σ12σ22[s12s22Fn1,m1(1α/2),s12s22Fn1,m1(α/2)].

    大样本方法

    比例 p 的区间估计

    枢轴变量

    Ynnpnp(1p)N(0,1),

    置信区间(得分区间)的近似

    pp^±uα/2p^(1p^)n,

    一般要求 np^>10n(1p^)>10 成立.


    若要求得分区间的宽度为 w,解得样本量要求为

    n=4uα/22p^q^w2.

    一般总体均值 μ 的置信区间

    枢轴变量

    n(Xμ)SN(0,1),

    置信区间

    μx±snuα/2.

    置信限

    对非正态总体,在样本量较大时候可以使用大样本方法寻求置信限.

    假设检验

    正态总体参数检验

    单个正态总体均值的检验

    σ2 已知

    问题 1:

    H0:μμ0H1:μ<μ0.

    检验:

    Ψ: Z=n(Xμ0)σ<uα  H0,  H0.

    问题 2:

    H0:μμ0H1:μ>μ0.

    检验:

    Ψ: Z=n(Xμ0)σ>uα  H0,  H0.

    问题 3:

    H0:μ=μ0H1:μμ0.

    检验:

    Ψ: |Z|=n|Xμ0|σ>uα/2  H0,  H0.
    σ2 未知

    问题 1:

    H0:μμ0H1:μ<μ0.

    检验为

    Ψ: T<tn1(α)  H0,  H0.

    问题 2,

    H0:μμ0H1:μ>μ0.

    检验为

    Ψ: T>tn1(α)  H0,  H0.

    问题 3,

    H0:μ=μ0H1:μμ0.

    检验为

    Ψ: |T|>tn1(α/2)  H0,  H0.

    当样本量 n 充分大时,由大数定律和中心极限定理,上面三类方差未知的检验中可以把 tn1(α)tn1(α/2) 分别用 uα,uα/2 代替,而且此时的正态分布不必是正态分布.

    两个正态总体均值差的检验

    成组比较

    (X1,X2,,Xm) 是从正态总体 N(μ1,σ2) 中抽取的一个简单样本,(Y1,Y2,,Yn) 是从正态总体 N(μ2,σ2) 中抽取的一个简单样本,且两组样本相互独立,其中总体均值 μ1,μ2 未知,两个独立总体有相同的方差 σ2σ2 可以已知也可以未知.

    问题:

    δ 是给定的常数,考虑

    1. H0:μ1μ2δH1:μ1μ2<δ

    2. H0:μ1μ2δH1:μ1μ2>δ

    3. H0:μ1μ2=δH1:μ1μ2δ.

    在应用中常见的情况是 σ2 未知,δ=0.

    成对比较

    构造虚构总体 Z=YX,样本 Z1=Y1X1,Z2=Y2X2,,Zn=YnXn.

    考虑如下检验假设问题:

    1. H0:μz=CH1:μzC

    2. H0:μzCH1:μz<C

    3. H0:μzCH1:μz>C

    其中 μz 为虚构总体 Z 的均值,C=0 是最常见的.

    正态总体方差的检验

    单个正态总体方差的检验

    考虑如下检验问题:

    1. H0:σ2σ02H1:σ2<σ02

    2. H0:σ2σ02H1:σ2>σ02

    3. H0:σ2=σ02H1:σ2σ02

    其中 σ02 为给定的常数.

    其对应的检验分别为

    ϕ: χ2=(n1)S2σ02<χn12(1α)  H0,  H0;
    ϕ: χ2=(n1)S2σ02>χn12(α)  H0,  H0;
    ϕ: χ2=(n1)S2σ02<χn12(1α/2)  χ2>χn12(α/2)  H0,  H0.
    两个正态总体方差比的检验

    (X1,X2,,Xm),(Y1,Y2,,Yn) 分别是从正态总体 N(μ1,σ12)N(μ2,σ22) 中抽取的简单样本,且两组样本之间相互独立. 考虑如下检验问题:

    1. H0:σ12/σ22bH1:σ12/σ22<b

    2. H0:σ12/σ22bH1:σ12/σ22>b

    3. H0:σ12/σ22=bH1:σ12/σ22b

    其中 b 为给定的常数,常见的情况是 b=1,即两个方差相等.

    S12S22 分别为样本 XY 的样本方差,则对应的检验分别为

    φ: F=S12bS22<Fm1,n1(1α)  H0,  H0;
    φ: F=S12bS22>Fm1,n1(α)  H0,  H0;
    φ: F=S12bS22<Fm1,n1(1α/2)  F>Fm1,n1(α/2)  H0,  H0.

    注意:Fm1,n1(1α)=(Fn1,m1(α))1.

    比例 p 的检验

    (X1,X2,,Xn)01 分布总体 B(1,p) 的一个样本,关于 p 的常见假设有三种:

    1. H0:pp0H1:p>p0

    2. H0:pp0H1:p<p0

    3. H0:p=p0H1:pp0.

    感觉最多考近似情形:当样本量 n 比较大(一般大于 30),

    1. ψ:当 Xnp0np0(1p0)>uα 时拒绝 H0,否则不能拒绝 H0

    2. ψ:当 Xnp0np0(1p0)<uα 时拒绝 H0,否则不能拒绝 H0

    3. ψ:当 |Xnp0np0(1p0)|>uα/2 时拒绝 H0,否则不能拒绝 H0.

    p

    概念:

    p =P(|).

    取检验的水平为 α,当一个检验法则的 p 值不超过 α 时,检验统计量 T 的值落在了拒绝域内,我们即拒绝原假设;反之,则没有足够的证据拒绝原假设. 这样即得到一个水平 α 检验法则:

    ϕ: p <α  H0.

    p 值表示了在当前样本下观察到的显著性水平. p 值越接近 0,拒绝原假设的证据就越充分;反之,p 值越接近 1,不能拒绝原假设的证据就越充分.

    非参数假设检验

    拟合优度检验

    理论分布完全已知且只取有限个值

    检验问题

    H0:P(X=ai)=pi,i=1,2,,kH1:j s.t. P(X=aj)pj.

    统计量

    Z=(OE)2E=i=1k(npini)2npi=i=1kni2npin.

    检验为

    φ: Z>χk12(α)  H0,  H0.

    拟合优度

    p(Z0)=P(ZZ0)=1Fχk12(Z0)

    越大,原假设成立时出现 Z0 这样大的差异就越不奇怪.

    理论分布类型已知但含有有限个未知参数

    检验问题

    H0:P(X=ai)=pi(θ1,θ2,,θr),i=1,2,,k,

    其中 ai,i=1,2,,k 都已知且两两不同,pi>0,i=1,2,,k,且依赖于 r 个未知的参数 θ1,θ2,,θr,r<k1.

    统计量

    Z=(OE^)2E^=i=1k(np^ini)2np^i=i=1kni2np^in.

    其中,p^ipi 的最大似然估计 p(θ^1,θ^2,,θ^r),i=1,2,,kθ^1,θ^2,,θ^r 为原假设 H0 下参数 θ1,θ2,,θr 的最大似然估计.

    检验为

    φ: Z>χkr12(α)  H0,  H0.

    当总体 X 取无穷多个值,但其分布中仅含有有限个未知参数,此时原假设可以表示为

    H0:XFθ(x),xR,

    其中 θ=(θ1,θ2,,θr) 为未知参数,它们在一定区域内变化.

    我们可以将总体的取值切为 k 段,记切分出的区间为

    (x0,x1],(x1,x2],,(xk2,xk1],(xk1,xk),

    其中 x0=,xk=+,则定义离散型随机变量

    Y=ai,xi1<Xxi,i=1,2,,k.

    则当原假设H0 成立时,随机变量 Y 的分布为

    P(Y=ai)=pi(θ1,θ2,,θr),i=1,2,,k,

    其中 pi(θ1,θ2,,θr)=Fθ(xi)Fθ(xi1).

    这里是将检验假设 H0 的问题转换为检验理论分布对应的假设 H0 的问题.

    列联表检验

    image-20230621173820376

    ni=j=1bnij,nj=i=1anij.
    独立性检验

    统计量

    Z=i=1aj=1b(nijninj/n)2ninj/n=i=1aj=1b(nnijninj)2nninj.

    n 时,Z 的渐进分布是自由度为 k1r=ab1(a+b2)=(a1)(b1)χ2 分布,即 χ(a1)(b1)2.

    特别,对 2×2 列联表,

    Z=n(n11n22n12n21)2n1n2n1n2

    在原假设为真时依分布收敛于 χ12.

    齐一性检验

    齐一性检验即检验某一个属性 A 的各个水平对应的另一个属性 B 的分布全部相同:

    H0:P(B=j|A=1)=P(B=j|A=2)==P(B=j|A=a),j=1,2,,b.

    对齐一性检验问题,所构造的检验统计量 Z 的极限分布仍是自由度为 (a1)(b1)χ2 分布.