• 概率论与数理统计

    回顾

    反函数的导数

    设函数 y=f(x) 在区间 Ix 上严格单调、可导,f(x)0,则它的反函数 x=f1(y) 在对应的区间 Iy={y|y=f(x),xIx} 上也严格单调、可导,并且

    (f1(y))|y=f(x)=1f(x),

    亦即

    dxdy=1dydx.

    变限积分函数的可微性

    含参变量积分

    含参变量常义积分

    设二元函数 f(x,u) 在有界闭区域 D:axb,αuβ 上连续,称积分

    φ(u)=abf(x,u) dx

    为含参变量常义积分,其中 u 称为参变量.

    若积分限也依赖于参变量,有变限含参常义积分

    ψ(u)=a(u)b(u)f(x,u) dx.
    含参变量常义积分的可微性

    含参变量积分的应用

    几个重要的广义积分
    欧拉(Euler)积分

    第一章 事件及其概率

    image-20230313210009344

    1.1 概率论简史

    一些基本概念:

    • 概率(probability),又称或然率、几率,是表示某个事件出现的可能性大小的一种数量指标,介于 01 之间.

    • 赌博问题中的赢率(odds).

    1.2 随机试验和随机事件

    基本概念

    定义1.1 随机试验

    image-20230307195951274

    定义1.2 样本空间与事件

    image-20230307200042167

    • 随机事件(简称 事件),用英文大写字母 A, B,  表示;

    • 样本空间(sample space):随机试验中所有基本事件构成的集合,用 ΩS 表示;

    • 样本点:样本空间的元素,即基本事件,用 ω 表示.

    一个随机试验的样本空间 Ω 是由该试验所有可能结果所组成的集合.

    根据样本空间 Ω 的大小,可以将其分为三类:

    • 有限样本空间(仅含有有限个样本点);

    • 可数无穷样本空间(含有无穷且可数个样本点);

    • 不可数样本空间(含有无穷且不可数个样本点).

    事件的运算

    对事件 A,如果随机试验的结果恰好出现在 A 中,那么我们就称事件 A 在此次随机试验下发生,简称事件 A 发生.

    定义1.3 必然事件和不可能事件

    image-20230307201436508

    习惯上,将必然事件发生的概率设置为 1,将不可能事件发生的概率设置为 0.

    但发生概率为 1 的事件未必是必然事件,发生概率为 0 的时间未必是不可能事件.

    image-20230307201808858

    定义事件运算中的几个基本概念.

    定义1.4 事件的和

    image-20230307201845355

    事件 A 和事件 B 中至少有一个发生,称为 AB 的和,记为 AB.

    下面的维恩图(Venn diagram)中阴影部分表示了 AB.

    image-20230307202336221

    定义1.5 事件的差

    image-20230307202354488

    事件 A 发生而事件 B 不发生,称为 AB 的差,记为 ABAB.

    image-20230307202854888

    定义1.6 事件的积

    image-20230307202915474

    事件 A 和事件 B 同时发生,称为 AB 的积,记为 ABABAB.

    image-20230307203037175

    定义1.7 不相容事件

    image-20230307203119760

    事件 A 和事件 B 不能同时发生(即 AB=),称为事件 A 和事件 B 不相容(incompatible)或互斥(mutually exclusive).

    image-20230307203347726

    特别,当事件两两不相容时,可以把“并”运算符号改写为通常的加号.

    AB=A+B, k=1nAk=k=1nAk

    定义1.8 对立事件

    image-20230307203701672

    { A } 这一事件称为 A 的对立事件(或余事件),记为 AAc.

    事件运算的公式

    • AA=A, AA=A

    • ABC=(AB)(AC)

    • A(BC)=ABAC

    • (AB)(CD)=ACBC AD BD

    • 德摩根(A. De Morgan)对偶法则

      • (k=1nAk)c=k=1nAkc

      • (k=1nAk)c=k=1nAkc.

    image-20230307205149999

    证明两个事件 AB 相同:ωAωBωBωA.

    1.3 概率的定义和性质

    定义1.9 概率的直观定义

    image-20230307205547991

    概率是事件的函数,也可以视为是集合的函数. 设 A 为一个事件,用 P(A) 表示事件 A 发生的概率,则由概率定义,

    • 0P(A)1;、

    • P(Ω)=1

    • P()=0.

    1.3.1 古典概型

    有限性等可能性下定义概率的模型称为古典概型.

    image-20230307205931616

    一般涉及排列、组合的知识,以及事件的运算. 常用的排列、组合知识归纳如下.

    1. 计数原理

    加法原理

    image-20230307210154213

    乘法原理

    image-20230307210209342

    结论:

    2. 盒子模型

    image-20230307212237659

    结论:

    3. 多组组合

    image-20230310140642313

    4. 不尽相异元素的排列

    image-20230310140753588

    1.3.2 概率的统计定义

    几何概型:对古典概型去掉有限性、保留基本事件的等可能性.

    几何概型相当于把样本空间视为一块质量为 1 的均匀木块,事件 A 视为木块中的某部分,则 P(A) 就是该部分的质量.

    (去掉等可能性,保留有限性,从另一个角度定义概率)

    定义1.10 概率的统计定义

    image-20230310141311311

    意义:

    • 提供了一种估计概率的方法(如:得出 π 的近似值,破译密码);

    • 提供了理论是否正确的标准(如:验证硬币均匀性).

    1.3.3 主观概率的定义

    人们常常用一个数字去估计某些概率的大小,而心目中并不把它与频率相连,这种概率称为主观概率.

    定义1.11 主观概率定义

    image-20230310141717879

    作用:

    • 管理科学(经济投资决策);

    • 数据分析,尤其是人工智能的算法(贝叶斯(T. Bayes)学派,与传统的统计学派即频率学派区别)

    研究主观概率,以这种观点来处理统计问题,有着非常重要的现实意义.

    1.3.4 概率的公理化定义

    定义1.12 概率的公理化定义

    image-20230310142309857

    由概率的公理化定义得到概率的一些性质. 以下讨论的事件均为同一样本空间 Ω 中的可测事件.

    • P()=0;

    • (有限可加性)若 Ak,k=1,2,,n 两两不相容,则

      P(k=1nAk)=k=1nP(Ak);
    • (可减性)若 AB,则 P(BA)=P(B)P(A);

    • (单调性)若 AB,则 P(A)P(B);

    • P(A)=1P(A);

    • (加法原理/容斥原理(inclusion-exclusion principle))对任意的事件 A1,A2,,An,有

      image-20230310143105910

      例:

      P(ABC)=P(A)+P(B)+P(C)P(AB)P(AC)P(BC)+P(ABC)
    • (次可加性)对任意的事件列 A1,A2,,An,,有

      P(n=1An)n=1P(An);
    • *(下连续性) 若事件列满足 AnAn+1,n=1,2,,则

      P(n=1An)=limnP(An);
    • *(上连续性) 若事件列满足 AnAn+1,n=1,2,,则

      P(n=1An)=limnP(An);

    1.4 条件概率

    1.4.1 条件概率的定义

    条件概率,指在试验中在附加一定条件下,感兴趣事件发生的概率,其形式总可归结为“事件 B 发生的条件下事件 A 发生”. 附加的条件一般就是某种信息.

    定义1.13 条件概率

    image-20230310144446548

    image-20230310144547773

    某部分的概率就是该部分面积与总面积的比值,图中总面积(Ω 的面积)为一个单位. 现在知道 B 发生了,只考虑 B 而不考虑 B,则 P(A|B) 就是 AB 中的面积 P(AB)B 的面积 P(B) 的比值,即

    P(A|B)=P(AB)P(B).

    定理1.1 乘法公式

    image-20230310144940378

    • P(AB)=P(A)P(B|A)

    • P(A1A2An1)>0,则

      P(A1A2An)=P(A1)P(A2|A1)P(An|A1A2An1)

      (不依赖脚标顺序).

    image-20230310145534479

    1.4.2 全概率公式

    定义1.14 完备事件群

    image-20230310145713942

    B1,B2,,Bn 是样本空间 Ω 中的一组概率大于 0 的事件,满足

    • BiBj,ij

    • i=1nBi=Ω

    则称 B1,B2,,Bn 是样本空间 Ω 的一个完备事件群(划分(partition)).

    image-20230310150055060

    定理1.2 全概率公式(law of total probability)

    image-20230310150129673

    B1,B2,,Bn 是样本空间 Ω 的一个划分,AΩ 中任一事件,则

    P(A)=i=1nP(A|Bi)P(Bi).

    1.4.3 贝叶斯公式

    定理1.3 贝叶斯公式

    image-20230310150705188

    B1,B2,,Bn 是样本空间 Ω 的一个划分,AΩ 中任一事件,P(A)>0,则

    P(Bi|A)=P(BiA)P(A)=P(A|Bi)P(Bi)j=1nP(A|Bj)P(Bj).

    特别,以 BB 构成划分,则

    P(B|A)=P(A|B)P(B)P(A|B)P(B)+P(A|B)P(B).

    如果把条件视为“原因”,事件 A 视为“结果”,那么贝叶斯公式反映了因果关系互换之间的概率关系(逆概率(inverse probability)).

    1.5 独立性

    相互独立

    定义1.15 两个事件相互独立

    image-20230313203009315

    如果事件 A 和事件 B 的发生互不影响,那么两事件是独立的.

    推论1.1

    image-20230313203310935

    两个事件 AB 相互独立,实质是一个事件发生的概率与另外一个事件是否发生没有关系,但这并不意味着事件 AB 本身完全无关.

    定理1.4

    image-20230313203813581

    AB 是样本空间 Ω 中的两个事件,则下述四个陈述相互等价:

    1. AB 独立;

    2. AB 相互独立;

    3. AB 相互独立;

    4. AB 相互独立.

    定义1.16 n 个事件相互独立

    image-20230313204222295

    n 个事件的相互独立蕴涵了其中任意一部分事件相互独立;

    即使其中任意 (n1) 个事件都相互独立,也不能保证 n 个事件在整体上相互独立.

    定义1.17 等价定义

    image-20230313204243896

    小概率原理:即使事件 A 是小概率事件,即事件 A 在一次试验中不易发生,但是随着实验次数 n 的增加,事件 A 发生的概率接近于 1.

    两两独立

    定义1.18 n 个事件两两独立

    image-20230313205031537

    相互独立的事件列一定是两两独立的,反之则未必.

    image-20230313205119247

    定义1.19 独立事件列

    image-20230313205141857

    第二章 随机变量及其分布

    image-20230313210517210

    2.1 随机变量的概念

    取一个样本空间到直线 R 之间的映射 X,该映射把基本事件对应于直线上的一个点,这个映射就称为随机变量(random variable, r.v.).

    • 直观上,随机变量是取值随实验结果而定且有一定概率分布的变量;

    • 数学角度上的严格定义(定义2.1 随机变量):

    image-20230313211021009通常我们用大写的英文字母 X,Y,Z,W 等表示随机变量,而用小写的字母 x,y,a,b 等表示实数.

    随机变量取哪些值以及取这些值的概率,称为随机变量的分布(distribution).

    2.2 离散型随机变量的分布

    离散型随机变量,就是取值为离散值的随机变量.

    定义2.2 离散型随机变量和分布律

    image-20230313211809215

    如果随机变量 X 只取有限多个或可数多个值,那么称 X 为离散型随机变量.

    X 取的一切可能值为 x1,x2,,xn,,则

    (1)P(X=xk)=pk, k=1,2,,n,,

    其中

    • pk0, k=1,2,,n,;
    • k=1pk=1.

    (1) 式称为离散型随机变量 X 的分布律或概率质量函数(probability mass function, pmf).

    image-20230313212713892

    2.2.1 0-1 分布

    定义2.3 01 分布

    image-20230313212901356

    X 服从 01 分布/伯努利(Bernoulli)分布/两点分布. 其分布函数也可以写为

    P(X=x)=px(1p)1x, x=0  1.

    一般在试验中仅考虑事件 A 是否发生时,引入示性函数

    IA={1, A ,0, A .

    IA01 分布的随机变量.

    2.2.2 离散均匀分布

    定义2.4 离散均匀分布

    image-20230313213347492

    古典概型就是离散均匀分布.

    image-20230313213537353

    分布

    P(X=m)=|A|CNn=CMmCNMnmCNn, m=0,1,,n

    称为参数为 (N,M,n)超几何分布(hypergeometric distribution).

    X 服从参数为 (N,M,n) 的超几何分布记为 XH(N,M,n).

    2.2.3 二项分布

    A 为随机试验中的一个事件,其发生的概率为 p, 0<p<1,则每次试验结果要么是 A 发生,要么是 A 发生(这种只有两种可能结果的试验称为伯努利试验,事件 A 发生常常称为是“成功”).

    如果把该试验在相同条件下独立重复 n 次,记在 n 次独立试验中事件 A 出现的次数(即成功的次数)为 X,这是一个离散型随机变量,{X=k} 表示事件 A 恰好发生 k 次,其中 k=0,1,,n.

    定义2.5 二项分布

    image-20230313214608889

    X 的分布律为

    P(X=k)=Cnkpk(1p)nk, k=0,1,,n,

    那么称 X 服从二项分布(binomial distribution),记为 XB(n,p),而 P(X=k) 常记为 b(n,p,k).

    image-20230313215416802image-20230313215605513

    随机变量服从二项分布的条件:

    • 各次试验的条件稳定(保证事件 A 发生的概率 p 在各次试验中保持不变);

    • 各次试验之间相互独立.

    2.2.4 负二项分布

    如果将伯努利试验一直独立地重复下去,以 Xr 表示第 r 次试验成功发生时的试验次数,p=1q 为成功的概率,那么 Xr 的分布律为

    pk=P(X=k)=P({(k1)(r1) k })=P({(k1)(r1)})P({ k })=Ck1r1prqkr, k=r,r+1,

    k=rpk=k=rCk1r1prqkr=prk=0Cr+k1r1qk=pr(1q)r=1

    定义2.6 负二项分布

    image-20230319091718071

    设随机变量 Xr 取正整数值,其分布律为

    P(Xr=k)=Ck1r1prqkr, k=r,r+1,.

    其中 r 为正整数,0<p<1,则称 X 服从参数为 r,p 的负二项分布或帕斯卡分布(Pascal distribution),记为 XNB(r,p)P(Xr=k) 则记为 nb(r,p,k).

    image-20230319092213135


    在负二项分布中,若 r=1,则 X1 表示首次成功时的实验次数,其分布常常称为几何分布(Geometric distribution),记为 X1Ge(p)

    P(X1=k)=qk1p, k=1,2,.

    定理2.1 无记忆性

    image-20230319092829893

    以所有正整数为取值集合的随机变量 X 服从几何分布 Ge(p),当且仅当的对任何正整数 mn,都有

    P(X>m+n|X>m)=P(X>n).

    这个性质称为几何分布的无记忆性(memoryless property).

    2.2.5 泊松分布

    image-20230319093238112

    定义2.7 泊松分布

    若随机变量 X 的分布律为

    P(X=k)=eλλkk!, k=0,1,, λ>0.

    则称 X 服从参数为 λ泊松分布(Poisson distribution),记为 XP(λ).

    泊松分布的一个重要应用是可以近似计算 p 很小时二项分布的概率分布 b(n,p,k). 下述定理给出了当试验次数 n 趋于无穷时,二项分布与泊松分布之间的关系. 为了强调此时 pn 有关系,将 p 记为 pn.

    定义2.2 泊松逼近定理

    image-20230319093917951

    设一族随机变量 XnB(n,pn),若当 n 时,npnλ>0,则

    limnP(Xn=k)=λkk!eλ, k=0,1,2,.

    实际应用中,n30npn5 时即可应用. 当 n100 时,npn10 情况下仍有较高的精度.

    负二项分布也可以用泊松分布近似.

    如果

    limrr(1p)=λ,

    其中 λ>0 为正常数,那么

    p1λr.

    由负二项分布的分布律,令 rkr=x 为固定数,得到

    Ck1r1pr(1p)kr=λkr(kr)!(1+1r)(1+kr1r)(1λr)r=λxx!(1+1r)(1+x1r)(1λr)rλxx!eλ, x=0,1,.

    即在负二项分布试验中,如果失败次数固定为 x,那么第 r 次成功的概率在 r(1p)λ 时近似为服从泊松分布的变量取 x 的概率.

    2.3 连续型随机变量的分布

    2.3.1 随机变量的分布函数

    定义2.8 分布函数

    image-20230321094554134

    X 为随机变量,x 为任一实数,称

    F(x)=P(Xx)

    为随机变量 X 的(累积)分布函数.

    F(X) 的值等于随机变量不超过 x 所取值的概率之和,故又称为累积分布函数(cumulative distribution function,简称 cdf).

    根据分布函数的定义,可以看出 F(x) 为一元实函数,其定义域为 R,值域为 [0,1]. X 值落在区间 (a,b] 内的概率为

    P(a<Xb)=F(b)F(a).

    显然,分布函数的定义适用于一切类型的随机变量,当然包括离散型随机变量.

    定理2.3

    image-20230321095441322

    离散型随机变量的分布函数为阶梯函数,其不连续点为所有取值点,每个跳跃的高度即为取该点值的概率.

    分布函数的性质

    证明:

    • 非降性:当 x1x2 时,

      F(x2)F(x1)=P(x1<Xx2)0.
    • 规范性:记 A(x)={<Xx},由于对任意 x1x2,有 A(x1)A(x2),由概率的连续性知

      limx+F(x)=P(limx+A(x))=P(<X<+)=P(Ω)=1.

      类似可证

      F()=limxF(x)=0.
    • 右连续性:

      image-20230321103143237

    2.3.2 概率密度函数

    定义2.9 连续型随机变量和概率密度函数

    image-20230321100912541

    设随机变量 X 的分布函数为 F(x),若存在非负函数 f(x)0,使得 xR

    F(x)=xf(t) dt,

    则称 X 为连续型随机变量,f(x) 称为分布函数的概率密度函数(probability density function,简称 pdf),记为 Xf(x).

    对连续型随机变量,其分布函数 F(x) 一定是一个绝对连续函数(因而也是连续函数),因此连续型随机变量 X 也常称为是绝对连续随机变量.

    概率密度函数的性质:设随机变量 X 的概率密度函数为 f(x),分布函数为 F(x),则有

    1. f(x)0, xR

    2. +f(x) dx=1

    3.  x1<x2,有

      P(x1<Xx2)=F(x2)F(x1)=x1x2f(x) dx.

      特别,对任意(可测)集合 AR

      P(XA)=Af(x) dx;
    4. f(x)x0 点连续,则 F(x0)=f(x0)

    5.  xR, P(X=x)=0.

    2.3.3 几种重要的连续型分布

    1. 均匀分布

    定义2.10 均匀分布

    image-20230321103550374

    随机变量 X 在有限区间 (a,b) 内取值(<a<b<+),且概率密度函数为

    f(x)=1baI(a,b)(x),

    则称 X 服从区间 (a,b) 上的均匀分布(uniform distribution),记为 XU(a,b).

    性质:均匀分布随机变量 X 落在 (a,b) 中任一子区间中的概率仅与区间长度成正比,与起点无关.

    区间 (a,b) 上的均匀分布随机变量的分布函数为

    F(x)={0,xa,xaba,a<x<b,1,xb.

    image-20230321103620455

    2. 指数分布

    定义2.11 指数分布

    image-20230321104448667

    若随机变量 X 的密度函数为

    f(x)=λeλxI(0,+)(x),

    其中 λ>0 为参数,则称 X 服从参数为 λ指数分布(exponential distribution),记为 XExp(λ).

    分布函数为

    F(x)={1eλx,x>0,0,x0.

    性质:设 XExp(λ),则对任意 s,t>0

    P(X>s+t|X>t)=P(X>s).

    这一性质称为无记忆性. 可以证明,一个非负连续型随机变量,如果具有该性质,那么其分布必为指数分布.

    证明:注意到 {X>s+t}{X>t},故

    P(X>s+t|X>t)=P(X>s+t,X>t)P(X>t)=P(X>s+t)P(X>t)=eλ(s+t)eλt=eλs=P(X>s).

    image-20230321105608374

    3. 正态分布

    定义2.12 正态分布

    image-20230321110525425

    随机变量 X 的密度函数为

    f(x)=12πσexp{(xμ)22σ2}, xR,

    其中 μR, σ>0 为参数,则称 X 服从参数为 μ,σ2正态分布(normal distribution)或高斯分布(Gaussian Distribution),记为 XN(μ,σ2).

    image-20230323075649764

    性质:

    1. “钟形曲线”,两头小,中间大,关于 x=μ 对称;

    2. 最大值在对称轴 x=μ 处取得,f(μ)=12πσ

    3. x=μ±σ 为拐点,图形以 x 轴为渐近线;

    4. 固定 σμ 变化时,图形左、右平移,但是不改变形状.

      固定 μσ 越大,图形越平缓,峰值越低;σ 越小,图形越陡峭,峰值越高. 故对相同的常数 dX 落在 (μd,μ+d) 中的概率随 σ 减小而增加.

      这里 μ 称为位置参数(location parameter),表示图形的对称位置. σ 称为尺度参数(scale parameter),表示图形高低的改变. 当 μ=0,σ=1 时,f(x) 称为标准正态分布密度函数,记为 φ(x)

      φ(x)=12πex22,

      其对应的分布函数称为标准正态分布函数,记为 Φ(x)

      Φ(x)=xφ(u) du=12πxeu22 du;

      image-20230323080227030

    5. 由图形对称性,易见 Φ(x)=1Φ(x).


    XN(0,1),有

    P(|X|1)=0.6826,P(|X|2)=0.9545,P(|X|3)=0.9973.

    在实际处理数据中,可以把一个取值在整条直线上服从标准正态分布的随机变量近似为取值在 [3.3] 中的随机变量.

    XN(μ,σ2),则其分布函数 F(x)

    F(x)=x12πσe(xμ)22σ2 dx=xμσ12πet22 dt(xμσ=t)=Φ(xμσ).

    此时,有 XμσN(0,1). 变换 Xμσ 称为标准化变换.

    2.4 随机变量函数的分布

    设随机变量 YX 的函数,若 XF,能否得到 Y 的分布?下面分离散型随机变量和连续型随机变量来讨论.

    2.4.1 离散型随机变量函数的分布

    设随机变量 Y=g(X),其中 X 的分布律为

    image-20230323082824645

    其中 pk=1. 则随机变量 Y 的分布为

    image-20230323082926280

    其中 g(xi) 相同时把对应的 pi 相加,即

    P(Y=g(xk))=i:g(xi)=g(xk)pi.

    特别地,如果 g 恒为常数,那么 Y 取该常数的概率为 1,此时称 Y 的分布退化.

    2.4.2 连续型随机变量函数的分布

    命题2.1 随机变量函数的分布函数

    image-20230323083329429

    显然,连续型随机变量的函数未必是连续型随机变量. 当变换 g 满足以下条件时,Y 认为连续型随机变量,且其密度函数与 X 的密度函数之间有着特殊的关系.

    推论2.1 密度函数变换公式

    image-20230323083558924

    g(x) 是严格单调的且反函数可导,则随机变量 Y 仍为连续型随机变量,且有概率密度函数 f1(y)

    f1(y)={f(h(y))|h(y)|,α<y<β0,,

    其中 h(y)g(x) 的反函数,α=min{g(),g(+)}β=max{g(),g(+)}.

    Xf(x),若 Y=aX+b,a0,则其密度函数为

    f1(y)=f(yba)1|a|.

    特别,取 XN(μ,σ2),此时

    f(x)=12πσexp{(xμ)22σ2}.

    Y=aX+b 的密度函数为

    f1(y)=12π|a|σexp{(y(aμ+b))22(aσ)2},

    YN(aμ+b,(aσ)2). 取 a=1σb=μσ,则 Y=XμσN(0,1). 由此知,任一正态随机变量都可以由标准正态随机变量线性表达.

    注:g 逐段单调时的密度变换公式

    image-20230323085505319

    第三章 多维随机变量及其分布

    image-20230330080557046

    3.1 多维随机变量及其分布

    3.1.1 多维随机变量

    定义3.1 多维随机变量

    image-20230330080815892

    定义3.2 二维分布函数

    image-20230330080853455

    (X,Y) 是二维随机变量,(x,y)R2,称二元函数

    F(x,y)=P(Xx,Yy)=P({ω|X(ω)x,Y(ω)y})=P({Xx}{Yy})

    (X,Y) 的分布函数或联合分布函数(joint cumulative distribution function, joint cdf).

    二维随机变量的联合分布函数 F(x,y) 具有如下性质:


    定义3.3 二维离散型随机变量

    image-20230330082805360

    (X,Y) 的可能取值为 {(xi,yj),i=1,2,,j=1,2,}. 记

    P(X=xi,Y=yi)=pij,i,j=1,2,,

    称其为二维离散型随机变量的联合概率质量函数(joint probability mass function, joint pmf)或联合分布律.

    性质:

    image-20230330083044181

    推广:

    定义3.4 n 维离散型随机变量

    image-20230330083240058

    性质:


    例3.3 多项分布

    image-20230330083554418

    3.1.2 连续型多维随机变量的联合密度函数

    定义3.5 二维连续型随机变量

    image-20230330161008550

    (X,Y)F(x,y),若存在可积的非负函数 f(x,y),使得对于 (x,y)R2,有

    F(x,y)=xyf(u,v) dudv,

    则称 (X,Y) 为二维连续型随机变量,F(x,y) 称为其联合分布函数,称 f(x,y) 为其联合概率密度函数(joint probability density function, joint pdf),简称联合密度函数.

    性质:

    例3.5 二元正态分布

    image-20230330162207392

    image-20230330162213568

    例3.6 均匀分布

    image-20230330162239817

    3.2 边缘(际)分布

    定义3.6 边缘(际)分布

    image-20230330162423329

    (X,Y) 的联合分布函数为 F(x,y),则其分量 XY 的分布函数 F1(x)F2(y) 称为 (X,Y)F边缘(际)分布(marginal distribution).

    3.2.1 二维离散型随机变量的边缘(际)分布

    image-20230330162738750

    image-20230330162815767

    3.2.2 二维连续型随机变量的边缘分布

    定义3.7 边缘概率密度函数

    image-20230330163236559

    设二维连续型随机变量 (X,Y)f(x,y),则

    f1(x)=Rf(x,y) dy,f2(y)=Rf(x,y) dx.

    XY 的概率密度函数 f1(x)f2(y) 称为二维随机变量 (X,Y) 或者联合概率密度函数 f(x,y)边缘概率密度函数(marginal probability density function, marginal pdf),简称边缘密度函数.

    3.3 条件分布

    一个随机变量(或向量)的条件概率分布,就是在给定(或已知)某种条件(某种信息)下该随机变量(向量)的概率分布.


    (X,Y) 为二维离散型随机变量时,设联合分布律为

    P(X=xi,Y=yi)=pij,i,j=1,2,,

    P(Y=yj)>0,则根据条件概率的定义,在给定 Y=yjX 的条件分布律为

    pi|j=pijpj,i=1,2,,

    同理若 P(X=xi)>0,则给定 X=xiY 的条件分布律为

    pj|i=pijpi,j=1,2,.

    (X,Y) 为二维连续型随机变量时,记联合概率密度函数为 f(x,y). 由于连续型随机变量取任意一点的概率为 0,故此时不能直接使用条件概率. 但是注意到,如果定义条件分布函数

    FX|Y(x|y)=P(Xx|Y=y)=limε0P(Xx|yYy+ε)=limε0F(x,y+ε)F(x,y)εP(y<Yy+ε)ε=F(x,y)y/F2(y)y=xf(u,y)f2(y) duxfX|Y(u|y) du,

    其中 Y 的概率密度函数在 y 处的值 f2(y)>0. 上式定义了 X 在给定条件 Y=y 下的分布函数和概率密度函数.

    定义3.8 条件概率密度函数

    image-20230404103633526

    如果 Y 的概率密度函数在 y 处的值 f2(y)>0,那么称

    fX|Y(x|y)=f(x,y)f2(y)

    为给定 Y=y 下随机变量 X条件概率密度函数(conditional probability density function, conditional pdf),简称条件密度函数. 同理,给定 X=x 下随机变量 Y 的条件概率密度函数 fY|X(y|x)

    fY|X(y|x)=f(x,y)f1(x),f1(x)>0.

    给定 X=x 下随机变量 Y 的条件密度函数也常常表为 Y|X=xfY|X(y|x)Y|xfY|X(y|x).

    连续型随机变量密度函数形式的

    fY|X(y|x)=f(x,y)f1(x)=fX|Y(x|y)f2(y)f1(x),fX|Y(x|y)=f(x,y)f2(y)=fY|X(y|x)f1(x)f2(y).

    3.4 相互独立的随机变量

    定义3.9 随机变量相互独立

    image-20230404104622487

    设随机变量 X,Y 的联合分布为 F(x,y),边缘分布为 F1(x),F2(y). 若  (x,y)R2,都有

    F(x,y)=F1(x)F2(y),

    则称随机变量 X,Y 相互独立.

    等价定义: B1,B2R,都有

    P(XB1,yB2)=P(XB1)P(yB2).

    (X,Y) 是离散型随机变量,分布律为 P(X=xi,Y=yj)=pij, i,j=1,2,,则 X,Y 相互独立等价于

    pij=pipj, i,j=1,2,.

    (X,Y) 是连续型随机变量,有联合概率密度函数 f(x,y) 和边缘概率密度函数 f1(x),f2(y),则 X,Y 相互独立等价于

    f(x,y)=f1(x)f2(y), (x,y)R2.

    上式等价于密度函数 f(x,y) 可以分离变量,即有

    f(x,y)=g1(x)g2(y), (x,y)R2,

    其中 g1(x),g2(y) 不必是概率密度函数.


    定义3.10 多维随机变量的相互独立性

    image-20230404105853750

    3.5 随机向量函数的分布

    (X,Y)f(x,y)Z=g(X,Y) 为一维随机变量,AR,则

    P(ZA)=g(x,y)Af(x,y) dxdy,

    特别当 A=(,z] 时,Z 的分布函数 FZ

    FZ(z)=P(Zz)=g(x,y)zf(x,y) dxdy.

    Z1=g1(X,Y),Z2=g2(X,Y) 分别为一维随机变量,AR2,则 Z1,Z2 的联合分布为

    P((Z1,Z2)A)=(g1(x,y),g2(x,y))Af(x,y) dxdy,

    特别当 A=(,z1]×(,z2] 时,(Z1,Z2) 的联合分布函数 FZ(z1,z2)

    FZ(z1,z2)=P(Z1z1,Z2z2)=g1(x,y)z1g2(x,y)z2f(x,y) dxdy.

    u=g1(x,y),v=g2(x,y)(u,v)(x,y) 一一对应,反函数记为 x=φ1(u,v),y=φ2(u,v) 且都有一阶连续偏导数,则作变换后

    FZ(z1,z2)=g1(x,y)z1g2(x,y)z2f(x,y) dxdy=uz1vz2f(φ1(u,v),φ2(u,v))|(x,y)(u,v)| dudv,

    z1,z2 求混合偏导,得

    fZ(z1,z2)=f(φ1(z1,z2),φ2(z1,z2))|(φ1,φ2)(u,v)|(u,v)=(z1,z2).

    特别地,当随机变量 X,Y 相互独立时,有 f(x,y)=f1(x)f2(y),计算会方便进行.

    例3.19 设随机变量 X,Y 相互独立,分别具有概率密度函数 f1(x),f2(y),求 X+Y 的概率密度函数.

    FX+Y=x+yzf1(x)f2(y) dxdy=+f1(x)zxf2(y) dydx.

    在积分号下对 z 求导,得

    fX+Y(z)=+f1(x)f2(zx) dx=+f2(y)f1(zy) dyf1f2(z),

    这里 f1f2(z) 称为 f1f2卷积(convolution).


    U=X, V=X+Y,函数 u,vx,y 的 Jacobi 行列式为 1,故

    P(X+Yz)=x+yzf(x,y) dxdy=vzf(u,vu) dudv=zdv+f(u,vu) du.

    image-20230406085454667

    由密度函数的定义,

    fX+Y(z)=+f(u,zu) du.

    X,Y 相互独立时,f(u,zu)=f1(u)f2(zu),从而

    fX+Y(z)=+f1(u)f2(zu) du=f1f2(z).

    这里不需要在积分号下求导.

    例3.20(指数分布随机变量的和与差)设 XY 独立,均服从指数分布 Exp(λ),求 Z=X+Y 的概率密度函数.

    由于

    fZ(z)=λ2+eλxeλ(zx)I(0,+)(x)I(0,+)(zx) dx=λ2eλz+I(0,+)(x)I(0,+)(zx) dx=λ2zeλzI(0,+)(z).

    进一步,如果 X1,X2,,Xn 为相互独立且服从相同的指数分布 Exp(λ),那么 Z=X1+X2++Xn 的概率密度函数为

    fn(z)=λn(n1)!zn1eλzI(0,+)(z).

    该分布称为参数是 n,λΓ 分布,记为 ZGa(n,λ).

    (特别,XGa(1,λ).)

    如果相互独立的两个同类型随机变量之和仍服从同一类型的分布,那么称此分布类型具有再生性. 因此,Γ 分布对参数 n 具有再生性.


    类似地,Z=XY 的概率密度函数为

    fZ(z)=λ2+eλzeλ(z+x)I(0,+)(x)I(0,+)(z+x) dx=λ2eλz+e2λxI(0,+)(x)I(0,+)(z+x) dx={λ2eλzz+e2λx dx,z0,λ2eλz0+e2λx dx,z>0={λ2eλz,z0,λ2eλz,z>0=λ2eλ|z|,

    该分布称为拉普拉斯分布(Laplace distribution). 即,独立指数分布的差是拉普拉斯分布.

    例3.22(正态分布随机变量的和)设 XY 互相独立,分别服从 N(μ1,σ12)N(μ2,σ22),求 X+Y 的分布.

    由于

    fZ(z)=12πσ1σ2+exp{(xμ1)22σ12}exp{(zxμ2)22σ22} dx=12πσ12+σ22exp{(z(μ1+μ2))22(σ12+σ22)},

    ZN(μ1+μ2,σ12+σ22),即正态分布 N(μ,σ2) 对参数 μ,σ2 具有再生性.

    例3.23(独立随机变量商的分布)设 XY 相互独立,Xf1(x)Yf2(y),求 U=XY 的分布.

    U=XY,V=Y,则当 y0 时,函数 (u,v)(x,y) 的 Jacobi 行列式的绝对值为

    |(u,v)(x,y)|=|1yxy201|=1|y|,

    所以

    |(x,y)(u,v)|=|y|=|v|.

    由此得

    FU(u)=x/yuf1(x)f2(y) dxdy=zdu+|v|f1(uv)f2(v)dv

    由密度函数的定义知,

    fU(u)=+|v|f1(uv)f2(v) dv.

    例如,设 XY 是独立的随机变量,均服从 N(0,σ2)Z=XY,则

    fZ(z)=12πσ2+|y|exp{(1+z2)y2σ2} dy=1π(1+z2).

    该分布称为柯西分布(Cauchy distribution),即独立正态分布随机变量的商服从柯西分布.

    例3.26(最大值和最小值的分布)设 XY 相互独立,XF1(x)YF2(y),求 max{X,Y}min{X,Y} 的分布.

    首先注意 max{X,Y}min{X,Y} 均为随机变量. 由于 XY 相互独立,

    Fmax(z)=P(max{X,Y}z)=P(Xz,Yz)=P(Xz)P(Yz)=F1(z)F2(z),
    Fmin(z)=P(min{X,Y}z)=P({Xz}{Yz})=1P({X>z}{Y>z})=1P({X>z})P({Y>z})=1(1F1(z))(1F2(z)).

    如果 Xf1(x),Yf2(y),那么

    fmax(z)=f1(z)F2(z)+F1(z)f2(z),fmin(z)=f1(z)(1F2(z))+(1F1(z))f2(z).

    第四章 随机变量的数字特征和极限定理

    image-20230413075915605

    4.1 数学期望和中位数

    前面讨论的随机变量的概率分布是对随机变量概率特性的最完整和全面的刻画,而本章要讨论的数字特征是对随机变量(或它的分布)某一方面特性的刻画.

    4.1.1 数学期望

    数学上,离散型随机变量的数学期望的定义为取值的“加权平均”:

    定义4.1 离散型随机变量的期望

    image-20230413081316345

    设随机变量 X 为离散型随机变量,其分布律为 P(X=xk)=pk,k=1,2,. 如果

    (1)k1|xk|pk<,

    那么称

    (2)E(X)=k1xkpk

    为随机变量 X 的数学期望,简称期望(expectation).

    注:


    对连续型随机变量,加权平均等价为加权积分:

    定义4.2 连续型随机变量的期望

    Xf(x),如果

    (3)+|x|f(x) dx<

    (常表示为 E(|X|)<),那么称

    (4)E(X)=+xf(x) dx

    为连续型随机变量的数学期望,简称期望. 否则,称不存在数学期望. 这里绝对可积条件 (3) 是保证期望有确定的值,即存在,的条件.

    注:如果随机变量 X1,X2,,Xn 的分布都相同,我们称它们为同分布的(identical distributed),此时 E(X1)=E(X2)==E(Xn). 如果它们不仅有相同的分布,而且相互独立,那么称 X1,X2,,Xn相互独立有相同分布的(independent and identically distributed, i.i.d.)随机变量.

    例4.4 设 XP(λ),则 E(X)=λ.

    image-20230413084257887

    例4.5 设 XN(μ,σ2),则 E(X)=μ.

    image-20230413084344850

    image-20230413084350171

    例4.6 设 Xf(x),其中

    f(x)=1π(1+x2),xR

    称为柯西分布. 证明:柯西分布的期望不存在.

    image-20230413084511792

    数学期望的性质:

    容易看出,常数 c 的期望(均值)仍是 c. 下面讨论的性质中假设期望均存在,则

    1. (期望的线性性)若干个随机变量和的期望等于每个随机变量期望的和. 即,若 E(Xk),k=1,2,,n 存在,则

      E(i=1nXi)=i=1nE(Xi),

      且期望的线性性质不需要对随机变量之间的关联附加任何限制,具有很好的普适性.

      image-20230413085251177

    2. X1,X2 是相互独立的的随机变量,且 E(X1),E(X2) 存在,则

      E(X1X2)=E(X1)E(X2).

      X1,X2,,Xn 是相互独立的随机变量,且期望 E(X1),E(X2),,E(Xn) 存在,则

      E(k=1nXk)=k=1nE(Xk).

      image-20230413085538595

    3. X 为一个 n 维随机变量,有分布函数 FX(x)Y=g(X)m 维随机变量且分布函数为 FY(y). 若 Y 的各分量存在期望,则

      E(Y)=Rmy dFY(y)=Rnx dFX(x)={g(x)P(X=x),X ,Rng(x)fX(x) dx,X .

      随机向量 Y 的期望是指它的每一个分量都取期望. 特别,若 c 为常数,则 E(cX)=cE(X).

      这一性质在应用中非常方便. 利用该性质,可以在 X 的分布下直接计算出 Y 的期望而无需计算出其分布.

    4. XY,则 E(X)E(Y).

    例4.7 设 XB(n,p),求 E(X).

    image-20230413091429345

    例4.9(负二项分布的期望)设随机变量 Xr 服从参数为 (r,p) 的负二项分布,求 Xr 的期望.

    image-20230413091630368

    例4.10 设 XU(1,1),求 E(2|X|).

    E(2|X|)=2(E|X|)=21112|x| dx=1.

    4.1.2 条件数学期望(条件期望)

    与条件分布的定义类似,随机变量的条件期望就是在给定某种附加条件下的数学期望. 对统计学和随机过程来说,最重要的情况就是在随机向量 (X,Y) 中,给定随机变量 X 的取值 X=xY 的条件数学期望,简称条件期望,通常用 E(Y|X=x) 表示,也可以简化记为 E(Y|x).

    对离散型随机变量 XYX 取值于 {x1,x2,,xn}Y 取值于 {y1,y2,,ym}. 考虑事件 {Y=yk},当固定 ykxi 变化时,该概率分布即为条件分布,记作

    P(X=xi|Y=yk)=P(X=xi,Y=yk)P(Y=yk),i=1,2,,n.

    这个条件分布中包含了 Y 所提供的先验信息,并将该信息代入到了期望的计算,

    E(X|Y=yk)=i=1nxiP(X=xi|Y=yk).

    对连续型随机变量 (X,Y)f(x,y),记给定 X=x 时随机变量 Y 的条件密度函数为 fY|X(y|x),则

    定义4.3 连续型随机变量的条件期望

    E(|Y|)<,称

    E(Y|X=x)=+yfY|X(y|x) dy

    为给定 X=x 时随机变量 Y 的条件期望.

    在统计学上,常把条件期望 E(Y|x) 作为 x 的函数 h(x),称为 Y 的回归函数.


    如果不固定 X 的取值,那么条件期望 E(Y|X)=h(X) 是随机变量 X 的函数,因而是随机变量. 对其再取期望,

    E(E(Y|X))=E(h(X))=+h(x)f1(x) dx=+f1(x) dx+yfY|X(y|x) dy=R2yf(x,y)f1(x)f1(x) dxdy=+y dy+f(x,y) dx=+yf2(y) dy=E(Y).

    这称为条件期望的平滑公式全期望公式.

    4.1.3 中位数和众数

    定义4.4 中位数

    设随机变量 XF(x),若存在常数 m 满足

    P(Xm)=1F(m0)1/2,P(Xm)=F(m)1/2,

    其中 F(m0)=P(X<m),则常数 m 称为随机变量 X中位数(median).

    中位数可能不唯一. 记连续型随机变量 X 的概率密度函数为 f(x),当 f(m)>0 时,中位数唯一且满足 F(m)=1/2mf(x) dx=1/2.

    定义4.5 众数

    • X 为离散型随机变量,则其概率质量函数最大值对应的随机变量的取值称为众数(mode),记为 md

    • X 为连续型随机变量,Xf(x),则使 f(x) 达到最大值的 x 称为众数,记为 md.

    众数可能不唯一. 若 X 的密度函数 f(x) 有唯一的极大值点,则称该密度函数是单峰的.

    数学期望、中位数和众数称为随机变量的位置参数,它们刻画了随机变量的数学期望、一半概率值和密度函数最大值的位置.


    中位数的定义是如下 p 分位数的特例:

    定义4.6 p 分位数

    0<p<1,称 Qp 是随机变量 Xp 分位数,是指

    P(XQp)p,P(XQp)1p.

    称分位数 Q0.25,Q0.5,Q0.75 为四分位数,它们把 X 的取值分为概率相同的四段,而称 IQR(X)=Q0.75Q0.25内四分位距(interquartile range). 当 p 恰好取百分比例时,得到的分位数称为百分位数.

    4.2 方差和矩

    4.2.1 方差和标准差

    定义4.7 方差和标准差

    设随机变量 X 是平方可积的,即满足 E(X2)<,则

    σ2=Var(X)E[(Xμ)2],σ=Var(X)

    分别称为随机变量 X 的方差(variance)和标准差(standard deviation). 也可以称为随机变量分布的方差和标准差.

    方差的性质:

    例4.18

    E(X)=μ,Var(X)=σ2>0. 记

    Y=Xμσ,

    E(Y)=0,Var(Y)=σ2Var(X)=1.

    这称为随机变量 X 的标准化,它的特点是没有量纲.

    定理4.1 马尔可夫不等式

    若随机变量 Y0,则 ε>0,有

    P(Yε)E(Y)ε.

    Y=(Xμ)2,把任意正常数 ε 换为 ε2,得到切比雪夫不等式

    P(|Xμ|ε)=P((Xμ)ε2)E[(Xμ)2]ε2=Var(X)ε2.

    4.2.2 矩

    定义4.8 矩

    X 为随机变量,满足 E(|X|k)<k 为正整数,则 E[(Xc)k] 称为 X 关于 ck(moment),其中 c 为常数.

    αk=E(Xk) 为随机变量 Xk 阶原点矩,称 μk=E[(XE(X))k]Xk 阶中心矩.

    由定义知,E(X) 就是随机变量 X 的一阶原点矩 α1Var(X) 就是 X 的二阶中心矩.

    在计算与正态分布有关的矩的时候,可以用 Γ 函数计算. 对 α>1,β>0

    0+xαeβx2 dx=Γ((α+1)/2)2β(α+1)/2.

    应用:

    特别,若 XN(μ,σ2),易知 β1=0,β2=3,与 μσ2 无关. 有时候也把峰度系数定义为 μ4/σ43,此时正态分布的峰度系数为 0.

    定义4.9 矩母函数

    随机变量 X矩母函数或者矩生成函数(moment generating function, MGF)MX(s) 定义为

    MX(s)=E[esX].

    如果存在正常数 a,使得 MX(s) 对所有 s[a,a] 是有限的,那么称 X 的矩母函数 MX(s) 存在.

    根据 ex 的泰勒级数展开式,对所有 xR

    ex=k=0xkk!,

    我们有

    MX(s)=k=0E[Xk]skk!.

    只要我们有 Mx(s),就知道了 X 的所有原点矩,也就是说

    E(Xk)=dkdskMX(s)|s=0.

    例4.24 设 XN(μ,σ2),求 MX(s).

    x=μ+σz,则

    MX(s)=E(esX)=+exs12πσ2e(xμ)22σ2 dx=eμs+ezσs12πσ2e12z2|dxdz|dz=eμs+ezσs12πe12z2dz=eμs+12σ2s2.

    矩母函数 MX(s) 的另一重要性质,是其在存在时可以唯一决定随机变量 X 的分布.

    定理4.2

    假设存在正常数 c 使得随机变量 XY 的矩母函数对所有 s[c,c] 均有限且相等,则它们的分布相同. 即,

    FX(t)=FY(t), tR.

    如果 X1,X2,,Xn 为相互独立的随机变量,则

    MX1+X2++Xn(s)=MX1(s)MX2(s)MXn(s).

    4.2.3 协方差和相关系数

    (X,Y) 为二维随机向量,注意到

    Var(X+Y)=Var(X)+Var(Y)+2E[(XE(X))(YE(Y))],

    X+Y 的波动性 = X 的波动性 + Y 的波动性 + XY 的相关性,其中最后一项反映了 XY 之间的关系,是我们感兴趣的,

    定义4.10 协方差

    设随机变量 XY 均平方可积,即 E(X2)<,E(Y2)<,则称

    Cov(X,Y)=E[(XE(X))(YE(Y))]

    为随机变量 X,Y协方差(covariance).

    性质:

    定义4.11 相关系数

    设随机变量 XY 均平方可积,即 E(X2)<,E(Y2)<,则称

    ρX,Y=Cov(XE(X)Var(X),YE(Y)Var(Y))=Cov(X,Y)Var(X)Var(Y)

    为随机变量 X,Y 的相关系数(correlation coefficient). 如果不混淆的话,就简记为 ρ.

    |ρ|1,等号成立的充要条件是随机变量之间有严格的线性关系.

    例4.27 设 (X,Y)N(μ1,μ2,σ12,σ22,ρ),则 Cov(X,Y)=ρσ1σ2,ρX,Y=ρ.

    image-20230423101848892

    image-20230423101857039

    命题4.1 正态分布随机变量的独立与不相关

    X,Y 相互独立,则 ρ=0,反之不必成立. 但若 (X,Y)N(μ1,μ2,σ12,σ22,ρ),则 X,Y 相互独立 ρ=0.

    定理4.3

    对任何非退化的随机变量 X,Y 存在方差,如下四个命题相互等价:

    • XY 不相关;

    • Cov(X,Y)=0

    • E(XY)=E(X)E(Y)

    • Var(X+Y)=Var(X)+Var(Y).

    4.3 熵的基本概念

    熵是随机变量最重要的数字特征之一,度量了随机变量中所含有的信息量的大小. 换言之,熵体现的是随机变量的不确定性程度,熵越大,不确定性就越大.

    定义4.12 熵

    X 为离散型随机变量,分布律为

    P(X=xk)=pk,kN,

    则其熵(entropy)定义为

    H(X)=k=1pklog2(pk).

    如果 X 为连续型随机变量,概率密度函数为 fX(x),那么其熵定义为

    H(X)=+fX(x)lnfX(x) dx

    在离散型随机变量的熵的定义中,除使用以 2 为底的对数外,也常使用以 e10 为底的对数.

    离散型随机变量 X 的熵 H(X) 有如下性质:

    4.4 大数定律和中心极限定理

    在概率论中习惯于把随机变量和的分布收敛于正态分布的那一类定理称为中心极限定理(central limit theorem, CLT). 大数定律(law of large numbers, LLN)则是“频率趋于概率”的引申.

    定义4.13 依概率收敛

    X1,X2,,Xn, 是一随机变量序列,X 为随机变量,如果 ε>0,有

    limnP(|XnX|ε)=0,

    那么称随机变量序列 {Xn} 依概率收敛(converge in probability)于随机变量 X,记为 XnN, in PXnPX.

    定理4.4 (弱)大数定律

    X1,X2,,Xn, 是一 i.i.d. 随机变量序列,记它们相同的期望和方差分别为 μσ2. 记 Sn=X1+X2++Xn,则对 ε>0

    limnP(|Snnμ|ε)=0,

    也就是说

    SnnPμ,n.

    用切比雪夫不等式立得.

    大数定律就是说 i.i.d. 随机变量序列的前 n 项部分和的平均 依概率收敛于 公共期望 μ.

    我们可以不知道数据来自什么总体分布,也不知道总体期望是多少,但是我们常常用样本均值来近似总体均值,其理论依据就是大数定律.

    例4.35(伯努利大数定律)

    {Xk} 为独立的 01 分布随机变量序列,

    P(Xk=1)=p,P(Xk=0)=1p,

    那么有 E(Xk)=p,Var(Xk)=p(1p). 所以由大数定律,ε>0,我们有

    P(|1nk=1nXkp|ε)p(1p)nε214nε20,n,

    即有

    1nk=1nXkPp.

    在大数定律的条件下,理论上我们还可以得到更强的结论,即随机变量序列的前 n 项部分和的平均几乎在每个样本点上收敛,我们称为强大数定律(strong law of large numbers).


    定义4.14 依分布收敛

    X1,X2,,Xn, 为一列实值随机变量,X 为随机变量,FnF 分别为随机变量 XnX 的分布函数. 如果对 F 的所有连续点 xR

    limnFn(x)=F(x),

    那么称 {Fn} 弱收敛(converge weakly)于 F,也称 {Xn} 依分布收敛(converge in distribution)于 X,常记为 XnLXXndX.

    定理4.5 依概率收敛与依分布收敛的关系

    X1,X2,,Xn, 为一列实值随机变量,X 为另一随机变量.

    • XnPX,则 XnLX

    • XnLc,则 XnPc,其中 c 为一个常数.

    依分布收敛的一个重要应用场合是关于独立随机变量部分和的分布收敛性,称为中心极限定理,在数理统计的大样本理论中有重要的应用.

    定理4.6 林德伯格-莱维中心极限定理

    X1,X2,,Xn, 是一列 i.i.d. 随机变量序列,记它们相同的期望和方差分别为 μ,σ2. 记 Sn=i=1nXi,则  xR

    limnP(n(Sn/nμ)σx)=Φ(x),

    也常常表示为

    n(Xμ)σLN(0,1),

    其中 X=Snn.

    中心极限定理就是说,部分和 Sn 标准化后的分布函数近似于标准正态分布函数. 所以在应用中,中心极限定理也常常表示为

    limnP(SnE(Sn)Var(Sn)x)=Φ(x), xR.

    对一列独立同分布的伯努利分布(01 分布)随机变量,记 P(Xi=1)=p,P(Xi=0)=1p,i=1,2,,则此时的中心极限定理称为棣莫弗-拉普拉斯中心极限定理,即

    定理4.7 棣莫弗-拉普拉斯中心极限定理

    X1,X2,,Xn, 是一列 i.i.d. 随机变量序列,Sn=i=1nXi,0<p<1,XiB(1,p),则  xR,有

    limnP(Snnpnp(1p)x)=Φ(x).

    注意到 SnB(n,p),所以棣莫弗-拉普拉斯中心极限定理告诉我们可以用正态分布来近似二项分布.

    中心极限定理也指出了大数定律中 X=Sn/n 依概率收敛于 E(X) 的速度为 1/n,即 n[XE(X)] 依概率有界.

    一个稍稍弱一点的是不要求 Xi 满足独立同分布的条件,只要求它们相互独立,方差在两个正数之间变化,则中心极限定理对 Sn 标准化后的分布函数仍成立.

    第五章 统计学基本概念

    image-20230608075258380

    5.1 统计学发展简史

    • 统计学(statistics),统计学家(statistician).

    5.2 基本概念

    定义5.1

    image-20230608075523236

    5.2.1 总体

    定义5.2 统计总体

    研究对象某个指标取值的全体以及取这些值的概率分布,称为统计总体,简称总体(population).

    5.2.2 样本

    定义5.3 样本

    从总体中按一定的方式抽取的 n 个个体 X=(X1,X2,,Xn),称为是样本量(sample size)为 n 的一个样本(sample).

    最常用的一种抽样方法叫做“简单随机抽样”,它要求满足下列两条:

    由简单随机抽样获得的样本 X1,X2,,Xn 称为简单随机样本,也称为简单样本. 在没有歧义的时候也常常简称为样本.

     

    性质:设 X1,X2,,Xn 为从总体 F 中抽取的样本量为 n 的简单随机样本,则

    由简单随机抽样的定义,有放回抽样得到的样本是简单随机样本.

     

    设总体为 F(X1,X2,,Xn) 为从此总体中抽取的简单样本,则 X1,X2,,Xn 的联合分布函数为

    F(x1)F(x2)F(xn)=i=1nF(xi);

    F 有概率密度函数 f,则其联合概率密度函数为

    f(x1)f(x2)f(xn)=i=1nf(xi).

    一般而言,抽样方案实施之前,由于不能确定抽到哪个个体,确定不了样本指标的具体取值,所以样本视为随机向量,用大写的英文字母 (X1,X2,,Xn) 表示,常称为样本量;抽样方案实施后,确定了个体,所以也确定了指标的取值,这时样本是一组数,用小写的英文字母 (x1,x2,,xn) 表示,称为样本的一个实现,也称为样本值. 这个特点称为样本的“二重性”.

    5.2.3 统计量

    定义5.4 统计量

    完全由样本 X=(X1,X2,,Xn) 决定的量称为统计量(statistic).

    :由定义,统计量是样本的函数.

     

    X1,X2,,Xn 是从某总体 X 中抽取的一个简单样本,则常见的统计量包括:

    为样本相关系数,也称为皮尔逊相关系数. 它反映总体相关系数的信息.

    5.3 抽样分布

    定义5.5 抽样分布

    (X1,X2,,Xn) 为一个样本,统计量 T=T(X1,X2,,Xn) 的分布称为抽样分布(sampling distribution).

    1. χ2 分布

    定义5.6 χ2 分布

    设样本 (X1,X2,,Xn) 为来自标准正态总体的一个简单随机样本,称

    X=X12+X22++Xn2

    服从自由度为 nχ2 分布,记为 Xχn2.

    其概率密度函数为

    kn(x)=1Γ(n/2)2n/2ex/2x(n2)/2I(0,+)(x).

    image-20230608091458248

    当自由度 n=1,2 时曲线单调下降趋于 0;当 n3 时曲线有单峰,从 0 开始先单调上升,在一定位置到达峰值,然后单调下降趋于 0.

    image-20230608091827422

    image-20230608091846232

    性质χ2 分布具有下列性质:

    :若 XGa(α,λ),即

    f(x;α,λ)=λαΓ(α)xα1eλxI(0,+)(x),

    则自由度为 nχ2 分布与 Γ 分布的关系为

    ξ=i=1nXi2Ga(n/2,1/2).

    另一方面,若 YGa(α,λ),则 Z=2λYχ2α2.

    2. t 分布

    定义5.7 t 分布

    XN(0,1),Yχn2,且 X,Y 相互独立,称

    T=XY/n

    服从自由度为 nt 分布,记为 Ttn.

    其概率密度函数为

    fn(t)=Γ((n+1)/2)nπΓ(n/2)(1+t2n)(n+1)/2, tR.

    image-20230608161139218

    性质t 分布具有下列性质:

    image-20230608161231570

    3. F 分布

    定义5.8 F 分布

    Xχm2,Yχn2,且 X,Y 相互独立,称

    F=X/mY/n

    服从自由度为 m,nF 分布,记为 FFm,n.

    Fm,n 分布的概率密度函数为

    fm,n(x)=mm/2nn/2Γ((m+n)/2)Γ(m/2)Γ(n/2)xm/21(mx+n)(m+n)/2I(0,+)(x).

    注意其自由度 mn 是有顺序的. 对给定 mn 越小,偏态越严重.

    性质:F 分布具有下列性质:

    image-20230608162217245

    定理5.1

    设随机变量 X1,X2,,Xn i.i.d.N(μ,σ2)c1,c2,,cn 是不全为零的常数,则有

    • 独立的正态随机变量线性组合服从正态分布,即

      T=k=1nckXkN(μk=1nck,σ2k=1nck2).

      特别,当 c1=c2==cn=1n,即 T=1ni=1nXi=X 为样本均值时,有

      XN(μ,σ2n).
    • S2=1n1i=1n(XiX)2 为样本方差,则

      (n1)S2σ2χn12.
    • XS2 相互独立;

    • 进而,

      n(Xμ)Stn1.

    推论5.1

    image-20230608163351266

    推论5.2

    image-20230608163403160

    推论5.3

    X1,X2,,Xn i.i.d. 服从指数分布

    f(x,λ)=λeλxI(0,+)(x),

    则有

    2λnX=2λi=1nXiχ2n2.

    第六章 参数点估计

    image-20230608163827094

    6.1 参数点估计的概念

    参数估计问题的一般提法是,在有了从总体中抽取的样本 X=(X1,X2,,Xn) 后,要用样本 X 对参数 θ1,θ2,,θk 进行估计,当然也可以估计其中的一部分,也可以估计参数 θ=(θ1,θ2,,θk) 的函数 g(θ)=g(θ1,θ2,,θk),其中 g 已知. 例如,为估计参数 θ1,我们需要构造适当的统计量 θ^1(X). 当我们有了样本 X 的实现 x 后,代入 θ^1 中,得到一个值 θ^1(x) 作为 θ1 的估计值. 为了这样特定目的而构造的统计量 θ^1(X) 称为 θ1估计量(estimator),而 θ^1(x) 称为 θ1估计值(estimate). 由于 未知参数 θ1 是数轴上的一个点,用 θ^1 去估计 θ1,等于用一个点去估计另一个点,所以这样的估计称为点估计.

    点估计常用的构造方法有矩估计(moment estimate)和最大似然估计(maximum likelihood estimate, MLE).

    6.2 矩估计法

    总体分布的 j 阶原点矩和中心矩分别为

    αj=E(Xj),μj=E[(Xα1)j].

    由大数定律,样本矩依概率收敛到总体矩,所以可以用样本矩来近似总体矩,即

    αj=αj(θ1,θ2,,θk)aj=1ni=1nXij,μj=μj(θ1,θ2,,θk)mj=1ni=1n(XiX)j.

    j=1,2,c,k,把上面的近似式改为等式,选择适当的 k 个样本原点矩或样本中心矩,可以得到由 k 个方程组成的方程组,解这个方程组,所得解记为 θ^i(X1,X2,,Xn),i=1,2,,k,则我们可以把 θ^i 作为 θi 的估计. 若要估计的是 g(θ1,θ2,,θk),则用 g^(X1,X2,,Xn)=g(θ^1,θ^2,,θ^k) 去估计它. 这样得到的估计称为矩估计. 为了区别其他的估计量,有时候记为 θ^M.

    在应用中,一般我们用样本方差 S2 估计 σ2,即对 m2 作了一点修正. 如果要估计 σ,这是 σ2 的函数,当然可以用 m2 来估计,但是一般用 S=S2 来估计,或者还会作一点修正.

    注:

    在合理的优劣准则下,可以证明低阶矩优于高阶矩,所以在矩估计中,能用低阶矩的就尽量用低阶矩来估计参数. 另外,矩估计方法需要总体相应的矩存在,对一些不存在矩的问题(如柯西分布)就不适用了.

    6.3 最大似然估计

    定义6.1 似然函数

    设样本 X=(X1,X2,,Xn) 有联合概率密度函数或联合概率质量函数

    f(x;θ)=f(x;θ1,θ2,,θk),

    这里参数 θ=(θ1,θ2,,θk)Θ,x=(x1,x2,,xn) 为样本 X 的一个样本值. 当固定 x 时把 f(x;θ) 看成为 θ 的函数,称为似然函数(likelihood function),常记为 L(θ;x)L(θ).

    用似然程度最大的那个点 θ=(θ1,θ2,,θk),即满足条件

    L(θ1,θ2,,θk;x1,x2,,xn)=max(θ1,θ2,,θk)ΘL(θ1,θ2,,θk;x1,x2,,xn)

    (θ1,θ2,,θk) 作为 (θ1,θ2,,θk) 的估计值,这样的估计称为最大似然估计. 若要估计 (θ1,θ2,,θk) 的函数 g(θ1,θ2,,θk),则 g(θ1,θ2,,θk) 就是它的最大似然估计. 为了区别矩估计量,有时候把最大似然估计量记为 θ^L.

    若似然函数是严格单调的,则似然函数的最大值在边界处达到,从而得到最大似然估计;若似然函数是光滑的,且样本是简单随机样本,则似然函数是 n 个因子(各自分布)的乘积. 可以先取自然对数化为 n 个式子的和,然后求极值. 若 (θ1,θ2,,θk)=lnL(θ1,θ2,,θk) 关于 (θ1,θ2,,θk) 可微,则可以通过求解下述似然方程先求驻点

    θi=0, i=1,2,,k.

    若该方程组在 (θ1,θ2,,θk) 的定义域内有界,则进一步验证是否为最大值点.

    :似然函数的最大值点可能会在边界上达到,所以要和边界值作比较. 当似然函数不可导时,要用定义来求出最大似然估计.

    6.4 优良性准则

    优劣性的比较问题要从整体性能考虑. 所谓“整体性能”有两个含义,一是指估计量的某个特性,具有这个特性就是优良的,下文的“无偏性”就属于此类;其二是指估计量的某种具体的数量指标,两个估计量中指标小的为优,如下文的“均方误差”.

    6.4.1 点估计的无偏性

    设总体分布函数为 F(x;θ1,θ2,,θk),其中 θ=(θ1,θ2,,θk)ΘRk(X1,X2,,Xk) 是从该总体中抽取的一个样本. 要估计 g(θ1,θ2,,θk),其中 g 为一个已知函数.

    定义6.2 偏差与无偏性

    g^(X1,X2,,Xn)g(θ1,θ2,,θk) 的一个估计量,称

    Eθ(g^(X1,X2,,Xn))g(θ1,θ2,,θk)

    为估计量 g^ 的偏差. 若对任一可能的 (θ1,θ2,,θk)Θ,都有

    Eθ1,θ2,,θk(g^(X1,X2,,Xn))=g(θ1,θ2,,θk),

    则称 g^g(θ1,θ2,,θk) 的一个无偏估计量.

    6.4.2 最小方差无偏估计

    均方误差(误差平方的平均)

    MSEθ(θ^)=Eθ[θ^(X1,X2,,Xn)θ]2

    兼顾了偏差和波动.

    平均绝对误差

    MADθ(θ^)=Eθ|θ^(X1,X2,,Xn)θ|

    也可作为标准,但不如均方误差在计算上易于处理.


    注意均方误差

    MSEθ(θ^)=Varθ(θ^)+[Eθ(θ^θ)]2

    由两部分组成,第一部分是波动,第二部分是偏差. 对于无偏估计,第二部分为 0,即若仅在无偏估计中比较,并采用均方误差准则,那么两个无偏估计的比较就是看谁的方差小.

    定义6.3 有效性

    θ^1,θ^2 都是总体参数 θ 的无偏估计,方差存在,若

    Varθ(θ^1)Varθ(θ^2),θΘ,

    且至少存在一个 θ 使上式不等号成立,则称 θ^1θ^2 更有效.

    定义6.4 最小方差无偏估计

    θ^g(θ) 的一个无偏估计,若对 g(θ) 的任一无偏估计 θ^1,都有

    Varθ(θ^)Varθ(θ^1),θΘ,

    则称 θ^g(θ) 的一个最小方差无偏估计(minimum variance unbiased estimate, MVUE).

    6.4.3 克拉默-拉奥方差下界

    6.5 点估计量的大样本理论

    当样本量 n 时点估计量的性质称为大样本性质. 大样本性质只有在样本量趋于无穷时才有意义. 与此同时,点估计量在样本量固定时的性质称为小样本性质. 大样本性质和小样本性质的差别不在于样本量的多少,而在于讨论其性质时样本量是固定的还是趋于无穷的(动态的).

    定义6.5 相合性

    θ^(X1,X2,,Xn) 是参数 θ 的一个点估计,若当样本量 n 时有

    θ^(X1,X2,,Xn)Pθ,

    则称 θ^(X1,X2,,Xn)θ 的一个(弱)相合估计量(consistent estimator).

    相合性是对一个估计量的基本要求. 若一个估计量没有相合性,则无论样本量多大,我们也不能把未知参数估计到任意精度. 这种估计量显然是不可取的.

    可以证明,矩估计是总体矩的相合估计. 一般而言,最大似然估计也是代估参数的相合估计.


    另一个重要的准则是其分布极限的特点,称为渐进正态性.

    定义6.6 渐进正态性

    θ^(X1,X2,,Xn) 是参数 θ 的一个点估计,设它的方差存在,记

    Varθ(θ^(X1,X2,,Xn))=σn2(θ),

    若当样本量 n 时有

    limnP(θ^(X1,X2,,Xn)θσn(θ)x)=Φ(x),xR,

    则称估计量 θ^(X1,X2,,Xn) 有渐进正态性.

    渐进正态性提供了估计量 θ^ 的一个近似分布,利用它我们才能完成相关的统计推断(区间估计和假设检验).

    在一般条件下,矩估计和最大似然估计都有渐进正态性.

    第七章 区间估计

    image-20230612132231287

    7.1 基本概念

    定义7.1 置信区间和置信系数

    (X1,X2,,Xn) 是从总体中抽取的一个简单随机样本,θΘR 为未知参数,θ^1(X1,X2,,Xn)<θ^2(X1,X2,,Xn) 为两个统计量. 给定一个小的正数 α(0,1),若

    Pθ(θ^1(X1,X2,,Xn)θθ^2(X1,X2,,Xn))=1α,θΘ,

    则称区间 [θ^1,θ^2] 为参数 θ置信区间(confidence interval)估计,置信系数为 1α.

    7.2 枢轴变量法

    基本概念和对正态总体均值的区间估计

    例如对正态总体 N(μ,σ2),其中 σ2 已知,如何求 μ 的区间估计?由于 Xμ 的优良点估计(MVUE),所以置信区间以 X 为中心向两边延伸. 注意到

    n(Xμ)σN(0,1),

    而正态密度函数有对称性,所以一个合理的置信区间应该有形式 [Xd,X+d],其中 d 是适当的常数,称为误差界限(margin of error). 换言之,在指定置信系数下,这种形式的置信区间长度最短. 如果要求置信系数为 1α,就要求

     Pμ(XdμX+d)=1α Φ(ndσ)=1α2.

    image-20230612135053458

    从附表 1 中可以查出 u0.05=1.645,u0.025=1.96. d 满足

    ndσ=uα/2,

    即误差界限

    d=σnuα/2.

    所以 μ 的置信系数为 1α 的置信区间为

    [xσnuα/2,x+σnuα/2]x±σnuα/2.

    一种找区间估计的一般方法,即枢轴变量法如下:

    设感兴趣的参数为 θ.

    (1) 找一个 θ 的良好点估计 T(X),一般为 θ 的最大似然估计.

    (2) 构造一个函数 S(T,U,θ),称为枢轴变量,其中 U=U(X) 为统计量,使得它的分布 F 已知,注意枢轴变量仅是 T,U,θ 的函数,不能包含其他未知参数.

    (3) 枢轴变量必须满足如下条件:a<b,不等式 aS(T,U,θ)b 能改写为等价形式 AθB,其中 A,B 只能与 T,U,a,b 有关,与 θ 无关.

    (4) 取分布 F 的上 α/2 分位数 wα/2 和上 1α/2 分位数 w1α/2,由分位数定义,有

    P(w1α/2S(T,U,θ)wα/2)=1α.

    根据 (3),不等式 w1α/2S(T,U,θ)wα/2 可以改写为 AθB 的形式,其中 A,B 是统计量. 由置信区间的定义,[A,B] 就是 θ 的置信系数为 1α 的置信区间.

    例7.2 设 x=(x1,x2,,xn) 是从正态总体 N(μ,σ2) 中抽取的一个样本,参数 μ,σ2 未知,求 μ 的置信系数为 1α 的置信区间.

     

    根据枢轴变量法,Xμ 的 MVUE,由于 σ2 未知,所以

    n(Xμ)σ

    不是枢轴变量. 直观上,σ2 未知时用样本方差 S2 代替,但是

    n(Xμ)S

    不是正态分布,而是 tn1 分布(why?).

    tn1 分布与参数无关,完全已知,所以 n(Xμ)/S 是枢轴变量. 设 tn1 的上 α 分位数为 tn1(α),注意到 t 分布概率密度函数是对称的,容易得到 μ 的置信系数为 1α 的置信区间为

    x±sntn1(α/2)[xsntn1(α/2),x+sntn1(α/2)].

    在给定置信系数下,标准差越大,精度越低;样本量越大,精度越高. 同时也看出,α 越小(置信系数越高),标准正态和 t 分布的上分位数越大,故精度越低,即置信系数和精度是一对矛盾. 当样本量 n 很大时,由中心极限定理,不论总体是什么分布,只要二阶矩存在,则 n(Xμ)/σ^ 近似服从标准正态分布,这里 σ^ 为总体标准差的相合估计. 所以关于总体均值 μ 的置信系数近似为 1α 的置信区间为

    μx±σ^nuα/2.

    总结:正态总体均值 μ 的置信区间为 x±d,其中误差界限

    d={σnuα/2,σ2,sntn1(α/2),σ2,σ^nuα/2,n>30,σ2,.

    对正态总体方差的区间估计

    例7.5 考虑均值方差都未知时正态总体方差 σ2 的置信区间估计.

     

    方差 σ2 的优良点估计为样本方差 S2. 枢轴变量为

    (n1)S2σ2,

    它服从自由度为 n1χ2 分布.

    P(χn12(1α/2)(n1)S2/σ2χn12(α/2))=1α,

    所以方差 σ2 的置信系数为 1α 的置信区间为

    σ2[(n1)s2χn12(α/2),(n1)s2χn12(1α/2)].

    枢轴变量服从 χ2 分布,其概率密度函数不是对称的. 为了应用上方便,对这种情形习惯上仍然采用类似于对称分布的做法,即两边各取 α/2 概率.

    对两个正态总体均值差的区间估计

    例7.6 设有两个独立正态总体,分别服从 N(μ1,σ12)N(μ2,σ22),其中 σ12,σ22 都已知. 求均值差 μ2μ1 的置信系数为 1α 的置信区间. 如果 σ12,σ22 都未知时如何给出置信区间?

    A 生产线的平均产量为 XB 生产线的平均产量为 Y,则

    XN(μ1,σ12m),YN(μ2,σ22n).

    由于两者独立,

    YXN(μ2μ1,σ12m+σ22n).

    枢轴变量及其分布为

    (YX)(μ2μ1)σ12m+σ22nN(0,1).

    从而均值差 μ2μ1 的置信系数为 1α 的置信区间为

    μ2μ1(yx)±σ12m+σ22nuα/2.

    方差未知时,若 m,n>30,则可以用中心极限定理得到;当样本量较小时,需要加一个条件

    σ12=σ22σ2,

    此时可以用两个样本方差 S12S22 分别估计 σ2.

    由上知 (m1)S12+(n1)S22 可以估计 (m+n2)σ2,从而

    ST2=(m1)S12+(n1)S22m+n2

    可以估计 σ2. 因为 χ2 分布有可加性,所以

    (m1)S12+(n1)S22m+n2χm+n22.

    可以验证

    mnm+n(YX)(μ2μ1)STtm+n2.

    可以得到 μ2μ1 的置信系数为 1α 的置信区间为

    μ2μ1(yx)±mnm+nsTtm+n2(α/2).

    对两个正态总体方差比的区间估计

    设总体 XN(μ1,σ12),YN(μ2,σ22),分别从两个总体中抽取了一个样本 (x1,x2,,xm)(y1,y2,,yn),均值位置,要作方差比 σ12/σ22 的区间估计.

    S12S22 为总体 X,Y 的样本方差. 由 F 分布的定义,

    S12/σ12S22/σ22Fm1,n1,

    即上式为方差比 σ12/σ22 的一个枢轴变量. 其置信系数为 1α 的置信区间为

    σ12σ22[s12s22Fn1,m1(1α/2),s12s22Fn1,m1(α/2)].

    7.3 大样本方法

    构造置信区间的关键是要知道枢轴变量的分布. 大样本方法就是利用极限定理,特别是中心极限定理,来建立枢轴变量 S(T(X),U(X),θ),使 S(T(X),U(X),θ) 的分布与 θ 无关.

    7.3.1 比例 p 的区间估计

    设事件 A 在每次试验中发生的概率为 p,作 n 次独立试验,以 Yn 记事件 A 发生的次数,求 p1α 置信区间. 当 n 充分大时,由中心极限定理,近似有

    Ynnpnp(1p)N(0,1),

    所以

    Ynnpnp(1p)

    可以作为构造 p 的置信区间估计的枢轴变量.

    Pp(uα/2Ynnpnp(1p)uα/2)1α,

    解得

    pp^+uα/222n1+uα/22n±uα2p^(1p^)n+uα/224n21+uα/22n,

    其中

    p^=ynn.

    称此置信区间为得分区间(score interval).

    注:由于构造的置信区间是基于枢轴变量的极限分布,其近似程度既依赖于 n 的大小,也依赖于 p 的值.

    如果要求得分区间的宽度为 w(误差界限为 w/2),即

    2uα/2p^(1p^)n+uα/224n21+uα/22n=w,

    得到样本量应满足

    n=uα/22[2p^q^w2+(2p^q^)2+(14p^q^)w2]w2,

    其中 q^=1p^. 忽略分子中含有 w 的项,取

    n=4uα/22p^q^w2,

    即当瓦尔德置信区间宽度为 w 时得到的样本量要求.

    这两个确定样本量的方法都包含了 p^,因此需要在试验后利用样本得到,这导致无法在试验前就确定好样本量 n.

    7.3.2 一般总体均值 μ 的置信区间

    (X1,X2,,Xn) 是从总体 X 中抽取的一个简单随机样本,E(X)=μ 为感兴趣参数. 注意这里我们并不要求知道总体 X 的分布形式.

    E(X)<,根据大数定律,样本标准差 Sσ 的一个相合估计. 再有中心极限定理,近似有

    n(Xμ)SN(0,1),

    其可以作为 μ 的枢轴变量. 不难得出,μ 的置信系数近似为 1α 的置信区间为

    μx±snuα/2.

    由于用了中心极限定理,它的置信系数只是近似为 1α,近似程度不仅与样本量 n 有关,也与总体的分布有关.

    7.4 自助法置信区间

    自助法(bootstrap method).

    7.5 置信限

    在实际问题中,有时候我们只对参数 θ 一侧的界限感兴趣.

    定义7.4

    (X1,X2,,Xn) 是从总体 F(x,θ) 中抽取的一个简单随机样本,θ=θ(X1,X2,,Xn),θ=θ(X1,X2,,Xn) 为两个统计量.

    • 若对 θ 的一切可取的值,有

      Pθ(θ(X1,X2,,Xn)θ)=1α,

      则称 θθ 的一个置信系数为 1α 的置信上限;

    • 若对 θ 的一切可取的值,有

      Pθ(θ(X1,X2,,Xn)θ)=1α,

      则称 θθ 的一个置信系数为 1α 的置信下限.

    置信上限和置信下限无非是一种特殊的置信区间,其一段为 +,因此前面求区间估计的方法可以平行移到此处. 由于只要考虑区间的一个端点,与置信区间比较,就是把 uα/2 换成了 uα,其余不变.

    对非正态总体,在样本量较大时候可以使用大样本方法寻求置信限.

    第八章 假设检验

    image-20230614090306622

    8.1 问题的提法和基本概念

    8.1.1 例子和问题提法

    对统计总体(即总体分布)的性质所作的假设称为统计假设. 使用样本对所作出的统计假设进行检查的方法和过程称为假设检验(hypothesis test). 如果总体分布的类型是已知的,要检验的假设是有关总体参数的某个取值范围,就称为参数假设检验问题;如果总体分布类型完全未知,就不再是参数问题了,我们称之为非参数假设检验问题.

    8.1.2 假设检验中的几个基本概念

    1. 原假设和备择假设

    在统计学中,我们把关于总体分布的某个特征的假设命题称为一个“假设”或“统计假设”,例如假设总体分布为正态分布等,或者假设二项分布总体中成功概率 p0.5 等. 称之为“假设”就是这个命题是否成立还需要通过样本来检验.

    一般我们把认为是正确的命题称为原假设(null hypothesis),记为 H0. “原”就是原来就有的结论或事实. 由于原假设不一定成立,一个自然的问题是当原假设不成立时你打算接受什么结论,这在事前也要明确规定好. 这个假设称为备择假设(alternative hypothesis),记为 H1Ha,就是拒绝原假设后可供选择的假设.

    一般地,记 Θ0,Θ1 是参数空间 ΘRk 的两个不交非空子集,一个统计假设常表示为

    H0:θΘ0H1:θΘ1,

    其中 Θ0Θ1Θ.

    2. 简单假设和复杂假设

    不论是原假设还是备择假设,其中的假设只有一个参数值,就称为简单假设,否则称为复合假设.

    例如,H0:μ=350,其中参数 μ 只能取一个值,所以是简单假设;而 H1:μ350 中,参数 μ 可以取不止一个值,所以是复合假设.

    记感兴趣的参数为 θΘR,则常见关于 θ 的假设形式有

    1. H0:θ=θ0H1:θ=θ1

    2. H0:θ=θ0H1:θθ0

    3. H0:θθ0H1:θ>θ0H0:θ=θ0H1:θ>θ0

    4. H0:θθ0H1:θ<θ0H0:θ=θ0H1:θ<θ0

    其中 θ0,θ1 为给定的参数. 假设 1 也称为两点假设,2 称为双侧假设或双边假设(two-sided hypothesis),3 和 4 称为单侧假设或单边假设(one-sided hypothesis).

    3. 检验统计量、接受域、拒绝域和临界值

    在检验一个假设时用到的统计量称为检验统计量.

    使原假设得到接受的样本所在区域 A 称为该检验的接受域,而使原假设被拒绝的样本所在区域 D 称为拒绝域(或否定域). 但在常见的假设检验中接受域和拒绝域通常可以简化为检验统计量 T(X) 所处的区域,例如接受域 A={XC},拒绝域 D={X>C}. 由于 A,D 互补,知道其中一个就能知道另一个,所以在处理假设检验问题中只要指出其中之一即可.

    上述检验中,常数 C 处于一种特殊的位置,检验统计量 X 越过 C,结论就从接受变为拒绝,这个 C 称为临界值. 临界值可能有不止一个,如假设为 H0:μ=350H1:μ350,一个合理的检验法则是选取 C1<C2,当 C1XC2 时接受原假设,此时 C1,C2 都是临界值. 上述决策也可以用函数

    Ψ(X1,X2,,Xn)={1,(X1,X2,,Xn)D,0,(X1,X2,,Xn)A,

    来表示,称 Ψ 为对 H0H1 的一个检验函数(法则). Ψ=1 表示拒绝(否定)H0Ψ=0 表示不能拒绝 H0(或接受 H0).

    8.1.3 功效函数

    对于同一个原假设,可以有不同的检验方法,哪一种更好一点?这就有一个标准问题.

    定义8.1 功效函数

    设总体为 F(x,θ),其中 θ=(θ1,θ2,,θk)ΘRk 为参数,H0 是关于参数 θ 的一个原假设,设 Ψ 是根据样本 (X1,X2,,Xn) 对假设

    H0:θΘ0H1:θΘ1

    所作的一个检验,则称

    βΨ(θ)=Pθ( Ψ  H0 )

    为检验 Ψ功效函数(power function).

    功效函数是假设检验中最重要的概念之一. 若真实的参数 θ 属于备择假设 H1,我们希望检验 Ψ 拒绝 H0 的能力越强越好;而当 θ 属于假设 H0 时,我们希望检验 Ψ 拒绝 H0 的能力越小越好. 这种拒绝 H0 的能力即为功效.

    定义8.2 检验水平

    Ψ 是假设

    H0:θΘ0H1:θΘ1

    的一个检验,βΨ(θ) 为其功效函数,α 为常数,0α1. 若

    βΨ(θ)α, θH0,

    则称 ΨH0 的一个水平 α 的检验,或者说,检验 Ψ 的水平为 α(或检验 Ψ 有水平 α).

    显然,检验的水平是检验 Ψ 错误拒绝 H0 所允许的最大概率.

    8.1.4 两类错误

    由于我们是根据样本作检验的,而样本有随机性,所以检验 Ψ 必犯以下两类错误之一:

    1. H0 成立,但是检验法则 Ψ 拒绝了 H0,这称为检验 Ψ 犯了第一类错误,也称“弃真错误”,其概率记为 α1Ψ(θ),简记为 α.

    2. H0 不成立,但是检验法则 Ψ 没有拒绝 H0,这称为检验 Ψ 犯了第二类错误,也称“存伪错误”,其概率记为 α2Ψ(θ).

    image-20230614144934055

    根据接受域 A 和拒绝域 D 的定义,我们只能犯两种错误之一,这两种错误与功效函数有如下关系:

    α1Ψ(θ)={βΨ(θ),θH0,0,θH1,
    α2Ψ(θ)={0,θH0,1βΨ(θ),θH1.

    对给定的样本,在选择检验 Ψ 时,要使其在 H0 上尽量小而在 H1 上尽量大,这是两个矛盾的要求. 奈曼提出先保证犯第一类错误的概率不超过某个给定的很小的数 α,在此基础上使犯第二类错误的概率尽量小. 如果仅仅考虑控制犯第一类错误的概率,而不涉及犯第二类错误概率所得到的检验,称为显著性检验(significance test),α 也称为显著性水平.

    :所谓显著性检验是指原假设在水平 α 下被拒绝时,检验统计量 T 达到了显著性,即其值如此显著,以至可以拒绝原假设,故这一检验称为显著性检验. 显著性检验常常用于有关某种效应或差异是否存在这样那样的问题,且我们主观上是希望这种效应是存在的. 因此显著性检验可以简单理解为希望原假设被拒绝的那种检验. “显著”(significant)在统计上并不是重要,而是代表光是靠机遇不容易发生.

    显著性检验方法的一般步骤如下:

    1. 求出未知参数 θ 的一个较优的点估计 θ^=θ^(X1,X2,,Xn),如最大似然估计.

    2. θ^ 和某个统计量 U=U(X1,X2,,Xn) 为基础,寻找一个检验统计量 T=T(θ^,U,θ0),使得当 θ=θ0T 的分布已知(如 N(0,1)tnFm,n 等),从而容易通过查表或计算得到这个分布的分位数,用以作为检验的临界值.

    3. 以检验统计量 T 为基础,根据备择假设 H1 的实际意义,寻找适当形状的拒绝域(关于 T 的一个或两个不等式,其中包含一个或两个临界值).

    4. 当原假设成立时,犯第一类错误的概率小于或等于给定的显著性水平 α,这给出一个关于临界值的方程,解出临界值,它(们)等于 Tθ=θ0 的分布的分位数,这样即确定了检验的拒绝域.

    5. 若给出样本值,则可算出检验统计量的值. 若落在拒绝域中,则可拒绝原假设,否则不能拒绝原假设.

    6. 根据具体问题和给定的显著性水平 α 解释拒绝原假设或不能拒绝原假设.

    例8.3

    image-20230614153842037

    μ 为均值,根据题设需要考虑的假设为

    H0:μ=500H1:μ=490.

    因为 Xμ 的无偏估计,其应靠近 μ 的值,因此基于统计量 X,我们采用标准化过的检验统计量

    T=n(Xμ)σ=n(X500)10.

    H1 成立时,T 的值倾向于小,因此检验的拒绝域取形如 {T<τ},其中 τ 为待定常数. 下面我们用控制犯第一类错误的概率等于 α 来确定 τ,即

    P(T<τ|μ=500)=α.

    由于 H0:μ=500 成立时 T 服从标准正态分布,易知上面关于 τ 的方程的解为 τ=uα,其中 uα 表示标准正态分布的上 α 分位数,即检验的拒绝域为 {T<uα}.

    现在取显著性水平为 α=0.05,则临界值 u0.051.645. 另一方面,样本均值 x=492 ml,样本量 n=9,故检验统计量 T 的观测值等于 2.4,小于临界值 1.645,即样本落在拒绝域中,从而可以在显著性水平 0.05 下拒绝原假设,认为饮料的平均容量确实减小为 490 ml.

    8.2 正态总体参数检验

    8.2.1 单个正态总体均值的检验

    关于单个正态总体均值 μ 的假设检验问题。也称为一样本均值检验问题,在应用中常见的假设形式有如下几种:

    1. H0:μμ0H1:μ<μ0

    2. H0:μμ0H1:μ>μ0

    3. H0:μ=μ0H1:μμ0

    其中 μ0 为给定的常数. 第一个检验问题称为左侧检验,第二个称为右侧检验,前两个均为单侧检验;第三个检验称为双侧检验. 这样称呼的原因在于它们各自的拒绝域形式为相应的单侧区间或双侧区间.

    (X1,X2,,Xn) 是从该正态总体 N(μ,σ2) 中抽取的一个简单样本,对均值 μ 的假设检验问题 1 ~ 3,其显著性检验方法依赖方差 σ2 是否已知.

    1. σ2 已知的情形
    假设检验问题 1
    H0:μμ0H1:μ<μ0.

    若备择假设成立,则 X 应该比 μ0 小,故 X 越小,直观上看来与备择假设 H1 越吻合,也就是越倾向于拒绝原假设 H0;反之,则倾向于支持原假设.

    由于 σ 已知,我们采用 X 的标准化量,其不改变不等式方向但方便于后续计算. 由此直观上一个合理的检验是

    Ψ: Z=n(Xμ0)σ<C  H0,  H0.

    image-20230614164143145

    要确定常数 C,使检验 Ψ 有给定的水平 α. 为此考虑 Ψ 的功效函数 βΨ(μ)

    βΨ(μ)=Pμ(Z<C)=Pμ(n(Xμ)σ<C+n(μ0μ)σ).

    σ2 已知时,n(Xμ)σN(0,1),所以

    βΨ(μ)=Φ(C+n(μ0μ)σ),

    由于 C+n(μ0μ)σμ 的严格单调减函数,βΨ(μ) 也是 μ 的严格单调减函数,因此要对一切 μμ0 都有 βΨ(μ)α,只要 βΨ(μ0)=α 即可. 由正态分布的上 α 分位数的定义,应取 C 满足

    C=u1α=uα,

    从而得到 Ψ 的功效函数为

    βΨ(μ)=Φ(n(μ0μ)σuα).

    一个好的检验应该在控制犯第一类错误的情况下犯第二类错误的概率越小越好,在这里就是当 μ<μ0(备择假设 H1)时,βΨ(μ) 越大越好(这样 α2Ψ=1βΨ 越小).

    如果一个检验在控制犯第一类错误不超过 α 时还被要求犯第二类错误的概率要小于指定的数 β>0,这等价于

    βΨ(μ)1β,μ<μ0.

    由于 μH1 但接近 μ0 时,在固定样本量 n 的情况下该要求不可能达到,所以我们放松要求:对某个指定的 μ1<μ0,有

    βΨ(μ)1β,μμ1.

    由于 βΨ(μ)μ 的减函数,这等价于

    βΨ(μ1)1β,

    Φ(n(μ0μ1)σuα)1β.

    不难得出

    nσ2(uα+uβ)2(μ0μ1)2,

    即样本量要达到一定的要求.

    假设检验问题 2
    H0:μμ0H1:μ>μ0.

    一个基于 Z 的检验是

    Ψ: Z=n(Xμ0)σ>uα  H0,  H0.

    image-20230614171427487

    此检验的水平为 α,功效函数为

    βΨ(μ)=1Φ(n(μ0μ)σ+uα).
    假设检验问题 3
    H0:μ=μ0H1:μμ0.

    直观上一个合理的检验为

    Ψ: |Z|=n|Xμ0|σ>C  H0,  H0.

    image-20230614171845178

    要确定常数 C,使检验 Ψ 有给定的水平 α,这等价于

    1α=Pμ0(|Z|C)=Φ(C)Φ(C)=2Φ(C)1Φ(C)=1α2C=uα/2.

    上述检验中确定临界值均使用标准正态分布,因此称它们为(一样本)Z 检验.

    例8.4

    image-20230614172327489

    image-20230614172334001

    这是正态总体在方差已知时关于均值 μ 的假设检验问题,

    H0:μ=3H1:μ3.

    取检验统计量为

    Z=n(Xμ0)σ=n(X3)0.1,

    检验的拒绝域为 |Z|>uα/2. 由样本算得检验统计量的值为 z=2.15,如显著性水平为 0.01,则临界值为 u0.0052.58,不能拒绝原假设;如果显著性水平为 0.05 时,临界值为 u0.0251.96,此时可以拒绝原假设,认为铁钉平均长度不等于 3 cm.

    这个例子说明结论可能跟显著性水平的选择有关:显著性水平越小,原假设被保护得越好,从而更不容易被拒绝.

    2. σ2 未知的情形

    注意到样本方差 S2σ2 的良好估计,因此在将 X 标准化的过程中用样本方差 S2 代替总体方差 σ2,得检验统计量

    T=n(Xμ0)S.

    注意到在正态总体下,当 μ=μ0Ttn1,因此可以计算出临界值.

    对检验问题 1,

    H0:μμ0H1:μ<μ0.

    检验为

    Ψ: T<tn1(α)  H0,  H0.

    其功效函数

    βΨ(μ,σ)=Pμ,σ(T<tn1(α))=Pμ,σ(n(Xμ)S<n(μ0μ)Stn1(α))

    δ=μμ0S 的单调减函数,且当 δ=0 时其值为 α,从而当 μμ0μH0 时,犯第一类错误的概率 βΨ(μ,σ)βΨ(μ0,σ)=α,这说明检验 Ψ 有水平 α.

    对检验问题 2,

    H0:μμ0H1:μ>μ0.

    检验为

    Ψ: T>tn1(α)  H0,  H0.

    对检验问题 3,

    H0:μ=μ0H1:μμ0.

    检验为

    Ψ: |T|>tn1(α/2)  H0,  H0.

    这三类检验称为一样本 t 检验,是应用中最重要和最常见的检验.

    例8.5(例8.4续)设方差未知,则在显著性水平 0.010.05 下能否认为铁钉平均长度为 3 cm

    这是正态总体在方差未知时关于均值 μ 的假设检验问题,

    H0:μ=3H1:μ3.

    取检验统计量

    T=n(X3)S,

    检验的拒绝域为 |T|>tn1(α/2).

    由样本算得检验统计量的值为 t=2.16,与显著性水平 0.01 对应临界值 t15(0.005)2.95 比较,不能拒绝原假设;而与显著性水平 0.05 对应临界值 t15(0.025)2.13 比较,可以拒绝原假设. 即在显著性水平 0.01 下不能拒绝铁钉平均长度为 3 cm 的假定,而在显著性水平 0.05 下可以认为铁钉平均长度不等于 3 cm.

    当样本量 n 充分大时,由大数定律和中心极限定理,上面三类方差未知的检验中可以把 tn1(α)tn1(α/2) 分别用 uα,uα/2 代替,而且此时的正态分布不必是正态分布.


    显著性检验方法仅控制犯第一类错误的概率. 由于设定的犯第一类错误的概率上限 α 很小,即在原假设成立的条件下根据样本在检验 Ψ 下拒绝原假设是小概率事件,所以原假设和备择假设的地位是不平等的. 我们是站在保护原假设的立场上,即没有足够的证据,我们不会拒绝原假设 H0;反过来说,如果我们拒绝原假设,就说明我们有充分的证据证明原假设不成立.

    根据以上分析,我们给出设立原假设和备择假设的两条原则:

    8.2.2 两个正态总体均值差的检验

    1. 成组比较

    (X1,X2,,Xm) 是从正态总体 N(μ1,σ2) 中抽取的一个简单样本,(Y1,Y2,,Yn) 是从正态总体 N(μ2,σ2) 中抽取的一个简单样本,且两组样本相互独立,其中总体均值 μ1,μ2 未知,两个独立总体有相同的方差 σ2σ2 可以已知也可以未知.

    从统计学的角度看,就是如下的检验问题:设 δ 是给定的常数,考虑

    1. H0:μ1μ2δH1:μ1μ2<δ

    2. H0:μ1μ2δH1:μ1μ2>δ

    3. H0:μ1μ2=δH1:μ1μ2δ.

    在应用中常见的情况是 σ2 未知,δ=0,这样设计的试验下的检验问题称为成组比较问题或者两样本均值检验问题.

    XYμ1μ2 的优良点估计,由于两个总体方差相等,当 σ2 已知时,取统计检验量

    Z=XYδσ1m+1n.

    μ1μ2=δZN(0,1),可得三个检验问题的水平 α 的检验分别为

    g: Z<uα  H0,  H0;g: Z>uα  H0,  H0;g: |Z|>uα/2  H0,  H0.

    如果 σ2 未知,可以用总体 XY 的样本一起来估计它. 在区间估计中已得到一个优良点估计为

    ST=(m1)S12+(n1)S22m+n2,

    其中 S12,S22 分别为总体 X,Y 的样本方差. 得检验统计量

    T=mnm+nXYδST.

    注意在 μ1μ2=δTtm+n2,由此得到三个检验问题的水平 α 的检验分别为

    h: T<tm+n2(α)  H0,  H0;h: T>tm+n2(α)  H0,  H0;h: |T|>tm+n2(α/2)  H0,  H0.

    这三个检验统称为两样本 t 检验