概率论与数理统计

回顾

反函数的导数:

设函数 y=f(x) 在区间 Ix 上严格单调、可导,f(x)0,则它的反函数 x=f1(y) 在对应的区间 Iy={y|y=f(x),xIx} 上也严格单调、可导,并且

(f1(y))|y=f(x)=1f(x),

亦即

dxdy=1dydx.

变限积分函数的可微性

  • 逐点可导:若函数 f(x)[a,b] 上可积,在点 x0(a,b) 处连续,则函数

    F(x)=axf(t) dt

    在点 x0 处可导,且 F(x0)=f(x0). 若 f(x)x=a 点右连续,则 F+(a)=f(a);若 f(x)x=b 点左连续,则 F(b)=f(b).

  • 复合函数求导:设函数 f(x) 在区间 [a,b] 上连续,u(x),v(x)(α,β) 内可微,且当 x(α,β) 时,u(x),v(x)[a,b],则函数

    ψ(x)=v(x)u(x)f(t) dt

    (α,β) 内可微,且

    ψ(x)=f(u(x))u(x)f(v(x))v(x).

含参变量常义积分

设二元函数 f(x,u) 在有界闭区域 D:axb,αuβ 上连续,称积分

φ(u)=abf(x,u) dx

为含参变量常义积分,其中 u 称为参变量.

若积分限也依赖于参变量,有变限含参常义积分

ψ(u)=a(u)b(u)f(x,u) dx.

含参变量常义积分的可微性

  • 如果函数 f(x,u) 在区域 D 上连续,且在 D 上对参变量 u 有连续的偏导数,则函数 φ(u)[α,β] 上可导,并且

    φ(u)=abf(x,u)u dx,

    即可以交换求导运算与积分运算的顺序,或称在积分号下求导;

  • 如果函数 f(x,u) 在区域 D 上连续,且在 D 上对变量 u 有连续的偏导数,函数 a(u)b(u)[α,β] 上都可导,并且 aa(u),b(u)b,则函数 ψ(u)[α,β] 上可导,并且

    ψ(u)=a(u)b(u)f(x,u)u dx+f(b(u),u)b(u)f(a(u),u)a(u).

第一章 事件及其概率

image-20230313210009344

1.1 概率论简史

一些基本概念:

  • 概率(probability),又称或然率、几率,是表示某个事件出现的可能性大小的一种数量指标,介于 01 之间.

  • 赌博问题中的赢率(odds).

1.2 随机试验和随机事件

基本概念

定义1.1 随机试验

image-20230307195951274

定义1.2 样本空间与事件

image-20230307200042167

  • 随机事件(简称 事件),用英文大写字母 A, B,  表示;

  • 样本空间(sample space):随机试验中所有基本事件构成的集合,用 ΩS 表示;

  • 样本点:样本空间的元素,即基本事件,用 ω 表示.

一个随机试验的样本空间 Ω 是由该试验所有可能结果所组成的集合.

根据样本空间 Ω 的大小,可以将其分为三类:

  • 有限样本空间(仅含有有限个样本点);

  • 可数无穷样本空间(含有无穷且可数个样本点);

  • 不可数样本空间(含有无穷且不可数个样本点).

事件的运算

对事件 A,如果随机试验的结果恰好出现在 A 中,那么我们就称事件 A 在此次随机试验下发生,简称事件 A 发生.

定义1.3 必然事件和不可能事件

image-20230307201436508

习惯上,将必然事件发生的概率设置为 1,将不可能事件发生的概率设置为 0.

但发生概率为 1 的事件未必是必然事件,发生概率为 0 的时间未必是不可能事件.

image-20230307201808858

定义事件运算中的几个基本概念.

定义1.4 事件的和

image-20230307201845355

事件 A 和事件 B 中至少有一个发生,称为 AB 的和,记为 AB.

下面的维恩图(Venn diagram)中阴影部分表示了 AB.

image-20230307202336221

定义1.5 事件的差

image-20230307202354488

事件 A 发生而事件 B 不发生,称为 AB 的差,记为 ABAB.

image-20230307202854888

定义1.6 事件的积

image-20230307202915474

事件 A 和事件 B 同时发生,称为 AB 的积,记为 ABABAB.

image-20230307203037175

定义1.7 不相容事件

image-20230307203119760

事件 A 和事件 B 不能同时发生(即 AB=),称为事件 A 和事件 B 不相容(incompatible)或互斥(mutually exclusive).

image-20230307203347726

特别,当事件两两不相容时,可以把“并”运算符号改写为通常的加号.

AB=A+B, k=1nAk=k=1nAk

定义1.8 对立事件

image-20230307203701672

{ A } 这一事件称为 A 的对立事件(或余事件),记为 AAc.

事件运算的公式

  • AA=A, AA=A

  • ABC=(AB)(AC)

  • A(BC)=ABAC

  • (AB)(CD)=ACBC AD BD

  • 德摩根(A. De Morgan)对偶法则

    • (k=1nAk)c=k=1nAkc

    • (k=1nAk)c=k=1nAkc.

image-20230307205149999

证明两个事件 AB 相同:ωAωBωBωA.

1.3 概率的定义和性质

定义1.9 概率的直观定义

image-20230307205547991

概率是事件的函数,也可以视为是集合的函数. 设 A 为一个事件,用 P(A) 表示事件 A 发生的概率,则由概率定义,

  • 0P(A)1;、

  • P(Ω)=1

  • P()=0.

1.3.1 古典概型

有限性等可能性下定义概率的模型称为古典概型.

image-20230307205931616

一般涉及排列、组合的知识,以及事件的运算. 常用的排列、组合知识归纳如下.

1. 计数原理

加法原理

image-20230307210154213

乘法原理

image-20230307210209342

结论:

2. 盒子模型

image-20230307212237659

结论:

3. 多组组合

image-20230310140642313

4. 不尽相异元素的排列

image-20230310140753588

1.3.2 概率的统计定义

几何概型:对古典概型去掉有限性、保留基本事件的等可能性.

几何概型相当于把样本空间视为一块质量为 1 的均匀木块,事件 A 视为木块中的某部分,则 P(A) 就是该部分的质量.

(去掉等可能性,保留有限性,从另一个角度定义概率)

定义1.10 概率的统计定义

image-20230310141311311

意义:

  • 提供了一种估计概率的方法(如:得出 π 的近似值,破译密码);

  • 提供了理论是否正确的标准(如:验证硬币均匀性).

1.3.3 主观概率的定义

人们常常用一个数字去估计某些概率的大小,而心目中并不把它与频率相连,这种概率称为主观概率.

定义1.11 主观概率定义

image-20230310141717879

作用:

  • 管理科学(经济投资决策);

  • 数据分析,尤其是人工智能的算法(贝叶斯(T. Bayes)学派,与传统的统计学派即频率学派区别)

研究主观概率,以这种观点来处理统计问题,有着非常重要的现实意义.

1.3.4 概率的公理化定义

定义1.12 概率的公理化定义

image-20230310142309857

由概率的公理化定义得到概率的一些性质. 以下讨论的事件均为同一样本空间 Ω 中的可测事件.

  • P()=0;

  • (有限可加性)若 Ak,k=1,2,,n 两两不相容,则

    P(k=1nAk)=k=1nP(Ak);
  • (可减性)若 AB,则 P(BA)=P(B)P(A);

  • (单调性)若 AB,则 P(A)P(B);

  • P(A)=1P(A);

  • (加法原理/容斥原理(inclusion-exclusion principle))对任意的事件 A1,A2,,An,有

    image-20230310143105910

    例:

    P(ABC)=P(A)+P(B)+P(C)P(AB)P(AC)P(BC)+P(ABC)
  • (次可加性)对任意的事件列 A1,A2,,An,,有

    P(n=1An)n=1P(An);
  • *(下连续性) 若事件列满足 AnAn+1,n=1,2,,则

    P(n=1An)=limnP(An);
  • *(上连续性) 若事件列满足 AnAn+1,n=1,2,,则

    P(n=1An)=limnP(An);

1.4 条件概率

1.4.1 条件概率的定义

条件概率,指在试验中在附加一定条件下,感兴趣事件发生的概率,其形式总可归结为“事件 B 发生的条件下事件 A 发生”. 附加的条件一般就是某种信息.

定义1.13 条件概率

image-20230310144446548

image-20230310144547773

某部分的概率就是该部分面积与总面积的比值,图中总面积(Ω 的面积)为一个单位. 现在知道 B 发生了,只考虑 B 而不考虑 B,则 P(A|B) 就是 AB 中的面积 P(AB)B 的面积 P(B) 的比值,即

P(A|B)=P(AB)P(B).

定理1.1 乘法公式

image-20230310144940378

  • P(AB)=P(A)P(B|A)

  • P(A1A2An1)>0,则

    P(A1A2An)=P(A1)P(A2|A1)P(An|A1A2An1)

    (不依赖脚标顺序).

image-20230310145534479

1.4.2 全概率公式

定义1.14 完备事件群

image-20230310145713942

B1,B2,,Bn 是样本空间 Ω 中的一组概率大于 0 的事件,满足

  • BiBj,ij

  • i=1nBi=Ω

则称 B1,B2,,Bn 是样本空间 Ω 的一个完备事件群(划分(partition)).

image-20230310150055060

定理1.2 全概率公式(law of total probability)

image-20230310150129673

B1,B2,,Bn 是样本空间 Ω 的一个划分,AΩ 中任一事件,则

P(A)=i=1nP(A|Bi)P(Bi).

1.4.3 贝叶斯公式

定理1.3 贝叶斯公式

image-20230310150705188

B1,B2,,Bn 是样本空间 Ω 的一个划分,AΩ 中任一事件,P(A)>0,则

P(Bi|A)=P(BiA)P(A)=P(A|Bi)P(Bi)j=1nP(A|Bj)P(Bj).

特别,以 BB 构成划分,则

P(B|A)=P(A|B)P(B)P(A|B)P(B)+P(A|B)P(B).

如果把条件视为“原因”,事件 A 视为“结果”,那么贝叶斯公式反映了因果关系互换之间的概率关系(逆概率(inverse probability)).

1.5 独立性

相互独立

定义1.15 两个事件相互独立

image-20230313203009315

如果事件 A 和事件 B 的发生互不影响,那么两事件是独立的.

推论1.1

image-20230313203310935

两个事件 AB 相互独立,实质是一个事件发生的概率与另外一个事件是否发生没有关系,但这并不意味着事件 AB 本身完全无关.

定理1.4

image-20230313203813581

AB 是样本空间 Ω 中的两个事件,则下述四个陈述相互等价:

  1. AB 独立;

  2. AB 相互独立;

  3. AB 相互独立;

  4. AB 相互独立.

定义1.16 n 个事件相互独立

image-20230313204222295

n 个事件的相互独立蕴涵了其中任意一部分事件相互独立;

即使其中任意 (n1) 个事件都相互独立,也不能保证 n 个事件在整体上相互独立.

定义1.17 等价定义

image-20230313204243896

小概率原理:即使事件 A 是小概率事件,即事件 A 在一次试验中不易发生,但是随着实验次数 n 的增加,事件 A 发生的概率接近于 1.

两两独立

定义1.18 n 个事件两两独立

image-20230313205031537

相互独立的事件列一定是两两独立的,反之则未必.

image-20230313205119247

定义1.19 独立事件列

image-20230313205141857

第二章 随机变量及其分布

image-20230313210517210

2.1 随机变量的概念

取一个样本空间到直线 R 之间的映射 X,该映射把基本事件对应于直线上的一个点,这个映射就称为随机变量(random variable, r.v.).

  • 直观上,随机变量是取值随实验结果而定且有一定概率分布的变量;

  • 数学角度上的严格定义(定义2.1 随机变量):

image-20230313211021009通常我们用大写的英文字母 X,Y,Z,W 等表示随机变量,而用小写的字母 x,y,a,b 等表示实数.

随机变量取哪些值以及取这些值的概率,称为随机变量的分布(distribution).

2.2 离散型随机变量的分布

离散型随机变量,就是取值为离散值的随机变量.

定义2.2 离散型随机变量和分布律

image-20230313211809215

如果随机变量 X 只取有限多个或可数多个值,那么称 X 为离散型随机变量.

X 取的一切可能值为 x1,x2,,xn,,则

(1)P(X=xk)=pk, k=1,2,,n,,

其中

  • pk0, k=1,2,,n,;
  • k=1pk=1.

(1) 式称为离散型随机变量 X 的分布律或概率质量函数(probability mass function, pmf).

image-20230313212713892

2.2.1 0-1 分布

定义2.3 01 分布

image-20230313212901356

X 服从 01 分布/伯努利(Bernoulli)分布/两点分布. 其分布函数也可以写为

P(X=x)=px(1p)1x, x=0  1.

一般在试验中仅考虑事件 A 是否发生时,引入示性函数

IA={1, A ,0, A .

IA01 分布的随机变量.

2.2.2 离散均匀分布

定义2.4 离散均匀分布

image-20230313213347492

古典概型就是离散均匀分布.

image-20230313213537353

分布

P(X=m)=|A|CNn=CMmCNMnmCNn, m=0,1,,n

称为参数为 (N,M,n)超几何分布(hypergeometric distribution).

X 服从参数为 (N,M,n) 的超几何分布记为 XH(N,M,n).

2.2.3 二项分布

A 为随机试验中的一个事件,其发生的概率为 p, 0<p<1,则每次试验结果要么是 A 发生,要么是 A 发生(这种只有两种可能结果的试验称为伯努利试验,事件 A 发生常常称为是“成功”).

如果把该试验在相同条件下独立重复 n 次,记在 n 次独立试验中事件 A 出现的次数(即成功的次数)为 X,这是一个离散型随机变量,{X=k} 表示事件 A 恰好发生 k 次,其中 k=0,1,,n.

定义2.5 二项分布

image-20230313214608889

X 的分布律为

P(X=k)=Cnkpk(1p)nk, k=0,1,,n,

那么称 X 服从二项分布(binomial distribution),记为 XB(n,p),而 P(X=k) 常记为 b(n,p,k).

image-20230313215416802image-20230313215605513

随机变量服从二项分布的条件:

  • 各次试验的条件稳定(保证事件 A 发生的概率 p 在各次试验中保持不变);

  • 各次试验之间相互独立.

2.2.4 负二项分布

如果将伯努利试验一直独立地重复下去,以 Xr 表示第 r 次试验成功发生时的试验次数,p=1q 为成功的概率,那么 Xr 的分布律为

pk=P(X=k)=P({(k1)(r1) k })=P({(k1)(r1)})P({ k })=Ck1r1prqkr, k=r,r+1,

k=rpk=k=rCk1r1prqkr=prk=0Cr+k1r1qk=pr(1q)r=1

定义2.6 负二项分布

image-20230319091718071

设随机变量 Xr 取正整数值,其分布律为