目录

概率论基础-8.数学期望方差协方差

概率论基础 —— 8.数学期望、方差、协方差

https://img-home.csdnimg.cn/images/20240715101418.png 关键词由CSDN通过智能技术生成

我们在学习了离散型和连续型随机概率事件,以及它们的分布函数和密度概率函数之后。接下来我们要学习对概率事件进行评判的技术——期望、方差、协方差。

这些概念有什么用呢,举例来说,对于一次期末考试,如何评估同一个年级的不同班级的学生的学习状况差异,如何找出年级最优班级和最差班级呢,以及在两个班级整体状况都相差不大时,如何比较一个班级学生成绩情况比另一个班级更好呢?

如果还记得我们前面提到过的概率分布函数,那么就可以知道这一类样本的比较,其实属于对样本的分布规律的分析。

文章目录

期望 (Expectation)

只要样本遵循一定的分布,比如说打靶落入靶上的落点就一定分布在靶心周围。又比如加工一批零件,比如笔记本上常见的m2螺丝,加工出来的螺丝精度一定在标准设计尺寸上轻微浮动。 对于数学期望来说,如果统计的事件样本它本身遵循一定分布规律,那么它必然有朝着某个值收敛的特征,着这就是期望。 计算数学期望的方法其实很简单,就是算概率均值,所以在一些数学统计库(程序)里,相关的函数名字可能叫mean(均值),或者expect(期望)。 它的计算方法,对于离散和连续基本是相似的,其数学表示符号是 E ( X ) E(X) E ( X ) : 离散型 E ( X )

∑ x i p i E(X) = \sum x_i p_i E ( X )

∑ x i ​ p i ​ x i x_i x i ​ , k i k_i k i ​ 分别表示样本值,和样本出现概率。 连续型 E ( X )

∫ x f ( x ) d x E(X) = \int x f(x) dx E ( X )

∫ x f ( x ) d x f ( x ) f(x) f ( x ) 学了之前的章节应该认识,它就是概率密度。

方差 (Variance / Square Difference)

我们用期望,计算样本通常收敛在什么值的范围,自然还需要关心样本之间的误差范围。以最开始用来举例的班级期末考试为例,学校需要知道某个年级的A,B,C,D四个班级成绩情况,如果计算期望后,发现它们都收敛在80分左右,那么就需要另外一个指标帮助判断各班级的学习情况 https://i-blog.csdnimg.cn/blog_migrate/09b20518bef4ce2abbc169a53b57c4e5.png#pic_center 在期望都是80分的情况下,学生们的成绩越接近,说明班级同学的差异越少。反之,则说明班级里有学习特别好的人和特别差的人,对于成绩好的学生他们有可能有参加额外的课外补习,而成绩差的有可能放学后放羊的更多。 对于前一种情况,我们从学校的角度来看,说明该班级的负责老师,教育水平不错,管理能力也不错,学生们受到了足够且充分的教育。而后一种情况,既有可能是老师的水平不行,也有可能是班级同学间的家庭差异过大导致的异常。 那么从数学上,一眼看出两组样本在统计上的差异,通常就会用到所谓方差的概念。 Variance 的英文语义是值的样本差异,而方差则是国内根据样本计算方法给予的命名,即平方差,样本与期望之间差的平方,计算方式也大体上差不多。 离散型 D ( X )

∑ ( x i − μ ) 2 D(X) = \sum (x_i - \mu)^2 D ( X )

∑ ( x i ​ − μ ) 2 连续型 D ( X )

∫ ( x − μ ) 2 f ( x ) d x D(X) = \int (x - \mu)^2 f(x) dx D ( X )

∫ ( x − μ ) 2 f ( x ) d x μ \mu μ 在这里都表示期望。此外,我们有一个快速计算方差的公式: D ( X )

E ( X 2 ) − E 2 ( X ) D(X) = E(X^2) - E^2(X) D ( X )

E ( X 2 ) − E 2 ( X ) 即:平方的期望减去期望的平方。

快速计算方差的公式

D ( X )

E ( X 2 ) − E 2 ( X ) D(X) = E(X^2) - E^2(X)

D

(

X

)

=

E

(

X

2

)

E

2

(

X

) 的推导过程其实是从方差的定义出发,通过简单的代数变换得到的。以下是详细的推导过程:

  1. 方差的定义。方差

D ( X ) D(X)

D

(

X

) 定义为随机变量

X X

X 与其期望

E ( X ) E(X)

E

(

X

) 之间差异的平方的期望,即:

D ( X )

E [ ( X − E ( X ) ) 2 ] D(X) = E[(X - E(X))^2]

D

(

X

)

=

E

[(

X

E

(

X

)

)

2

] 2. 展开平方。我们首先对括号中的表达式进行展开:

D ( X )

E [ X 2 − 2 X ⋅ E ( X ) + E ( X ) 2 ] D(X) = E[X^2 - 2X \cdot E(X) + E(X)^2]

D

(

X

)

=

E

[

X

2

2

X

E

(

X

)

E

(

X

)

2

]

这里用了平方的展开公式

( a − b ) 2

a 2 − 2 a b + b 2 (a - b)^2 = a^2 - 2ab + b^2

(

a

b

)

2

=

a

2

2

ab

b

2 ,其中

a

X a = X

a

=

X 和

b

E ( X ) b = E(X)

b

=

E

(

X

) 。 3. 期望的线性性质。期望运算符

E [ ⋅ ] E[\cdot]

E

[

] 是线性的,因此我们可以将期望作用在每一项上:

D ( X )

E [ X 2 ] − 2 E [ X ⋅ E ( X ) ] + E [ E ( X ) 2 ] D(X) = E[X^2] - 2E[X \cdot E(X)] + E[E(X)^2]

D

(

X

)

=

E

[

X

2

]

2

E

[

X

E

(

X

)]

E

[

E

(

X

)

2

] 4. 简化表达式。接下来,我们对公式进行简化:

对于第二项

E [ X ⋅ E ( X ) ] E[X \cdot E(X)]

E

[

X

E

(

X

)] ,因为

E ( X ) E(X)

E

(

X

) 是一个常数,可以将其提到期望运算符外:

E [ X ⋅ E ( X ) ]

E ( X ) ⋅ E ( X )

E ( X ) 2 E[X \cdot E(X)] = E(X) \cdot E(X) = E(X)^2

E

[

X

E

(

X

)]

=

E

(

X

)

E

(

X

)

=

E

(

X

)

2

对于第三项

E [ E ( X ) 2 ] E[E(X)^2]

E

[

E

(

X

)

2

] ,因为

E ( X ) E(X)

E

(

X

) 是常数,因此其平方也是常数,可以直接简化为:

E [ E ( X ) 2 ]

E ( X ) 2 E[E(X)^2] = E(X)^2

E

[

E

(

X

)

2

]

=

E

(

X

)

2

将这些代入方差的表达式中,我们得到:

D ( X )

E [ X 2 ] − 2 E ( X ) 2 + E ( X ) 2 D(X) = E[X^2] - 2E(X)^2 + E(X)^2

D

(

X

)

=

E

[

X

2

]

2

E

(

X

)

2

E

(

X

)

2 5. 合并项。我们合并同类项:

D ( X )

E [ X 2 ] − E ( X ) 2 D(X) = E[X^2] - E(X)^2

D

(

X

)

=

E

[

X

2

]

E

(

X

)

2

因此,我们得到了快速计算方差的公式。

均方差(Mean Variance / Mean Square)

此外,从方差还引申出均方差的概念,也就是对方差算平均值,在随机下降算法中被应用在评判模型与观测值的误差程度。 D ( X ˉ )

D ( X ) n D(\bar{X}) = \frac{D(X)}{n} D ( X ˉ )

n D ( X ) ​

标准差(Standard Deviation)

方差的开根号形式,记得好像中学教材中用的挺多,但是对于科研和实际工作中因为其形式就是方差的开根号形式,所以反而不常用。 数学符号通常用 σ \sigma σ 表示,方差的数学符号通常用 σ 2 \sigma^2 σ 2 ,均方差在传统的数学论文中不怎么常见,所以印象中好像没有专门的符号表示,而在AI领域的论文中通常以简写MSE(Mean Square Equation)或者(Mean Square Error)即均方差误差,形式表示。

另外补充一点,在算法、数据挖掘、AI等领域中,PDF不是指那个看文件的软件,通常指概率密度函数( Probability Density Function)。你看,没用的知识点是不是又增加了一点? σ = D ( X ) = σ 2 \sigma = \sqrt{D(X)} = \sqrt{\sigma^2} σ = D ( X ) ​ = σ 2 ​

关于期望、方差数学符号表示需要注意的一点

另外多说一点,就是在一些论文或者之前提到过的 中,期望有时候又被写成 λ \lambda λ , 而方差一般习惯性用 σ 2 \sigma ^2 σ 2 进行表示,因此对于标准差,就是 σ \sigma σ 了。 苏联体系、英美体系在很多科学技术上符号的应用上很多没有得到有效的统一(这不仅仅在数学,物理学,电学等诸学科里都有所体现),或者形成个统一的世界规范。这对于做科研,比如在阅读文献的时候会造成一定的混淆。 所以,这要求我们在学习这些知识时,一定要理解公式背后的数学含义。而不能简简单单的死记公式。

协方差(Covariance / Correlation Coefficient)

方差是协方差的一种,不过协方差更多的是表示两个变量的变化趋势是否一致。也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。 https://i-blog.csdnimg.cn/blog_migrate/d1ba6609bb8c7d39a214f7603d2da966.png#pic_center 协方差的计算公式为: C o v ( X , Y )

E [ ( X − μ x ) ( Y − μ y ) ] Cov(X, Y) = E [ (X - \mu_x)(Y - \mu_y) ] C o v ( X , Y )

E [( X − μ x ​ ) ( Y − μ y ​ )] 或者 C o v ( X , Y )

E [ ( X − E ( X ) ) ( Y − E ( Y ) ) ] Cov(X, Y) = E[(X - E(X))(Y- E(Y))] C o v ( X , Y )

E [( X − E ( X )) ( Y − E ( Y ))] 也就是X和Y分别与它的期望的差的积。 而从协方差中会得到引申,就是关联系数,即: ρ

C o v ( X , Y ) σ x σ y \rho = \frac{Cov(X, Y)}{\sigma_x \sigma_y} ρ

σ x ​ σ y ​ C o v ( X , Y ) ​ 这里的 σ \sigma σ 是标准差的意思,还有另外的一个表达形式: ρ

C o v ( X , Y ) D ( X ) D ( Y ) \rho = \frac{Cov(X, Y)}{\sqrt{D(X)} \sqrt{D(Y)}} ρ

D ( X ) ​ D ( Y ) ​ C o v ( X , Y ) ​ 这里都是一个意思,只是表达形式上的差异。它有几个等式,其实非常容易推导并证明,你只要把这几个符号代表的函数式代入就能得到了。

  1. C o v ( X , Y ) = C o v ( Y , X ) Cov(X, Y) = Cov(Y, X) C o v ( X , Y ) = C o v ( Y , X )
  2. C o v ( X , X ) = D ( X ) Cov(X, X) = D(X) C o v ( X , X ) = D ( X )
  3. D ( X

Y )

D ( X ) + D ( Y ) + 2 C o v ( X , Y ) D(X+Y) = D(X) + D(Y) + 2Cov(X, Y) D ( X + Y )

D ( X ) + D ( Y ) + 2 C o v ( X , Y ) 4. C o v ( X , Y )

E ( X Y ) − E ( X ) E ( Y ) Cov(X, Y) = E(XY) - E(X)E(Y) C o v ( X , Y )

E ( X Y ) − E ( X ) E ( Y ) 最后,来做一点题吧

例题

例1

设一电路中电流

I ( A ) I(A)

I

(

A

) 与电阻

R ( Ω ) R(\Omega)

R

(

Ω

) 是两个相互独立的随机变量,其概率密度分别为:

g ( i )

{ 2 i 0 ≤ i ≤ 1 0 e l s e g(i) = \left { \begin{matrix} 2i & 0 \leq i \leq 1 \ 0 & else \end{matrix} \right.

g

(

i

)

=

{

2

i

0

0

i

1

e

l

se

h ( r )

{ r 2 9 0 ≤ r ≤ 3 0 e l s e h(r) = \left { \begin{matrix} \frac{r^2}{9} & 0 \leq r \leq 3 \ 0 & else \end{matrix} \right.

h

(

r

)

=

{

9

r

2

0

0

r

3

e

l

se

试求电压V=IR的均值。 扯一点题外话,这类问题在电路中比较常见,比如说直流纹波。比如电路是通过交流电转直流后,经过交变直电路后,多少会存在纹波现象。此外,电路中因为电磁干扰,信号电路也会产生纹波现象。还有,电阻通电后,由于温度、电压变化,也会出现其伏安特性的变化。 这题比较简单,总的来说就是求期望值/均值。只要我们记得对于连续型随机变量,其均值/期望值是如何求解的公式,就能比较容易做出这道题了。 E ( V ) = E ( I R ) = ∫ i g ( i ) d i ⋅ ∫ r h ( r ) d r E(V) = E(IR) = \int i g(i)di \cdot \int r h(r)dr E ( V ) = E ( I R ) = ∫ i g ( i ) d i ⋅ ∫ r h ( r ) d r 带入题干给出的密度公式,和积分范围: E ( V ) = 2 3 i 3 ∣ 0 1 ⋅ 1 36 r 4 ∣ 0 3 = ( 2 3 ) ( 9 4 ) = 3 2 V E(V) = \frac{2}{3} i^3 \bigg|_0^1 \cdot \frac{1}{36} r^4 \bigg |_0^3 = (\frac{2}{3})(\frac{9}{4}) = \frac{3}{2} V E ( V ) = 3 2 ​ i 3 ​ 0 1 ​ ⋅ 36 1 ​ r 4 ​ 0 3 ​ = ( 3 2 ​ ) ( 4 9 ​ ) = 2 3 ​ V

例2

随机变量

X X

X 的分布律如下:

X012
P0.40.30.2

(1)

E ( X ) E(X)

E

(

X

) ;

(2)

Y

X 2 Y = X^2

Y

=

X

2 , 求 E(Y);

(3) D(X) 解(1) , 第一题很简单,直接带入离散型的期望公式 E ( X ) = ∑ x i p i = 0 ∗ 0.4

1 ∗ 0.3 + 2 ∗ 0.2

0.7 E(X) = \sum x_i p_i = 0 * 0.4 + 1 * 0.3 + 2 * 0.2 = 0.7 E ( X )

∑ x i ​ p i ​

0 ∗ 0.4 + 1 ∗ 0.3 + 2 ∗ 0.2

X012
Y014
P0.40.30.3
所以
E
(
Y
)

0.7 解(2) ,这题跟我们之前做离散型的分布律是一样的,先写出Y的分布律

0 ∗ 0.4 + 1 ∗ 0.3 + 4 ∗ 0.3

1.5 E(Y) = 0 * 0.4 + 1 * 0.3 + 4 * 0.3 = 1.5 E ( Y )

0 ∗ 0.4 + 1 ∗ 0.3 + 4 ∗ 0.3

1.5 解(3) ,我们直接引用公式 D ( X )

E ( X 2 ) − E 2 ( X ) D(X) = E(X^2) - E^2(X) D ( X )

E ( X 2 ) − E 2 ( X ) ,所以有: D ( X )

1.5 − 0. 7 2

1.01 D(X) = 1.5 - 0.7^2 = 1.01 D ( X )

1.5 − 0. 7 2

1.01

常用分布的数学期望和方差

再就是这个别人总结的常用数学期望和方差表 https://i-blog.csdnimg.cn/blog_migrate/f4c63dacfc33ef7b14c7f68b35ce8778.png#pic_center 还有就是期望和方差的一些计算公式,如果记不住也没关系,可以直接用公式快速的推导。 https://i-blog.csdnimg.cn/blog_migrate/bcd2ffc0743ccdb92ebdfbb8d36714d1.png#pic_center 另外,关于协方差涉及到一些其他知识点,我们在下一章里再见!