神经网络与深度学习第一章课后习题

2025-03-10 约 6335 字预计阅读 13 分钟

$1. 梯度问题：当预测值远离真实值时，梯度反而变小，导致训练效率太低。以二分类问题为例解释平方损失函数的梯度问题：平方损失函数：L=(y−y^)2L = (y - \hat{y})^2L=(y−y^)2其梯度：∂L∂y^=2(y−y^)\frac{\partial L}{\partial \hat{y}} = 2(y - \hat{y})∂y^∂L=2(y−y^)当真实标签y=1y=1y=1时：如果预测值y^=0.9\hat{y}=0.9y^=0.9，梯度为0.2如果预测值y^=0.1$

神经网络与深度学习第一章课后习题

2-1分析为什么平方损失函数不适用于分类问题。

1. 梯度问题：当预测值远离真实值时，梯度反而变小，导致训练效率太低。

以二分类问题为例解释平方损失函数的梯度问题：

平方损失函数：

L

( y − y ^ ) 2 L = (y - \hat{y})^2

(

−

)

其梯度：

∂ L ∂ y ^

2 ( y − y ^ ) \frac{\partial L}{\partial \hat{y}} = 2(y - \hat{y})

∂

(

−

)

当真实标签

y

1 y=1

1 时：

如果预测值

y ^

0.9 \hat{y}=0.9

0.9 ，梯度为0.2

如果预测值

y ^

0.1 \hat{y}=0.1

0.1 ，梯度为1.8

如果预测值

y ^

3.0 \hat{y}=3.0

3.0 ，梯度为-4.0

可以看出，当预测值偏离得很远时(如

y ^

3.0 \hat{y}=3.0

3.0 )，反而得到更大的负梯度，导致模型更新方向不合理。这违背了我们的直觉：预测越准确，梯度应该越小；预测越不准确，梯度应该越大。

2. 非凸性：在分类场景下会形成非凸函数，容易陷入局部最优。

平方损失函数在分类问题中的非凸性分析：

对于二分类问题，假设真实标签

y ∈ { 0 , 1 } y \in {0,1}

∈

{

} ，模型输出

y ^ \hat{y}

可以是任意实数。平方损失函数为：

L

( y − y ^ ) 2 L = (y - \hat{y})^2

(

−

)

当

y

1 y=1

1 时，损失函数为：

L

( 1 − y ^ ) 2 L = (1 - \hat{y})^2

(

−

)

当

y

0 y=0

0 时，损失函数为：

L

( 0 − y ^ ) 2

y ^ 2 L = (0 - \hat{y})^2 = \hat{y}^2

(

−

)

这形成了一个非凸的损失曲面，意味着：

存在多个局部最小值点

优化算法容易陷入局部最优解

难以保证找到全局最优解

相比之下，交叉熵损失函数是凸函数，更容易优化。

3. 概率解释：输出难以解释为概率值，不适合分类任务的概率预测。

2-2在线性回归中，如果我们给每个样本 ( x ( n ) , y ( n ) ) (x^{(n)}, y^{(n)}) ( x ( n ) , y ( n ) ) 赋予一个权重 r ( n ) r^{(n)} r ( n ) ，经验风险函数为： R ( w ) = 1 2 ∑ n = 1 N r ( n ) ( y ( n ) − w T x ( n ) ) 2 \mathcal{R}(w) = \frac{1}{2} \sum_{n=1}^N r^{(n)}(y^{(n)} - w^T x^{(n)})^2 R ( w ) = 2 1 ∑ n = 1 N r ( n ) ( y ( n ) − w T x ( n ) ) 2 计算其最优参数 w ∗ w^* w ∗ ，并分析权重的作用 r ( n ) r^{(n)} r ( n ) 的作用。

首先，为了求最优参数
w ∗ w^*
w
∗ ，我们需要对
R ( w ) \mathcal{R}(w)
R
(
w
) 求导并令其等于0：

∂ R ( w ) ∂ w

1 2 ∑ n

1 N 2 r ( n ) ( y ( n ) − w T x ( n ) ) ( − x ( n ) )

0 \frac{\partial \mathcal{R}(w)}{\partial w} = \frac{1}{2} \sum_{n=1}^N 2r^{(n)}(y^{(n)} - w^T x^{(n)})(-x^{(n)}) = 0

∂

(

)

∑

(

)

(

)

−

(

)

(

−

(

)

简化后：

∑ n

1 N r ( n ) ( w T x ( n ) − y ( n ) ) x ( n )

0 \sum_{n=1}^N r^{(n)}(w^T x^{(n)} - y^{(n)})x^{(n)} = 0

∑

(

)

(

)

−

(

)

(

)

重新整理方程：

∑ n

1 N r ( n ) x ( n ) ( x ( n ) ) T w

∑ n

1 N r ( n ) x ( n ) y ( n ) \sum_{n=1}^N r^{(n)}x^{(n)}(x^{(n)})^T w = \sum_{n=1}^N r^{(n)}x^{(n)}y^{(n)}

∑

(

)

(

)

(

)

∑

(

)

(

)

(

)

用矩阵形式表示：

( ∑ n

1 N r ( n ) x ( n ) ( x ( n ) ) T ) w

∑ n

1 N r ( n ) x ( n ) y ( n ) (\sum_{n=1}^N r^{(n)}x^{(n)}(x^{(n)})^T)w = \sum_{n=1}^N r^{(n)}x^{(n)}y^{(n)}

(

∑

(

)

(

)

(

)

∑

(

)

(

)

(

)

最优解为：
w ∗
( ∑ n
1 N r ( n ) x ( n ) ( x ( n ) ) T ) − 1 ( ∑ n
1 N r ( n ) x ( n ) y ( n ) ) w^* = (\sum_{n=1}^N r^{(n)}x^{(n)}(x^{(n)})^T)^{-1}(\sum_{n=1}^N r^{(n)}x^{(n)}y^{(n)})
w
∗
=
(
∑
n
=
1
N

r
(
n
)
x
(
n
)
(
x
(
n
)
)
T
)
−
1
(
∑
n
=
1
N

r
(
n
)
x
(
n
)
y
(
n
)
)
权重
r ( n ) r^{(n)}
r
(
n
) 的作用分析：
当
r ( n ) r^{(n)}
r
(
n
) 较大时，对应样本点在优化过程中的影响更大
当
r ( n ) r^{(n)}
r
(
n
) 较小时，对应样本点的影响较小
可以用来处理：
不平衡数据
异常点处理（降低异常点的权重）
基于样本重要性的加权
这实际上是加权最小二乘法(Weighted Least Squares, WLS)的推导过程。

你好！这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。

2-3证明在线性回归中，如果样本数量N小于特征数量D+1，则 X X T XX^T X X T 的秩最大为N。

首先明确矩阵维度：
- 设
  X X
  X 的维度为
  N × D N \times D
  N
  ×
  D ，其中N是样本数，D是特征维度
- 则
  X T X^T
  X
  T 的维度为
  D × N D \times N
  D
  ×
  N
- X X T XX^T
  X
  X
  T 的维度为
  N × N N \times N
  N
  ×
  N
根据矩阵乘法的性质：
- r a n k ( X X T ) ≤ m i n ( r a n k ( X ) , r a n k ( X T ) ) rank(XX^T) \leq min(rank(X), rank(X^T))
  r
  ank
  (
  X
  X
  T
  )
  ≤
  min
  (
  r
  ank
  (
  X
  )
  ,
  r
  ank
  (
  X
  T
  ))
- r a n k ( X )
  r a n k ( X T ) rank(X) = rank(X^T)
  r
  ank
  (
  X
  )
  =
  r
  ank
  (
  X
  T
  )
对于矩阵的秩，有以下性质：
- 矩阵的秩不会超过其行数和列数的最小值
- 即
  r a n k ( X ) ≤ m i n ( N , D ) rank(X) \leq min(N, D)
  r
  ank
  (
  X
  )
  ≤
  min
  (
  N
  ,
  D
  )
在本题条件下：
- 已知
  N < D + 1 N < D+1
  N
  <
  D

 1
 ，即

 N
 ≤
 D
 N \leq D





 N



 ≤





 D

因此
r a n k ( X ) ≤ N rank(X) \leq N
r
ank
(
X
)
≤
N

结合上述性质：
- r a n k ( X X T ) ≤ r a n k ( X ) ≤ N rank(XX^T) \leq rank(X) \leq N
  r
  ank
  (
  X
  X
  T
  )
  ≤
  r
  ank
  (
  X
  )
  ≤
  N
- 而
  X X T XX^T
  X
  X
  T 是一个
  N × N N \times N
  N
  ×
  N 的矩阵
- 因此
  r a n k ( X X T ) rank(XX^T)
  r
  ank
  (
  X
  X
  T
  ) 的最大值为N

2-4在线性回归中，验证岭回归的解为结构风险最小化准则下的最小二乘估计。

首先写出岭回归的目标函数：

J ( w )

1 2 ∑ n

1 N ( y ( n ) − w T x ( n ) ) 2 + λ 2 ∣ ∣ w ∣ ∣ 2 J(w) = \frac{1}{2}\sum_{n=1}^N(y^{(n)} - w^Tx^{(n)})^2 + \frac{\lambda}{2}||w||^2

(

)

∑

(

)

−

(

)

∣∣

∣

其中第一项是经验风险（均方误差），第二项是结构风险（正则化项）。

为求最优解，对
J ( w ) J(w)
J
(
w
) 求导并令其为0：
∂ J ( w ) ∂ w
− ∑ n
1 N ( y ( n ) − w T x ( n ) ) x ( n ) + λ w
0 \frac{\partial J(w)}{\partial w} = -\sum_{n=1}^N(y^{(n)} - w^Tx^{(n)})x^{(n)} + \lambda w = 0
∂
w
∂
J
(
w
)

=
−
∑
n
=
1
N

(
y
(
n
)
−
w
T
x
(
n
)
)
x
(
n
)

0 3. 用矩阵形式重写：

− X T ( y − X w ) + λ w

0 -X^T(y - Xw) + \lambda w = 0

−

(

−

)

− X T y + X T X w + λ w

0 -X^Ty + X^TXw + \lambda w = 0

−

( X T X + λ I ) w

X T y (X^TX + \lambda I)w = X^Ty

(

)

y 4. 因此岭回归的解为：

w ∗

( X T X + λ I ) − 1 X T y w^* = (X^TX + \lambda I)^{-1}X^Ty

∗

(

)

−

y 5. 这正是结构风险最小化准则下的解：

λ
0 \lambda = 0
λ
=
0 时退化为普通最小二乘
λ
0 \lambda > 0
λ
0 时引入了对参数的惩罚项
正则化项
λ 2 ∣ ∣ w ∣ ∣ 2 \frac{\lambda}{2}||w||^2
2
λ

∣∣
w
∣
∣
2 可以：
- 防止过拟合
- 提高模型泛化能力
- 处理特征共线性问题

从贝叶斯角度理解：
- 相当于对参数引入了均值为0、协方差为
  1 λ I \frac{1}{\lambda}I
  λ
  1
  
  I 的高斯先验
- 最终解为后验概率最大化的结果

2-5在线性回归中，若假设标签 y ∼ N ( w T x , β ) y \sim \mathcal{N}(w^Tx, \beta) y ∼ N ( w T x , β ) ，并用最大似然估计求最优化参数时，验证最优参数为公式2.50的解。

首先写出似然函数：
对于单个样本，其概率密度函数为：

p ( y ( n ) ∣ x ( n ) , w )

1 2 π β exp ⁡ ( − ( y ( n ) − w T x ( n ) ) 2 2 β ) p(y^{(n)}|x^{(n)},w) = \frac{1}{\sqrt{2\pi\beta}}\exp(-\frac{(y^{(n)}-w^Tx^{(n)})^2}{2\beta})

(

)

∣

(

)

exp

(

−

(

)

−

(

)

对于所有N个样本，似然函数为：
L ( w )
∏ n
1 N 1 2 π β exp ⁡ ( − ( y ( n ) − w T x ( n ) ) 2 2 β ) L(w) = \prod_{n=1}^N \frac{1}{\sqrt{2\pi\beta}}\exp(-\frac{(y^{(n)}-w^Tx^{(n)})^2}{2\beta})
L
(
w
)
=
∏
n
=
1
N

2
π
β

1

exp
(
−
2
β
(
y
(
n
)
−
w
T
x
(
n
)
)
2

)
取对数似然：
ln ⁡ L ( w )
− N 2 ln ⁡ ( 2 π β ) − 1 2 β ∑ n
1 N ( y ( n ) − w T x ( n ) ) 2 \ln L(w) = -\frac{N}{2}\ln(2\pi\beta) - \frac{1}{2\beta}\sum_{n=1}^N(y^{(n)}-w^Tx^{(n)})^2
ln
L
(
w
)
=
−
2
N

ln
(
2
π
β
)
−
2
β
1

∑
n
=
1
N

(
y
(
n
)
−
w
T
x
(
n
)
)
2
对
w w
w 求导并令其为0：
∂ ln ⁡ L ( w ) ∂ w
1 β ∑ n
1 N ( y ( n ) − w T x ( n ) ) x ( n )
0 \frac{\partial \ln L(w)}{\partial w} = \frac{1}{\beta}\sum_{n=1}^N(y^{(n)}-w^Tx^{(n)})x^{(n)} = 0
∂
w
∂
l
n
L
(
w
)

=
β
1

∑
n
=
1
N

(
y
(
n
)
−
w
T
x
(
n
)
)
x
(
n
)
=
0
用矩阵形式重写：
X T ( y − X w )
0 X^T(y-Xw) = 0
X
T
(
y
−
Xw
)
=
0
X T y − X T X w
0 X^Ty - X^TXw = 0
X
T
y
−
X
T
Xw
=
0
X T X w
X T y X^TXw = X^Ty
X
T
Xw
=
X
T
y
因此最优解为：
w ∗
( X T X ) − 1 X T y w^* = (X^TX)^{-1}X^Ty
w
∗
=
(
X
T
X
)
−
1
X
T
y

2-6假设有N个样本 x ( 1 ) , x ( 2 ) , … , x ( N ) x^{(1)}, x^{(2)}, \ldots, x^{(N)} x ( 1 ) , x ( 2 ) , … , x ( N ) 服从正态分布 N ( μ , σ 2 ) \mathcal{N}(\mu, \sigma^2) N ( μ , σ 2 ) ，其中 μ \mu μ 未知。使用最大似然估计求解最优参数 μ M L E \mu^{MLE} μ M L E 。若参数 μ \mu μ 为随机变量，并服从正态分布 N ( μ 0 , σ 0 2 ) \mathcal{N}(\mu_0, \sigma_0^2) N ( μ 0 , σ 0 2 ) ，使用最大后验估计求解最优参数 μ M A P \mu^{MAP} μ M A P 。

(1) 最大似然估计(MLE)：

写出似然函数：
L ( μ )
∏ n
1 N 1 2 π σ 2 exp ⁡ ( − ( x ( n ) − μ ) 2 2 σ 2 ) L(\mu) = \prod_{n=1}^N \frac{1}{\sqrt{2\pi\sigma^2}}\exp(-\frac{(x^{(n)}-\mu)^2}{2\sigma^2})
L
(
μ
)
=
∏
n
=
1
N

2
π
σ
2

1

exp
(
−
2
σ
2
(
x
(
n
)
−
μ
)
2

)
取对数：
ln ⁡ L ( μ )
− N 2 ln ⁡ ( 2 π σ 2 ) − 1 2 σ 2 ∑ n
1 N ( x ( n ) − μ ) 2 \ln L(\mu) = -\frac{N}{2}\ln(2\pi\sigma^2) - \frac{1}{2\sigma^2}\sum_{n=1}^N(x^{(n)}-\mu)^2
ln
L
(
μ
)
=
−
2
N

ln
(
2
π
σ
2
)
−
2
σ
2
1

∑
n
=
1
N

(
x
(
n
)
−
μ
)
2
求导并令其为0：
∂ ln ⁡ L ( μ ) ∂ μ
1 σ 2 ∑ n
1 N ( x ( n ) − μ )
0 \frac{\partial \ln L(\mu)}{\partial \mu} = \frac{1}{\sigma^2}\sum_{n=1}^N(x^{(n)}-\mu) = 0
∂
μ
∂
l
n
L
(
μ
)

=
σ
2
1

∑
n
=
1
N

(
x
(
n
)
−
μ
)
=
0
解得：
μ M L E
1 N ∑ n
1 N x ( n ) \mu^{MLE} = \frac{1}{N}\sum_{n=1}^N x^{(n)}
μ
M
L
E
=
N
1

∑
n
=
1
N

x
(
n
)

(2) 最大后验估计(MAP)：

根据贝叶斯定理，后验概率正比于似然函数与先验概率的乘积：
p ( μ ∣ X ) ∝ p ( X ∣ μ ) p ( μ ) p(\mu|X) \propto p(X|\mu)p(\mu)
p
(
μ
∣
X
)
∝
p
(
X
∣
μ
)
p
(
μ
)
取对数：
ln ⁡ p ( μ ∣ X )
ln ⁡ p ( X ∣ μ ) + ln ⁡ p ( μ ) + C \ln p(\mu|X) = \ln p(X|\mu) + \ln p(\mu) + C
ln
p
(
μ
∣
X
)
=
ln
p
(
X
∣
μ
)

(

)

C 3. 代入具体表达式：

ln ⁡ p ( μ ∣ X )

− 1 2 σ 2 ∑ n

1 N ( x ( n ) − μ ) 2 − ( μ − μ 0 ) 2 2 σ 0 2 + C \ln p(\mu|X) = -\frac{1}{2\sigma^2}\sum_{n=1}^N(x^{(n)}-\mu)^2 - \frac{(\mu-\mu_0)^2}{2\sigma_0^2} + C

(

∣

)

−

∑

(

)

−

)

−

(

−

)

C 4. 求导并令其为0：

∂ ln ⁡ p ( μ ∣ X ) ∂ μ

1 σ 2 ∑ n

1 N ( x ( n ) − μ ) − μ − μ 0 σ 0 2

0 \frac{\partial \ln p(\mu|X)}{\partial \mu} = \frac{1}{\sigma^2}\sum_{n=1}^N(x^{(n)}-\mu) - \frac{\mu-\mu_0}{\sigma_0^2} = 0

∂

(

∣

)

∑

(

)

−

)

−

0 5. 解得：

μ M A P

σ 0 2 ∑ n

1 N x ( n ) + σ 2 μ 0 N σ 0 2 + σ 2 \mu^{MAP} = \frac{\sigma_0^2\sum_{n=1}^N x^{(n)} + \sigma^2\mu_0}{N\sigma_0^2 + \sigma^2}

∑

(

)

2-7证明在上一题中，当N趋近于无穷时，最大后验估计(MAP)趋向于最大似然估计(MLE)。

回顾两个估计的结果：
MLE:
μ M L E
1 N ∑ n
1 N x ( n ) \mu^{MLE} = \frac{1}{N}\sum_{n=1}^N x^{(n)}
μ
M
L
E
=
N
1

∑
n
=
1
N

x
(
n
)
MAP:
μ M A P
σ 0 2 ∑ n
1 N x ( n ) + σ 2 μ 0 N σ 0 2 + σ 2 \mu^{MAP} = \frac{\sigma_0^2\sum_{n=1}^N x^{(n)} + \sigma^2\mu_0}{N\sigma_0^2 + \sigma^2}
μ
M
A
P
=
N
σ
0
2

∑

(

)

2. 对MAP估计进行变形：

μ M A P

σ 0 2 ∑ n

1 N x ( n ) + σ 2 μ 0 N σ 0 2 + σ 2 \mu^{MAP} = \frac{\sigma_0^2\sum_{n=1}^N x^{(n)} + \sigma^2\mu_0}{N\sigma_0^2 + \sigma^2}

∑

(

)

= σ 0 2 N σ 0 2 + σ 2 ∑ n

1 N x ( n ) + σ 2 N σ 0 2 + σ 2 μ 0 = \frac{\sigma_0^2}{N\sigma_0^2 + \sigma^2}\sum_{n=1}^N x^{(n)} + \frac{\sigma^2}{N\sigma_0^2 + \sigma^2}\mu_0

∑

(

)

3. 当N趋近于无穷时，分析各项：

lim ⁡ N → ∞ σ 0 2 N σ 0 2 + σ 2

lim ⁡ N → ∞ 1 N + σ 2 σ 0 2

1 \lim_{N \to \infty} \frac{\sigma_0^2}{N\sigma_0^2 + \sigma^2} = \lim_{N \to \infty} \frac{1}{N + \frac{\sigma^2}{\sigma_0^2}} = 1

lim

→

∞

lim

→

∞

lim ⁡ N → ∞ σ 2 N σ 0 2 + σ 2

lim ⁡ N → ∞ σ 2 σ 0 2 N + σ 2 σ 0 2

0 \lim_{N \to \infty} \frac{\sigma^2}{N\sigma_0^2 + \sigma^2} = \lim_{N \to \infty} \frac{\frac{\sigma^2}{\sigma_0^2}}{N + \frac{\sigma^2}{\sigma_0^2}} = 0

lim

→

∞

lim

→

∞

0 4. 因此：

lim ⁡ N → ∞ μ M A P

lim ⁡ N → ∞ [ 1 N ∑ n

1 N x ( n ) ]

μ M L E \lim_{N \to \infty} \mu^{MAP} = \lim_{N \to \infty} [\frac{1}{N}\sum_{n=1}^N x^{(n)}] = \mu^{MLE}

lim

→

∞

lim

→

∞

[

∑

(

)

]

E 5. 直观解释：

当样本量N很大时，数据提供的信息远多于先验信息
先验分布的影响（第二项）趋近于0
样本信息的权重（第一项）趋近于1
因此MAP估计渐近地等价于MLE估计

2-8验证公式2.61，即证明在平方损失函数下，最优模型为条件期望 f ∗ ( x ) = E y ∼ p r ( y ∣ x ) [ y ] f^*(x) = \mathbb{E}_{y\sim p_r(y|x)}[y] f ∗ ( x ) = E y ∼ p r ( y ∣ x ) [ y ] 。

首先回顾期望误差的定义（公式2.60）：
R ( f )
E ( x , y ) ∼ p r ( x , y ) [ ( y − f ( x ) ) 2 ] \mathcal{R}(f) = \mathbb{E}_{(x,y)\sim p_r(x,y)}[(y - f(x))^2]
R
(
f
)
=
E
(
x
,
y
)
∼
p
r

(
x
,
y
)

[(
y
−
f
(
x
)
)
2
]
对于固定的x，考虑条件期望：
R ( f ∣ x )
E y ∼ p r ( y ∣ x ) [ ( y − f ( x ) ) 2 ] \mathcal{R}(f|x) = \mathbb{E}_{y\sim p_r(y|x)}[(y - f(x))^2]
R
(
f
∣
x
)
=
E
y
∼
p
r

(
y
∣
x
)

[(
y
−
f
(
x
)
)
2
]
展开平方项：
R ( f ∣ x )
E y ∼ p r ( y ∣ x ) [ y 2 − 2 y f ( x ) + f ( x ) 2 ] \mathcal{R}(f|x) = \mathbb{E}_{y\sim p_r(y|x)}[y^2 - 2yf(x) + f(x)^2]
R
(
f
∣
x
)
=
E
y
∼
p
r

(
y
∣
x
)

[
y
2
−
2
y
f
(
x
)

(

)

]

= E y ∼ p r ( y ∣ x ) [ y 2 ] − 2 f ( x ) E y ∼ p r ( y ∣ x ) [ y ] + f ( x ) 2 = \mathbb{E}{y\sim p_r(y|x)}[y^2] - 2f(x)\mathbb{E}{y\sim p_r(y|x)}[y] + f(x)^2

∼

(

∣

)

[

]

−

(

)

∼

(

∣

)

[

]

(

)

2 4. 为求最优模型，对

f ( x ) f(x)

(

) 求导并令其为0：

∂ R ( f ∣ x ) ∂ f ( x )

− 2 E y ∼ p r ( y ∣ x ) [ y ] + 2 f ( x )

0 \frac{\partial \mathcal{R}(f|x)}{\partial f(x)} = -2\mathbb{E}_{y\sim p_r(y|x)}[y] + 2f(x) = 0

∂

(

)

∂

(

∣

)

−

∼

(

∣

)

[

]

(

)

0 5. 解得：

f ∗ ( x )

E y ∼ p r ( y ∣ x ) [ y ] f^*(x) = \mathbb{E}_{y\sim p_r(y|x)}[y]

∗

(

)

∼

(

∣

)

[

] 6. 验证这是最小值而非最大值：

∂ 2 R ( f ∣ x ) ∂ f ( x ) 2

0 \frac{\partial^2 \mathcal{R}(f|x)}{\partial f(x)^2} = 2 > 0

∂

(

)

∂

(

∣

)

0 7. 因此对每个x，最优预测为：

f ∗ ( x )

E y ∼ p r ( y ∣ x ) [ y ] f^*(x) = \mathbb{E}_{y\sim p_r(y|x)}[y]

∗

(

)

∼

(

∣

)

[

]

2-11分别用一元、二元和三元特征的词袋模型表示文本"我打了张三"和"张三打了我"，并分析不同模型的优缺点。

一元特征(Unigram)表示：

文本分词后：

句子1：“我”，“打”，“了”，“张三”
句子2：“张三”，“打”，“了”，“我”

特征词典：{“我”, “打”, “了”, “张三”}

向量表示：

句子1：[1, 1, 1, 1]
句子2：[1, 1, 1, 1]

二元特征(Bigram)表示：

特征词典：{“我打”, “打了”, “了张三”, “张三打”, “打了”, “了我”}

向量表示：

句子1：[1, 1, 1, 0, 0, 0]
句子2：[0, 0, 0, 1, 1, 1]

三元特征(Trigram)表示：

特征词典：{“我打了”, “打了张三”, “了张三”, “张三打了”, “三打了我”}

向量表示：

句子1：[1, 1, 0, 0, 0]
句子2：[0, 0, 0, 1, 1]

一元特征模型：
优点：

特征空间较小，计算效率高
对数据稀疏性不敏感
词序无关的场景下表现好

缺点：

完全丢失词序信息
无法区分语义相反的句子
如本例中无法区分主谓关系

二元特征模型：
优点：

保留了部分相邻词的顺序信息
能够捕捉一定的短语特征
可以区分简单的语序差异

缺点：

特征空间显著增大
数据稀疏性问题加重
只能捕获局部的序列关系

三元特征模型：
优点：

保留了更多的上下文信息
能够捕捉更长的短语特征
语序表达更准确

缺点：

特征空间急剧膨胀
严重的数据稀疏问题
计算复杂度高
泛化能力下降

2-12 计算三分类问题的各项评估指标。

真实标签：1,1,2,2,2,3,3,3,3

预测标签：1,2,2,2,3,3,3,1,2

分别计算模型的精确率、召回率、F1值以及它们的宏平均和微平均。

首先构建混淆矩阵：
预测\真实类别1 类别2 类别3
类别1 1 0 1
类别2 1 3 1
类别3 0 0 2
计算每个类别的精确率(Precision)：
- P1 = 1/(1+0+1) = 1/2 = 0.5
- P2 = 3/(1+3+1) = 3/5 = 0.6
- P3 = 2/(0+0+2) = 2/2 = 1.0
计算每个类别的召回率(Recall)：
- R1 = 1/(1+1+0) = 1/2 = 0.5
- R2 = 3/(0+3+0) = 3/3 = 1.0
- R3 = 2/(1+1+2) = 2/4 = 0.5
计算每个类别的F1值：
- F1_1 = 2×0.5×0.5/(0.5+0.5) = 0.5
- F1_2 = 2×0.6×1.0/(0.6+1.0) = 0.75
- F1_3 = 2×1.0×0.5/(1.0+0.5) = 0.67
计算宏平均(Macro-average)：
- Macro-P = (0.5 + 0.6 + 1.0)/3 = 0.70
- Macro-R = (0.5 + 1.0 + 0.5)/3 = 0.67
- Macro-F1 = (0.5 + 0.75 + 0.67)/3 = 0.64
计算微平均(Micro-average)：
- 总TP = 1 + 3 + 2 = 6
- 总样本数 = 9
- Micro-P = 6/9 = 0.67
- Micro-R = 6/9 = 0.67
- Micro-F1 = 2×0.67×0.67/(0.67+0.67) = 0.67

类别1：

Precision = 0.50
Recall = 0.50
F1 = 0.50

类别2：

Precision = 0.60
Recall = 1.00
F1 = 0.75

类别3：

Precision = 1.00
Recall = 0.50
F1 = 0.67

宏平均：

Macro-Precision = 0.70
Macro-Recall = 0.67
Macro-F1 = 0.64

微平均：

Micro-Precision = 0.67
Micro-Recall = 0.67
Micro-F1 = 0.67

目录

神经网络与深度学习第一章课后习题

神经网络与深度学习第一章课后习题

2-1分析为什么平方损失函数不适用于分类问题。

L

∂ L ∂ y ^

y

y ^

y ^

y ^

y ^

L

y

L

y

L

( 0 − y ^ ) 2

∂ R ( w ) ∂ w

1 2 ∑ n

1 N 2 r ( n ) ( y ( n ) − w T x ( n ) ) ( − x ( n ) )

∑ n

1 N r ( n ) ( w T x ( n ) − y ( n ) ) x ( n )

∑ n

1 N r ( n ) x ( n ) ( x ( n ) ) T w

∑ n

( ∑ n

1 N r ( n ) x ( n ) ( x ( n ) ) T ) w

∑ n

w ∗

( ∑ n

1 N r ( n ) x ( n ) ( x ( n ) ) T ) − 1 ( ∑ n

2-3证明在线性回归中，如果样本数量N小于特征数量D+1，则 X X T XX^T X X T 的秩最大为N。

r a n k ( X )

2-4在线性回归中，验证岭回归的解为结构风险最小化准则下的最小二乘估计。

J ( w )

1 2 ∑ n

∂ J ( w ) ∂ w

− ∑ n

1 N ( y ( n ) − w T x ( n ) ) x ( n ) + λ w

− X T ( y − X w ) + λ w

− X T y + X T X w + λ w

( X T X + λ I ) w

w ∗

λ

2-5在线性回归中，若假设标签 y ∼ N ( w T x , β ) y \sim \mathcal{N}(w^Tx, \beta) y ∼ N ( w T x , β ) ，并用最大似然估计求最优化参数时，验证最优参数为公式2.50的解。

p ( y ( n ) ∣ x ( n ) , w )

L ( w )

∏ n

ln ⁡ L ( w )

− N 2 ln ⁡ ( 2 π β ) − 1 2 β ∑ n

∂ ln ⁡ L ( w ) ∂ w

1 β ∑ n

1 N ( y ( n ) − w T x ( n ) ) x ( n )

X T ( y − X w )

X T y − X T X w

X T X w

w ∗

L ( μ )

∏ n

ln ⁡ L ( μ )

− N 2 ln ⁡ ( 2 π σ 2 ) − 1 2 σ 2 ∑ n

∂ ln ⁡ L ( μ ) ∂ μ

1 σ 2 ∑ n

1 N ( x ( n ) − μ )

μ M L E

1 N ∑ n

ln ⁡ p ( μ ∣ X )

ln ⁡ p ( μ ∣ X )

− 1 2 σ 2 ∑ n

∂ ln ⁡ p ( μ ∣ X ) ∂ μ

1 σ 2 ∑ n

1 N ( x ( n ) − μ ) − μ − μ 0 σ 0 2

μ M A P

σ 0 2 ∑ n

2-7证明在上一题中，当N趋近于无穷时，最大后验估计(MAP)趋向于最大似然估计(MLE)。

μ M L E

1 N ∑ n

μ M A P

σ 0 2 ∑ n

μ M A P

2-8验证公式2.61，即证明在平方损失函数下，最优模型为条件期望 f ∗ ( x ) = E y ∼ p r ( y ∣ x ) [ y ] f^*(x) = \mathbb{E}_{y\sim p_r(y|x)}[y] f ∗ ( x ) = E y ∼ p r ( y ∣ x ) [ y ] 。