机器学习数学基础补充资料过渡矩阵和坐标变换推导
《机器学习数学基础》补充资料:过渡矩阵和坐标变换推导
尽管《机器学习数学基础》这本书,耗费了比较长的时间和精力,怎奈学识有限,错误难免。因此,除了在专门的网页( )中发布勘误和修订内容之外,对于重大错误,我还会以专题的形式发布,并做出更多的相关解释。
更欢迎有识之士、广大读者朋友,指出其中的错误。非常感谢大家的帮助。
在《机器学习数学基础》第29页到第30页,推导过渡矩阵和坐标变换的时候,原文有一些错误。下面将推导过程重新编写如下,并且增加一些更详细的说明。此说明没有写入原文,是为了协助理解这段推导而作。
针对性的修改,请参阅:
设
{ α 1 , ⋯ , α n } {\pmb{\alpha}_1, \cdots, \pmb{\alpha}_n}
{
α
1
,
⋯
,
α
n
} (
α i \pmb{\alpha}_i
α
i
表示列向量) 是某个向量空间的一个基,则该空间中一个向量
O A → \overrightarrow{OA}
O
A
可以描述为:
O A →
x 1 α 1 + ⋯ + x n α n (1.3.4) \overrightarrow{OA} = x_1\pmb{\alpha}_1 + \cdots + x_n\pmb{\alpha}_n\tag{1.3.4}
O
A
=
x
1
α
1
⋯
x
n
α
n
(
1.3.4
)
其中的
( x 1 , ⋯ , x n ) (x_1, \cdots, x_n)
(
x
1
,
⋯
,
x
n
) 即为向量
O A → \overrightarrow{OA}
O
A
在基
{ α 1 , ⋯ , α n } {\pmb{\alpha}_1, \cdots, \pmb{\alpha}_n}
{
α
1
,
⋯
,
α
n
} 的 坐标 。
如果有另外一个基
{ β 1 , ⋯ , β n } {\pmb{\beta}_1, \cdots, \pmb{\beta}_n}
{
β
1
,
⋯
,
β
n
} (
β i \pmb{\beta}_i
β
i
表示列向量),向量
O A → \overrightarrow{OA}
O
A
又描述为:
O A →
x 1 ′ β 1 + ⋯ + x n ′ β n (1.3.5) \overrightarrow{OA} = x_1’\pmb{\beta}_1 + \cdots + x_n’\pmb{\beta}_n\tag{1.3.5}
O
A
=
x
1
′
β
1
⋯
x
n
′
β
n
(
1.3.5
)
那么,同一个向量空间的这两个基有没有关系呢?有。不要忘记,基是一个向量组,例如基
{ β 1 , ⋯ , β n } {\pmb{\beta}_1, \cdots, \pmb{\beta}_n}
{
β
1
,
⋯
,
β
n
} 中的每个向量也在此向量空间,所以可以用基
{ α 1 , ⋯ , α n } {\pmb{\alpha}_1, \cdots, \pmb{\alpha}_n}
{
α
1
,
⋯
,
α
n
} 线性表出,即:
{ β 1
b 11 α 1 + ⋯ + b n 1 α n ⋮ β n
b 1 n α 1 + ⋯ + b n n α n \begin{cases}\begin{split}\pmb{\beta}1 &= b{11}\pmb{\alpha}1 + \cdots + b{n1}\pmb{\alpha}_n \ \vdots \\pmb{\beta}n &= b{1n}\pmb{\alpha}1 + \cdots + b{nn}\pmb{\alpha}_n \end{split}\end{cases}
⎩
⎨
⎧
β
1
⋮
β
n
=
b
11
α
1
⋯
b
n
1
α
n
=
b
1
n
α
1
⋯
b
nn
α
n
以矩阵(这里提前使用了矩阵的概念,是因为本书已经在前言中声明,不假定读者完全没有学过高等数学。关于矩阵的更详细内容,请参阅第2章)的方式,可以表示为:
[ β 1 ⋯ β n ]
[ α 1 ⋯ α n ] [ b 11 ⋯ b 1 n ⋮ b n 1 ⋯ b n n ] (1.3.6) \begin{equation} \begin{split} \begin{bmatrix}\pmb{\beta}1&\cdots&\pmb{\beta}n\end{bmatrix} = \begin{bmatrix}\pmb{\alpha}1&\cdots&\pmb{\alpha}n\end{bmatrix}\begin{bmatrix}b{11} & \cdots & b{1n}\\vdots\b{n1} & \cdots &b{nn}\end{bmatrix} \end{split} \end{equation}\tag{1.3.6}
[
β
1
⋯
β
n
]
=
[
α
1
⋯
α
n
]
b
11
⋮
b
n
1
⋯
⋯
b
1
n
b
nn
(
1.3.6
)
其中:
P
[ b 11 ⋯ b 1 n ⋮ b n 1 ⋯ b n n ] \pmb P = \begin{bmatrix}b_{11} & \cdots & b_{1n}\\vdots\b_{n1} & \cdots &b_{nn}\end{bmatrix}
P
=
b
11
⋮
b
n
1
⋯
⋯
b
1
n
b
nn
称为基
{ α 1 , ⋯ , α n } {\pmb{\alpha}_1, \cdots, \pmb{\alpha}_n}
{
α
1
,
⋯
,
α
n
} 向基
{ β 1 , ⋯ , β n } {\pmb{\beta}_1, \cdots, \pmb{\beta}_n}
{
β
1
,
⋯
,
β
n
} 的 过渡矩阵 。显然,过渡矩阵实现了一个基向另一个基的变换。
定义 在同一个向量空间,由基
{ α 1 ⋯ α n } {\pmb{\alpha}_1\quad\cdots\quad\pmb{\alpha}_n}
{
α
1
⋯
α
n
} 向基
{ β 1 ⋯ β n } {\pmb{\beta}_1\quad\cdots\quad\pmb{\beta}_n}
{
β
1
⋯
β
n
} 的过渡矩阵是
P \pmb{P}
P ,则:
[ β 1 ⋯ β n ]
[ α 1 ⋯ α n ] P [\pmb{\beta}_1\quad\cdots\quad\pmb{\beta}_n] = [\pmb{\alpha}_1\quad\cdots\quad\pmb{\alpha}_n]\pmb P
[
β
1
⋯
β
n
]
=
[
α
1
⋯
α
n
]
P
根据(1.3.5)式,可得:
x 1 ′ β 1 + ⋯ + x n ′ β n
x 1 ′ b 11 α 1 + ⋯ + x 1 ′ b n 1 α n + ⋯ + x n ′ b 1 n α 1 + ⋯ + x n ′ b n n α n
( x 1 ′ b 11 + ⋯ + x n ′ b 1 n ) α 1 + ⋯ + ( x 1 ′ b n 1 + ⋯ + x n ′ b n n ) α n \begin{split}x_1’\pmb{\beta}1 + \cdots + x_n’\pmb{\beta}n &= x_1’b{11}\pmb{\alpha}1 + \cdots + x_1’b{n1}\pmb{\alpha}n \ & \quad + \cdots \ & \quad + x_n’b{1n}\pmb{\alpha}1 + \cdots + x_n’b{nn}\pmb{\alpha}n \ &=(x_1’b{11}+ \cdots + x_n’b{1n})\pmb{\alpha}1 \ & \quad + \cdots \ &\quad+(x_1’b{n1} + \cdots + x_n’b_{nn})\pmb{\alpha}_n\end{split}
x
1
′
β
1
⋯
x
n
′
β
n
=
x
1
′
b
11
α
1
⋯
x
1
′
b
n
1
α
n
⋯
x
n
′
b
1
n
α
1
⋯
x
n
′
b
nn
α
n
=
(
x
1
′
b
11
⋯
x
n
′
b
1
n
)
α
1
⋯
(
x
1
′
b
n
1
⋯
x
n
′
b
nn
)
α
n
(1.3.4)式 和(1.3.5)式描述的是同一个向量,所以:
{ x 1
x 1 ′ b 11 + ⋯ + x n ′ b 1 n ⋮ x n
x 1 ′ b n 1 + ⋯ + x n ′ b n n \begin{cases}\begin{split}x_1 &= x_1’b_{11} + \cdots + x_n’b_{1n}\&\vdots\x_n &= x_1’b_{n1} + \cdots + x_n’b_{nn}\end{split}\end{cases}
⎩
⎨
⎧
x
1
x
n
=
x
1
′
b
11
⋯
x
n
′
b
1
n
⋮
=
x
1
′
b
n
1
⋯
x
n
′
b
nn
如果写成矩阵形式,即:
[ x 1 ⋮ x n ]
[ b 11 ⋯ b 1 n ⋮ b n 1 ⋯ b n n ] [ x 1 ′ ⋮ x n ′ ] (1.3.7) \begin{bmatrix}x_1\\vdots\x_n\end{bmatrix} = \begin{bmatrix}b_{11} & \cdots & b_{1n}\\vdots\b_{n1} & \cdots &b_{nn}\end{bmatrix}\begin{bmatrix}x_1’\\vdots\x_n’\end{bmatrix}\tag{1.3.7}
x
1
⋮
x
n
=
b
11
⋮
b
n
1
⋯
⋯
b
1
n
b
nn
x
1
′
⋮
x
n
′
(
1.3.7
)
表示了在同一个向量空间中,向量在不同基下的坐标之间的变换关系,我们称为 坐标变换公式 。
定义 在某个向量空间中,由基
{ α 1 ⋯ α n } {\pmb{\alpha}_1\quad\cdots\quad\pmb{\alpha}_n}
{
α
1
⋯
α
n
} 向基
{ β 1 ⋯ β n } {\pmb{\beta}_1\quad\cdots\quad\pmb{\beta}_n}
{
β
1
⋯
β
n
} 的过渡矩阵是
P \pmb{P}
P 。某向量在基
{ α 1 ⋯ α n } {\pmb{\alpha}_1\quad\cdots\quad\pmb{\alpha}_n}
{
α
1
⋯
α
n
} 的坐标是
x
[ x 1 ⋮ x n ] \pmb{x}=\begin{bmatrix}x_1\\vdots\x_n\end{bmatrix}
x
=
x
1
⋮
x
n
,在基
{ β 1 ⋯ β n } {\pmb{\beta}_1\quad\cdots\quad\pmb{\beta}_n}
{
β
1
⋯
β
n
} 的坐标是
x ′
[ x 1 ′ ⋮ x n ′ ] \pmb x’=\begin{bmatrix}x_1’\\vdots \x_n’\end{bmatrix}
x
′
=
x
1
′
⋮
x
n
′
,这两组坐标之间的关系是:
x
P x ′ \pmb x = \pmb P \pmb x'
x
=
P
x
′
《机器学习数学基础》第29页到第30页的错误,是我讲授《机器学习数学基础》的课程时发现的。现在深刻体会到: 教,然后知不足 。教学相长,认真地研究教学,也是自我提升。