Pseudo Inverse 伪逆

大大源码 • 2023年3月12日 am12:29 • 其他

背景

当

$A$ 为满秩方阵时，方程

Ax=b

$A x = b$ 有解

−

x=A^{-1}b

$x = A^{- 1} b$
当

$A$ 不为满秩方阵时，方程无解，但是我们希望求得近似解

′

arg min

⁡

∥

−

∥

x'=\argmin\|Ax-b\|=A^+b

$x^{'} = a r g m i n ∥ A x - b ∥ = A^{+} b$ ，其中

A^+

$A^{+}$ 为伪逆矩阵

行/列满秩的情形

列满秩

当

$A$ 为列满秩矩阵时，

A^TA

$A^{T} A$ 可逆，

(

−

)

⟺

A^T(Ax-b)=0\iff A^TAx=A^Tb

$A^{T} (A x - b) = 0 ⟺ A^{T} A x = A^{T} b$ 有唯一解

(

)

−

x=(A^TA)^{-1}A^Tb

$x = (A^{T} A)^{- 1} A^{T} b$ ，伪逆矩阵为

(

)

−

A^+=(A^TA)^{-1}A^T

$A^{+} = (A^{T} A)^{- 1} A^{T}$

行满秩

这其实是列满秩的对偶情形，把“矩阵左乘列向量”调换为“矩阵右乘行向量”（如果想要几何理解，那就同时把几何意义也迁移过来），推导如上：
欲求

′

arg min

⁡

∥

−

∥

x'=\argmin_x\|x^TA-b^T\|

$x^{'} = x a r g m i n ∥ x^{T} A - b^{T} ∥$
这样的

$x$ 满足

(

−

)

(x^TA-b^T)A^T=0

$(x^{T} A - b^{T}) A^{T} = 0$
解得

(

)

−

x^T=b^TA^T(AA^T)^{-1}

$x^{T} = b^{T} A^{T} (A A^{T})^{- 1}$
因此伪逆矩阵为

(

)

−

A^+=A^T(AA^T)^{-1}

$A^{+} = A^{T} (A A^{T})^{- 1}$

一般矩阵的情形

满秩分解表示

(

−

)

⟺

A^T(Ax-b)=0\iff A^TAx=A^Tb

$A^{T} (A x - b) = 0 ⟺ A^{T} A x = A^{T} b$ 有多解，我们希望找出其中模长最小的解

考虑

$A$ 的满秩分解

A=FG

$A = F G$

注：满秩分解
设

A

∈

C

r

m

×

n

A\in C_r^{m\times n}

$A \in C_{r}^{m \times n}$ ，则存在列满秩矩阵

B

∈

C

r

m

×

r

B\in C_r^{m\times r}

$B \in C_{r}^{m \times r}$ ，行满秩矩阵

C

∈

C

r

r

×

n

C\in C_r^{r\times n}

$C \in C_{r}^{r \times n}$ ，使得

A

=

B

C

A=BC

$A = B C$
可以证明：
（1）B的列向量为A的列空间的一组基
（2）C的行向量为A的行空间的一组基

首先考虑

$b$ 到

$A$ 的列空间的投影

′

(

)

−

b'=F(F^TF)^{-1}F^Tb

$b^{'} = F (F^{T} F)^{- 1} F^{T} b$
因此只需求解方程

′

Ax=b'

$A x = b^{'}$
这次方程是有解的，且解可能不唯一
假如我们已经知道一个特解

x_0

$x_{0}$ ，那么

x_0

$x_{0}$ 到

$A$ 的行空间的投影

′

(

)

−

x'=G^T(GG^T)^{-1}Gx_0

$x^{'} = G^{T} (G G^{T})^{- 1} G x_{0}$ 就是模长最小的解（特解不用具体找，我们只需要知道它存在就行了）

′

(

)

−

(

)

−

(

)

−

(

)

−

(

)

−

\begin{aligned} Ax_0 & = b' \\ FGx_0 & = F(F^TF)^{-1}F^Tb \\ (F^TF)^{-1}F^TFGx_0 & = (F^TF)^{-1}F^TF(F^TF)^{-1}F^Tb \\ Gx_0 & = (F^TF)^{-1}F^Tb \\ \end{aligned}

$A x_{0} F G x_{0} (F^{T} F)^{- 1} F^{T} F G x_{0} G x_{0} = b^{'} = F (F^{T} F)^{- 1} F^{T} b = (F^{T} F)^{- 1} F^{T} F (F^{T} F)^{- 1} F^{T} b = (F^{T} F)^{- 1} F^{T} b$

注：从第二行到第四行，实际在干的工作是，等式左右同时乘以

F

F

$F$ 的伪逆

F

+

F^+

$F^{+}$ 。
注意

F

F

$F$ 是列满秩矩阵，因此

F

+

=

(

F

T

F

)

−

1

F

T

F^+=(F^TF)^{-1}F^T

$F^{+} = (F^{T} F)^{- 1} F^{T}$

因此

′

(

)

−

(

)

−

(

)

−

\begin{aligned} x' & = G^T(GG^T)^{-1}Gx_0 \\ & = G^T(GG^T)^{-1}(F^TF)^{-1}F^Tb \end{aligned}

$x^{'} = G^{T} (G G^{T})^{- 1} G x_{0} = G^{T} (G G^{T})^{- 1} (F^{T} F)^{- 1} F^{T} b$
因此

(

)

−

(

)

−

A^+ = G^T(GG^T)^{-1}(F^TF)^{-1}F^T

$A^{+} = G^{T} (G G^{T})^{- 1} (F^{T} F)^{- 1} F^{T}$

参考资料

伪逆矩阵
满秩分解
$A^TA$ 可逆 $\iff A$ 列满秩：链接

SVD表示

对于矩阵

∈

A\in M_{m\times n}

$A \in M_{m \times n}$ , 存在正交方阵

∈

U\in M_{n\times n}, V \in M_{n\times n}

$U \in M_{n \times n}, V \in M_{n \times n}$ ，对角矩阵

∈

\Sigma \in M_{m\times n}

$Σ \in M_{m \times n}$ ，满足：

A=U\Sigma V

$A = U Σ V$

注：
在几何推导版本的SVD中，

U

U

$U$ 和

V

V

$V$ 不是方阵，那就补齐一些元素把他们变成正交方阵，这些补齐的元素没有用，因为都会被

Σ

\Sigma

$Σ$ 中的0项给消去。当

U

U

$U$ 和

V

V

$V$ 为正交方阵时，有良好的性质，便于推导。

目标依然是寻找

′

arg min

⁡

∥

−

∥

x'=\argmin\|Ax-b\|

$x^{'} = a r g m i n ∥ A x - b ∥$

∥

−

∥

−

∥

−

∥

∑

(

)

−

(

)

∑

(

)

\begin{aligned} \|Ax-b\|_2 & = \|U\Sigma V^Tx-b\|^2 \\ & \xlongequal{\times \|U^T\|^2=1} \|\Sigma V^Tx-U^Tb\|^2 \\ & = \sum_{i=1}^r\left( \sigma_i(V^Tx)_i - (U^Tb)_i \right)^2 + \sum_{i=r+1}^n(U^Tb)_i^2 \\ \end{aligned}

$∥ A x - b ∥_{2} = ∥ U Σ V^{T} x - b ∥^{2} \times ∥ U^{T} ∥^{2} = 1 ∥ Σ V^{T} x - U^{T} b ∥^{2} = i = 1 \sum r (σ_{i} (V^{T} x)_{i} - (U^{T} b)_{i})^{2} + i = r + 1 \sum n (U^{T} b)_{i}^{2}$
当

(

)

(

)

⋯

\sigma_i(V^Tx)_i = (U^Tb)_i,\quad i = 1,\cdots,r

$σ_{i} (V^{T} x)_{i} = (U^{T} b)_{i}, i = 1, \dots, r$ 时，上式取最小值
即当

(

)

(

)

(V^Tx)_i = \dfrac{1}{\sigma_i} (U^Tb)_i

$(V^{T} x)_{i} = \frac{1}{σ _{i}} (U^{T} b)_{i}$ 时
即当

V^Tx=\Sigma^+U^Tb

$V^{T} x = Σ^{+} U^{T} b$ 时
即当

x=V\Sigma^+U^Tb

$x = V Σ^{+} U^{T} b$ 时
其中

[

⋯

⋮

⋱

⋯

]

∈

\Sigma^+ = \begin{bmatrix} \dfrac{1}{\sigma_1} & 0 & \cdots & 0 \\ 0 & \dfrac{1}{\sigma_2} & \cdots & 0 \\ \vdots & \vdots & \ddots & 0 \\ 0 & 0 & \cdots & \dfrac{1}{\sigma_r} \\ &&&&0 \end{bmatrix} \in M_{n\times m}

$Σ^{+} = ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎡ \frac{1}{σ _{1}} 0 ⋮ 0 0 \frac{1}{σ _{2}} ⋮ 0 \dots \dots ⋱ \dots 000 \frac{1}{σ _{r}} 0 ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎤ \in M_{n \times m}$
因此：