线性代数

线性代数

值域和零空间

设矩阵 ARm×nA \in \mathbf{R}^{m \times n}AA值域是指 Rm\mathbf{R}^{m} 中能够写成 AA 的列向量的线性组合的所有向量的集合,即

R(A)={AxxRn} \begin{aligned} \mathcal{R} (A) = \{Ax \mid x \in \mathbf{R}^{n} \} \end{aligned}

值域 R(A)\mathcal{R} (A)Rm\mathbf{R}^{m} 的子空间,它的维数是 AA,记作 rankA\operatorname{rank} AAA 的秩一定不会大于 mmnn 的较小值。当 rankA=min{m,n}\operatorname{rank} A = \min \{m, n\} 时,称 AA满秩矩阵。

AA零空间(或)是指被 AA 映射成零的所有向量 xx 的集合,即

N(A)={xAx=0} \begin{aligned} \mathcal{N}(A) = \{x \mid Ax=0\} \end{aligned}

正交补

V={xzV,zx=0} \begin{aligned} \mathcal{V}^{\bot} = \{x \mid \forall z \in \mathcal{V}, z^{\top}x=0\} \end{aligned}

有如下结论恒成立:

V=V \begin{aligned} \mathcal{V}^{\bot\bot} = \mathcal{V} \end{aligned}

AA 导出的正交分解

N(A)=R(A) \begin{aligned} \mathcal{N}(A) = \mathcal{R}(A^{\top})^{\bot} \end{aligned}

对称特征值分解

AAnn 阶实对称矩阵,则 AA 可以因式分解为

A=QΛQ \begin{aligned} A = Q \Lambda Q^{\top} \end{aligned}

其中 QRn×nQ \in \mathbf{R}^{n \times n} 是正交矩阵,满足 QQ=IQ^{\top}Q = I,而 Λ=diag(λ1,,λn)\Lambda = \operatorname{diag}(\lambda_1, \cdots, \lambda_n)。实数 λi\lambda_iAA特征值,是特征多项式 det(sIA)\det(sI-A) 的根,QQ 的列向量构成 AA 的一组正交特征向量

通常我们将特征值按从大到小排序,用 λi(A)\lambda_{i}(A) 表示第 ii 大特征值。最大特征值记作 λ1(A)=λmax(A)\lambda_{1}(A) = \lambda_{max}(A),最小特征值记作 λn(A)=λmin(A)\lambda_{n}(A) = \lambda_{min}(A)

特征值具有如下性质:

detA=i=1nλitrA=i=1nλi \begin{aligned} \det A &= \prod_{i=1}^{n} \lambda_i \\ \operatorname{tr} A &= \sum_{i=1}^{n} \lambda_i \end{aligned}

矩阵不等式

λmax(A)=supx0xAxxx,λmin(A)=infx0xAxxx \begin{aligned} \lambda_{\max}(A)=\sup_{x \neq 0} \frac{x^{\top} A x}{x^{\top} x}, \quad \lambda_{\min}(A)=\inf _{x \neq 0} \frac{x^{\top} A x}{x^{\top} x} \end{aligned}

特别地,对 x\forall x,我们有

λmin(A)xxxxλmax(A)xx \begin{aligned} \lambda_{\min}(A)x^{\top}x \leqslant x^{\top}x \leqslant \lambda_{\max}(A)x^{\top}x \end{aligned}

正定矩阵

若矩阵 AAx0\forall x \ne 0,有 xAx>0x^{\top}Ax > 0 成立,则称矩阵 AA 正定,记作 A0A \succ 0。显然,A0A \succ 0 的充要条件是 λmin(A)>0\lambda_{\min}(A) > 0

同理,半正定(非负定)、负定、半负定(非正定)矩阵的定义类似。本文从略。

对称平方根

A1/2=Qdiag(λ11/2,,λn1/2)Q \begin{aligned} A^{1 / 2}=Q \operatorname{diag}\left(\lambda_{1}^{1 / 2}, \cdots, \lambda_{n}^{1 / 2}\right) Q^{\top} \end{aligned}

平方根 A1/2A^{1/2} 是矩阵方程 X2=AX^2 = A 的唯一的对称半正定的解。

广义特征值分解

两个对称矩阵 (A,B)Sn×Sn\left(A, B\right) \in \mathbf{S}^{n} \times \mathbf{S}^{n} 的广义特征值定义为多项式 det(sBA)\det (sB - A) 的根。

奇异值分解

ARm×nA \in \mathbf{R}^{m \times n}rankA=r\operatorname{rank} A = r,那么 AA 可以因式分解为

A=UΣV \begin{aligned} A = U \Sigma V^{\top} \end{aligned}

其中 URm×rU \in \mathbf{R}^{m \times r} 满足 UU=IU^{\top}U = IVRn×rV \in \mathbf{R}^{n \times r} 满足 VV=IV^{\top}V = I,而 Σ=diag(σ1,,σr)\Sigma = \operatorname{diag}(\sigma_1, \cdots, \sigma_r) 满足

σ1σ2σr>0 \begin{aligned} \sigma_1 \geqslant \sigma_2 \geqslant \cdots \geqslant \sigma_r > 0 \end{aligned}

称为 AA奇异值分解(SVD)。UU 的列向量称为 AA左奇异向量VV 的列向量称为 AA右奇异向量,而 σi\sigma_i 称为奇异值。奇异值分解可以写成

A=i=1rσiuivi \begin{aligned} A=\sum_{i=1}^{r} \sigma_{i} u_{i} v_{i}^{\top} \end{aligned}

伪逆

A=UΣVA = U \Sigma V^{\top}Am×nA \in \mathbf{m \times n} 的奇异值分解,rankA=r\operatorname{rank} A = r,则 AA伪逆

A=VΣ1URn×m \begin{aligned} A^{\dagger}=V \Sigma^{-1} U^{\top} \in \mathbf{R}^{n \times m} \end{aligned}

伪逆可以用于求解最小二乘、最小范数、二次规划以及(Euclid)投影这些问题。

Schur 补

考虑进行以下划分的矩阵 XSnX \in \mathbf{S}^{n}

X=[ABBC] \begin{aligned} X = \left [ \begin{matrix} A & B \\ B^{\top} & C \end{matrix} \right ] \end{aligned}

其中 ASkA \in \mathbf{S}^k。如果 detA0\det A \ne 0,矩阵

S=CBA1B \begin{aligned} S = C - B^{\top}A^{-1}B \end{aligned}

被称为 AAXX 中的 Schur 补。Schur 补出现于很多重要的公式和定理中,例如

detX=detAdetS \begin{aligned} \det X = \det A \det S \end{aligned}

分块矩阵求逆

考虑如下分块矩阵方程:

[ABBC][xy]=[uv] \begin{aligned} \left[\begin{array}{cc} A & B \\ B^{\top} & C \end{array}\right]\left[\begin{array}{l} x \\ y \end{array}\right]=\left[\begin{array}{l} u \\ v \end{array}\right] \end{aligned}

假设 detA0\det A \ne 0。将方程中的 xx 消去,解得

y=S1(vBA1u) \begin{aligned} y = S^{-1}\left(v - B^{\top}A^{-1}u\right) \end{aligned}

yy 代入原方程,解得

x=(A1+A1BS1BA1)uA1BS1v \begin{aligned} x=\left(A^{-1}+A^{-1} B S^{-1} B^{\top} A^{-1}\right) u-A^{-1} B S^{-1} v \end{aligned}

于是我们可以得到分块矩阵的求逆公式:

[ABBC]1=[A1+A1BS1BA1A1BS1S1BA1S1] \begin{aligned} \left[\begin{array}{cc} A & B \\ B^{\top} & C \end{array}\right]^{-1}=\left[\begin{array}{cc} A^{-1}+A^{-1} B S^{-1} B^{\top} A^{-1} & -A^{-1} B S^{-1} \\ -S^{-1} B^{\top} A^{-1} & S^{-1} \end{array}\right] \end{aligned}