对称矩阵特征值为实数并且拥有一套正交特征向量,正定矩阵的性质则更好。
对称矩阵 Symmetric matrices
对称矩阵:
实矩阵
A
\mathbf A
A满足
A
=
A
T
\mathbf A=\mathbf A^T
A=AT,为对称矩阵;
或复矩阵
A
\mathbf A
A满足
A
=
A
ˉ
T
=
A
H
(
共轭转置
)
\mathbf A=\mathbf{\bar A}^T=\mathbf A^H(共轭转置)
A=AˉT=AH(共轭转置),为对称矩阵/Hermitian矩阵
下面出现 A = A T \mathbf A=\mathbf A^T A=AT时,都应该知道,说的是实矩阵的情况
我们研究复/实对称矩阵的特征值和特征向量
特征向量的特点:
- 一定能得到一套(n个)正交的特征向量(即使有重特征值,也有足够的线性无关特征向量),所有特征向量相互垂直/正交,即两两内积为0
对于特征值无重根的情况,各特征值对应的特征向量必然互相正交;
对于特征值有重根的情况,多个重特征值对应的特征向量可能在同一平面内,但是也可以人为选择出正交的特征向量(一个例子是单位阵 I \mathbf I I,它是对称矩阵,但所有特征值为1,特征向量充满整个空间,可从中选择正交的特征向量)
证明:
对于对称矩阵 S = S T \mathbf S=\mathbf S^T S=ST,两个不同的特征向量满足 S x = λ x , S y = α y ( λ ≠ α ) \mathbf S\mathbf x=\lambda \mathbf x,\mathbf S\mathbf y=\alpha \mathbf y(\lambda\neq\alpha) Sx=λx,Sy=αy(λ=α)
① S x = λ x \mathbf S\mathbf x=\lambda \mathbf x Sx=λx转置得到 x T S T = λ x T \mathbf x^T\mathbf S^T=\lambda \mathbf x^T xTST=λxT,右乘 y \mathbf y y得到 x T S T y = x T S y = λ x T y \mathbf x^T\mathbf S^T\mathbf y=\mathbf x^T\mathbf S\mathbf y=\lambda \mathbf x^T\mathbf y xTSTy=xTSy=λxTy
② S y = α y \mathbf S\mathbf y=\alpha \mathbf y Sy=αy左乘 x T \mathbf x^T xT得到 x T S y = α x T y \mathbf x^T\mathbf S\mathbf y=\alpha\mathbf x^T \mathbf y xTSy=αxTy
结合①②可知 λ x T y = α x T y \lambda \mathbf x^T\mathbf y=\alpha\mathbf x^T \mathbf y λxTy=αxTy,而 λ ≠ α \lambda\neq\alpha λ=α,故 x T y = 0 \mathbf x^T \mathbf y=0 xTy=0,即两特征向量正交
以前知道有n个无关特征向量就能对角化,又根据上述性质,对称矩阵的对角化结果更简洁
- 谱定理(spectral theorem,“谱”就是指特征值,物理上称为“主轴定理”,其意义在8-3中有介绍)
对于复/实对称矩阵 A \boldsymbol{A} A,一定有 A = Q Λ Q − 1 = Q Λ Q T \boldsymbol{A}=\boldsymbol{Q} \boldsymbol{\Lambda} \boldsymbol{Q}^{-1}=\boldsymbol{Q} \boldsymbol{\Lambda} \boldsymbol{Q}^{T} A=QΛQ−1=QΛQT,其中 Q \boldsymbol{Q} Q为正交矩阵(原因:对称矩阵的特征向量正交,而正交矩阵满足 Q − 1 = Q T \boldsymbol{Q}^{-1}=\boldsymbol{Q}^T Q−1=QT)
理解:为何特征向量正交,对角化时就一定能得到正交矩阵(列向量标准正交)
首先,对称矩阵必有一套正交的特征向量;
我们将其长度缩放,即可得到一套标准正交向量,从而特征向量的矩阵 S \boldsymbol{S} S就是正交矩阵 Q \boldsymbol{Q} Q,满足 Q − 1 = Q T \boldsymbol{Q}^{-1}=\boldsymbol{Q}^T Q−1=QT
利用谱定理,可以得出进一步的推论:
A = Q Λ Q − 1 = [ q 1 q 2 ⋯ q n ] [ λ 1 λ 2 ⋱ λ n ] [ q 1 T q 2 T ⋮ q n T ] = λ 1 q 1 q 1 T + λ 2 q 2 q 2 T + ⋯ + λ n q n q n T \boldsymbol{A}=\boldsymbol{Q \Lambda } \boldsymbol{Q}^{-1}= \left[\begin{array}{llll}\mathbf{q}_{1} & \mathbf{q}_{2} & \cdots & \mathbf{q}_{\mathrm{n}} \end{array}\right]\left[\begin{array}{llll}\lambda_{1} & & & \\& \lambda_{2} & & \\& & \ddots & \\& & & \lambda_{\mathrm{n}} \end{array}\right]\left[\begin{array}{c}\mathbf{q}_{1}{ }^{T} \\\mathbf{q}_{2}{ }^{T} \\\vdots \\\mathbf{q}_{\mathrm{n}}{ }^{T}\end{array}\right]\\ =\lambda_{1} \mathbf{q}_{1} \mathbf{q}_{1}{ }^{T}+\lambda_{2} \mathbf{q}_{2} \mathbf{q}_{2}{ }^{T}+\cdots+\lambda_{\mathrm{n}} \mathbf{q}_{\mathrm{n}} \mathbf{q}_{\mathbf{n}}{ }^{T} A=QΛQ−1=[q1q2⋯qn] λ1λ2⋱λn q1Tq2T⋮qnT =λ1q1q1T+λ2q2q2T+⋯+λnqnqnT
其中的 q k q k T \mathbf{q}_{k} \mathbf{q}_{k}^{T} qkqkT可以视为一维向量 q k \mathbf{q}_{k} qk的投影矩阵 q k q k T q k T q k \frac{\mathbf{q}_{k} \mathbf{q}_{k}^{T}}{\mathbf{q}_{k}^{T}\mathbf{q}_{k}} qkTqkqkqkT(标准正交向量,分母为1)
可见,任何实对称矩阵,可以看作是多个投影矩阵(就是对各个正交的特征向量 q k \mathbf{q}_{k} qk的投影矩阵)的线性组合
特征值的特点
首先回顾:我们下面希望追求具有如下良好性质的矩阵:
- 特征值全为实数(已经知道,复数特征值对应了旋转)
- 特征向量相互正交 / 垂直
- 对于实对称矩阵 A = A T \mathbf A=\mathbf A^T A=AT(或复对称矩阵 A = A ˉ T = A H \mathbf A=\mathbf{\bar A}^T=\mathbf A^H A=AˉT=AH),其所有特征值为实数
证明:
特征向量满足① A x = λ x \mathbf A \mathbf{x}=\lambda \mathbf{x} Ax=λx,两侧同时取共轭得到② A ˉ x ‾ = λ ˉ x ‾ \boldsymbol{\bar A} \overline{\mathrm{x}}=\bar{\lambda} \overline{\mathrm{x}} Aˉx=λˉx
进一步可以得到 x ‾ T A x = λ x ‾ T x \overline{\mathbf{x}}^{T} \boldsymbol{A}\mathbf{x}=\lambda\overline{\mathbf{x}}^{T} \mathbf{x} xTAx=λxTx(①式左乘 x ‾ T \overline{\mathbf{x}}^{T} xT) 和 x ‾ T A ˉ T x = λ ˉ x ‾ T x \overline{\mathbf{x}}^{T} \boldsymbol{\bar A}^T\mathbf{x}= \bar{\lambda}\overline{\mathbf{x}}^{T}\mathbf{x} xTAˉTx=λˉxTx(②式转置后,右乘 x \mathbf{x} x)
对比两式,只要有 A = A ˉ T \boldsymbol{A}=\boldsymbol{\bar A}^T A=AˉT(实矩阵下就是 A = A T \mathbf A=\mathbf A^T A=AT),那么上面两式左侧相等,进而 λ x ‾ T x = λ ˉ x ‾ T x \lambda\overline{\mathbf{x}}^{T} \mathbf{x}= \bar{\lambda}\overline{\mathbf{x}}^{T}\mathbf{x} λxTx=λˉxTx
由于特征向量非零,即 x ‾ T x ≠ 0 \overline{\mathbf{x}}^{T} \mathbf{x} \neq 0 xTx=0(对应复向量模长的平方),故有 λ ˉ = λ \bar{\lambda}=\lambda λˉ=λ,即证得 λ \lambda λ为实数
- 对称阵的特征值的正负符号 和 对称阵(消元后)的主元 相匹配,即正 / 负主元的数目等于正 / 负特征值的数目
证明:
[前置知识:合同矩阵的惯性定理]若有可逆矩阵 A \boldsymbol{A} A满足 A = C B C T \boldsymbol{A} =\boldsymbol{C} \boldsymbol{B} \boldsymbol{C}^{T} A=CBCT(A=LU, U = D L T U=DL^T U=DLT),则称 A \boldsymbol{A} A和 B \boldsymbol B B为合同矩阵,惯性定理是指,合同变换后矩阵的特征值符号不发生变化;
[证明:对称阵的特征值的正负符号 和 对称阵的主元 相匹配]
对称阵 A \boldsymbol{A} A对角化得到 A = Q Λ Q T \boldsymbol{A} =\boldsymbol{Q} \boldsymbol{\Lambda} \boldsymbol{Q}^{T} A=QΛQT,而将对称阵消元得到 A = L D L T \boldsymbol{A} =\boldsymbol{L} \boldsymbol{D} \boldsymbol{L}^{T} A=LDLT,则 D = ( L − 1 Q ) Λ ( L − 1 Q ) T \boldsymbol{D} =\left(\boldsymbol{L}^{-1} \boldsymbol{Q}\right) \boldsymbol{\Lambda}\left(\boldsymbol{L}^{-1} \boldsymbol{Q}\right)^{T} D=(L−1Q)Λ(L−1Q)T; D \boldsymbol{D} D和 Λ \boldsymbol{\Lambda} Λ为合同矩阵,由惯性定理, D \boldsymbol{D} D中正主元的个数等于 Λ \boldsymbol{\Lambda} Λ中正特征值的个数
上一个性质应用:
由
A
\boldsymbol{A}
A的主元,可以判断
A
\boldsymbol{A}
A的特征值的正负号情况
若 A \boldsymbol{A} A的特征值为 λ \lambda λ,则矩阵 A + b I \boldsymbol{A}+b\mathbf I A+bI的特征值为 λ + b \lambda+b λ+b(求解 d e t ( A + b I − λ I ) = 0 det(\boldsymbol{A}+b\mathbf I-\lambda\mathbf I)=0 det(A+bI−λI)=0可知),从而可以通过 A + b I \boldsymbol{A}+b\mathbf I A+bI的主元正负号情况来判断 A \boldsymbol{A} A的特征值与 b b b的大小关系
由上,估计出 A \boldsymbol{A} A的特征值正负情况和大概取值后,可以巧妙判断微分方程中体系的稳定与否(对于复杂的矩阵,无需具体计算特征值)
正定矩阵 Positive definite matrices
在满足对称矩阵的基础上,具有更好性质的一类对称矩阵是正定矩阵
正定矩阵的性质:
-
正定矩阵的所有特征值都为正实数(不仅是实数),它消元后所有主元也都为正数(根据对称矩阵的性质:正 / 负主元的数目等于正 / 负特征值的数目)
-
正定矩阵的行列式必为正数(因为所有特征值为正);并且,正定矩阵左上角的所有任意k阶(1<=k<=n)子矩阵的行列式均为正
例如 [ 5 2 2 3 ] \left[\begin{array}{ll}5 & 2 \\2 & 3\end{array}\right] [5223]是正定矩阵,可以验证上述性质;而 [ − 1 0 0 − 3 ] \left[\begin{array}{ll}-1 &0 \\0 & -3\end{array}\right] [−100−3]不是正定矩阵(主元为负数、左上角一阶子矩阵行列式为-1)
注意,这里将之前的主元、行列式和特征值的概念统一了(对于正定矩阵这些值都是正的),当完全掌握了它们的性质后会推广到非对称矩阵,甚至非方阵