Bootstrap

线代:1.7矩阵对角化二次型


本课程来自 深度之眼,部分截图来自课程视频。
【第一章 线性代数】1.7矩阵对角化二次型
在线LaTeX公式编辑器

任务详解:

1、掌握相似矩阵,对角化,对角化的条件。对称矩阵一定可以对角化
2、二次型与矩阵的正定性,以及如何判断正定,可逆的又一种判断方法

1.相似矩阵

定义7

设A,B都是n阶矩阵,若有可逆矩阵P,使
P − 1 A P = B P^{-1}AP=B P1AP=B
则称B是A的相似矩阵,或说矩阵A与B相似(对应的B与A也是相似的)。对A进行运算 P − 1 A P P^{-1}AP P1AP称为对A进行相似变换,可逆矩阵P称为把A变成B的相似变换矩阵.

定理3

若n阶矩阵A与B相似,则A与B的特征多项式(就是上节课中的 ∣ A − λ E ∣ |A-\lambda E| AλE)相同,从而A与B的特征值亦相同。
证明:
从B的特征多项式来看: ∣ B − λ E ∣ = ∣ P − 1 A P − P − 1 E P ∣ = ∣ P − 1 ( A − λ E ) P ∣ |B-\lambda E|=|P^{-1}AP-P^{-1}EP|=|P^{-1}(A-\lambda E)P| BλE=P1APP1EP=P1(AλE)P
= ∣ P − 1 ∣ ∣ ( A − λ E ) ∣ ∣ P ∣ = ∣ P − 1 ∣ ∣ P ∣ ∣ ( A − λ E ) ∣ =|P^{-1}||(A-\lambda E)||P|=|P^{-1}||P||(A-\lambda E)| =P1(AλE)P=P1P(AλE)
= ∣ P − 1 P ∣ ∣ ( A − λ E ) ∣ = ∣ ( A − λ E ) ∣ =|P^{-1}P||(A-\lambda E)|=|(A-\lambda E)| =P1P(AλE)=(AλE)
所以A与B的特征多项式相同,注意,特征向量不一定一样。

推论

若n阶矩阵A与对角阵
Λ = [ λ 1 λ 2 ⋱ λ n ] \Lambda =\begin{bmatrix} \lambda_1 & & & \\ & \lambda_2 & & \\ & & \ddots& \\ & & & \lambda_n \end{bmatrix} Λ=λ1λ2λn
相似,则 λ 1 , λ 2 , ⋯   , λ n \lambda_1,\lambda_2,\cdots,\lambda_n λ1,λ2,,λn即是A的n个特征值.
因为: Λ \Lambda Λ的特征多项式 ∣ Λ − λ E ∣ |\Lambda-\lambda E| ΛλE为:
∣ λ 1 − λ λ 2 − λ ⋱ λ n − λ ∣ = ( λ 1 − λ ) ( λ 2 − λ ) . . . ( λ n − λ ) \begin{vmatrix} \lambda_1-\lambda & & & \\ & \lambda_2 -\lambda& & \\ & & \ddots& \\ & & & \lambda_n-\lambda \end{vmatrix}=(\lambda_1-\lambda)(\lambda_2-\lambda)...(\lambda_n-\lambda) λ1λλ2λλnλ=(λ1λ)(λ2λ)...(λnλ)
所以: λ 1 , λ 2 , ⋯   , λ n \lambda_1,\lambda_2,\cdots,\lambda_n λ1,λ2,,λn即是 Λ \Lambda Λ的n个特征值.
A又和 Λ \Lambda Λ相似,所以 λ 1 , λ 2 , ⋯   , λ n \lambda_1,\lambda_2,\cdots,\lambda_n λ1,λ2,,λn也是A的n个特征值.

矩阵的对角化

下面我们要讨论的主要问题是:对n阶矩阵A,寻求相似变换矩阵P,使 ∣ P − 1 A P = Λ |P^{-1}AP=\Lambda P1AP=Λ为对角阵,这就称为把矩阵A对角化.
假设已经找到可逆矩阵P,使P-1AP=A为对角阵,我们来讨论P应满足什么关系.
把P用其列向量表示为
P = ( p 1 , p 2 , … , p n ) P=(p_1,p_2,…,p_n) P=(p1,p2,,pn)
∣ P − 1 A P = Λ |P^{-1}AP=\Lambda P1AP=Λ(左右两边同时乘上P)得 A P = P Λ AP=P\Lambda AP=PΛ,即
A ( p 1 , p 2 , … , p n ) = ( p 1 , p 2 , … , p n ) [ λ 1 λ 2 ⋱ λ n ] A(p_1,p_2,…,p_n)=(p_1,p_2,…,p_n)\begin{bmatrix} \lambda_1 & & & \\ & \lambda_2 & & \\ & & \ddots& \\ & & & \lambda_n \end{bmatrix} A(p1,p2,,pn)=(p1,p2,,pn)λ1λ2λn
= ( λ 1 p 1 , λ 2 p 2 , . . . λ n p n ) =(\lambda_1p_1,\lambda_2p_2,...\lambda_np_n) =(λ1p1,λ2p2,...λnpn)
于是有: A p i = λ i p i ( i = 1 , 2 , . . . , n ) Ap_i=\lambda_ip_i(i=1,2,...,n) Api=λipi(i=1,2,...,n),这个是特征向量的定义里面的公式( A x = λ x Ax=\lambda x Ax=λx)啊~~

定理4

n阶矩阵A与对角阵相似(即A能对角化)的充分必要条件是A有n个线性无关的特征向量(可以解出n个 ( p 1 , p 2 , … , p n ) (p_1,p_2,…,p_n) (p1,p2,,pn))。

定理2

( λ 1 , λ 2 , . . . λ m ) (\lambda_1,\lambda_2,...\lambda_m) (λ1,λ2,...λm)是方阵A的m个特征值, ( p 1 , p 2 , … , p m ) (p_1,p_2,…,p_m) (p1,p2,,pm)依次是与之对应的特征向量,如果 ( λ 1 , λ 2 , . . . λ m ) (\lambda_1,\lambda_2,...\lambda_m) (λ1,λ2,...λm)各不相等,则 ( p 1 , p 2 , … , p m ) (p_1,p_2,…,p_m) (p1,p2,,pm)线性无关.
推论:如果n阶矩阵A的n个特征值互不相等,则A与对角阵相似.
推理证明:n阶矩阵A的n个特征值互不相等,即 ( λ 1 , λ 2 , . . . λ n ) (\lambda_1,\lambda_2,...\lambda_n) (λ1,λ2,...λn)各不相等,根据定理2可知,与 ( λ 1 , λ 2 , . . . λ n ) (\lambda_1,\lambda_2,...\lambda_n) (λ1,λ2,...λn)对应的特征向量 ( p 1 , p 2 , … , p n ) (p_1,p_2,…,p_n) (p1,p2,,pn)线性无关.,根据定理4,n阶矩阵A与对角阵相似。
上面这几个小节虽然讲了矩阵对角化的判别标准,但是这个标准需要去计算矩阵的n个特征值,很是麻烦,有么有什么方法可以不用计算就判断矩阵是否可以对角化呢?看下一节!

对称矩阵的对角化

对称矩阵一定是可以对角化滴。
定理5:对称阵的特征值为实数
定理6:设 λ 1 , λ 2 \lambda_1,\lambda_2 λ1,λ2是对称阵A的两个特征值, p 1 , p 2 p_1,p_2 p1,p2,是对应的特征向量.若 λ 1 ≠ λ 2 \lambda_1\neq\lambda_2 λ1=λ2,则 p 1 与 p 2 p_1与p_2 p1p2正交.(上面是讲线性无关,这里约束更强)
证明: λ 1 , λ 2 \lambda_1,\lambda_2 λ1,λ2是对称阵A的两个特征值
因此有: λ 1 p 1 = A p 1 , λ 2 p 2 = A p 2 , λ 1 ≠ λ 2 \lambda_1p_1=Ap_1,\lambda_2p_2=Ap_2,\lambda_1\neq\lambda_2 λ1p1=Ap1,λ2p2=Ap2,λ1=λ2
因A对称,故 λ 1 p 1 T = ( λ 1 p 1 ) T = ( A p 1 ) T = p 1 T A T = p 1 T A \lambda_1p_1^T=(\lambda_1p_1)^T=(Ap_1)^T=p_1^TA^T=p_1^TA λ1p1T=(λ1p1)T=(Ap1)T=p1TAT=p1TA,这个式子等式两边的右边在乘以 p 2 p_2 p2,得:
λ 1 p 1 T p 2 = p 1 T A p 2 \lambda_1p_1^Tp_2=p_1^TAp_2 λ1p1Tp2=p1TAp2,把 λ 2 p 2 = A p 2 \lambda_2p_2=Ap_2 λ2p2=Ap2代入:
λ 1 p 1 T p 2 = p 1 T A p 2 = p 1 T ( λ 2 p 2 ) = λ 2 p 1 T p 2 \lambda_1p_1^Tp_2=p_1^TAp_2=p_1^T(\lambda_2p_2)=\lambda_2p_1^Tp_2 λ1p1Tp2=p1TAp2=p1T(λ2p2)=λ2p1Tp2,即
( λ 1 − λ 2 ) p 1 T p 2 = 0 (\lambda_1-\lambda_2)p_1^Tp_2=0 (λ1λ2)p1Tp2=0
由于 λ 1 ≠ λ 2 \lambda_1\neq\lambda_2 λ1=λ2,故 p 1 T p 2 = 0 p_1^Tp_2=0 p1Tp2=0,即 p 1 与 p 2 p_1与p_2 p1p2正交
定理7:设A为n阶对称阵,则必有正交阵P,使 P − 1 A P = P T A P = Λ P^{-1}AP=P^TAP=\Lambda P1AP=PTAP=Λ,其中 Λ \Lambda Λ是以A的n个特征值为对角元的对角阵.
这个定理描述了两个东西,根据A对称,或者说 A = A T A=A^{T} A=AT
1、 P − 1 A P = Λ = P T A P P^{-1}AP=\Lambda=P^TAP P1AP=Λ=PTAP
2、P还是一个正交阵: P T P = P P T = E P^TP=PP^T=E PTP=PPT=E

推论

设A为n阶对称阵,λ是A的特征方程的k重根,则矩阵A-λE的秩R(A-λE)=n-k,从而对应特征值λ恰有k个线性无关的特征向量。
证明:按定理7知对称阵A与对角阵 Λ = d i a g ( λ 1 , … , λ n ) \Lambda=diag(\lambda_1,…,\lambda_n) Λ=diag(λ1,,λn)相似,从而A-λE与 Λ − λ E = d i a g ( λ 1 , … , λ n ) \Lambda-\lambda E=diag(\lambda_1,…,\lambda_n) ΛλE=diag(λ1,,λn)相似.当λ是A的k重特征根时, λ 1 , … , λ n \lambda_1,…,\lambda_n λ1,,λn这n个特征值中有k个等于λ,有n-k个不等于λ,从而对角阵 Λ − λ E \Lambda-\lambda E ΛλE的对角元恰有k个等于0,于是 R ( Λ − λ E ) = n − k R(\Lambda-λE)=n-k R(ΛλE)=nk R ( A − λ E ) = R ( Λ − λ E ) R(A-λE)=R(\Lambda-λE) R(AλE)=R(ΛλE),所以 R ( A − λ E ) = n − k . R(A-λE)=n-k. R(AλE)=nk.证毕
说人话:就是对于n阶对称矩阵A来说,有k重根,就有k个解。

依据定理7及其推论,我们有下述把对称阵A对角化的步骤:
(i)求出A的全部互不相等的特征值 λ 1 , … , λ s \lambda_1,…,\lambda_s λ1,,λs,它们的重数依次为 k 1 , … , k s ( k 1 + … + k s = n ) k_1,…,k_s(k1+…+k_s=n) k1,,ks(k1++ks=n).
(ii)对每个k重特征值λ,求方程 ( A − λ i E ) x = 0 (A-λ_iE)x=0 (AλiE)x=0的基础解系,得 k i k_i ki个线性无关的特征向量.再把它们正交化、单位化,得 k i k_i ki个两两正交的单位特征向量.因 k 1 + … + k s = n k1+…+k_s=n k1++ks=n,故总共可得n个两两正交的单位特征向量.
(iii)把这n个两两正交的单位特征向量构成正交阵P,便有 P − 1 A P = P T A P = Λ P^{-1}AP=P^TAP=\Lambda P1AP=PTAP=Λ注意 Λ \Lambda Λ中对角元的排列次序应与P中列向量的排列次序相对应.

例子

A = [ 0 − 1 1 − 1 0 1 1 1 0 ] A=\begin{bmatrix} 0& -1&1 \\ -1 & 0& 1 \\ 1 &1 & 0 \end{bmatrix} A=011101110求一个正交阵P,使 P − 1 A P = Λ P^{-1}AP=\Lambda P1AP=Λ
解:由
在这里插入图片描述
求得A的特征值为 λ 1 = − 2 , λ 2 = λ 3 = 1 \lambda_1=-2,\lambda_2=\lambda_3=1 λ1=2λ2=λ3=1.
对应 λ 1 = − 2 \lambda_1=-2 λ1=2,解方程(A+2E)x=0,由
在这里插入图片描述
对应 λ 2 = λ 3 = 1 \lambda_2=\lambda_3=1 λ2=λ3=1,解方程(A-E)x=0,由
在这里插入图片描述
在这里插入图片描述
以上将 ξ 2 , ξ 3 \xi_2,\xi_3 ξ2,ξ3正交化的操作,可以百度施密特规范, ξ 2 , ξ 3 \xi_2,\xi_3 ξ2,ξ3是线性无关,但不正交,这里是正交化后单位化
至此 p 1 , p 2 , p 3 p_1,p_2,p_3 p1,p2,p3都求出来了,组合变成P
在这里插入图片描述

解空间

对于线性方程 A x = 0 Ax=0 Ax=0来说,有: R ( A ) + N ( A ) = n R(A)+N(A)=n R(A)+N(A)=n,其中R(A)为系数矩阵A的秩,N(A)为线性方程解的维度,例如下面这个例子就是一维的解
在这里插入图片描述
n为方程的未知数个数。

2.二次型以及矩阵的正定性

在解析几何中,为了便于研究二次曲线
a x 2 + b x y + c y 2 = 1 ax^2+bxy+cy^2=1 ax2+bxy+cy2=1
的几何性质,可以选择适当的坐标旋转变换
{ x = x ′ c o s θ − y ′ s i n θ , y = x ′ s i n θ − y ′ c o s θ , \left\{\begin{matrix} x=x'cos\theta-y'sin\theta,\\y=x'sin\theta-y'cos\theta, \end{matrix}\right. {x=xcosθysinθ,y=xsinθycosθ,
把方程化为标准形
m x ′ 2 + n y ′ 2 = 1 mx'^2+ny'^2=1 mx2+ny2=1
也就是: a x 2 + b x y + c y 2 = f ( x , y ) ax^2+bxy+cy^2=f(x,y) ax2+bxy+cy2=f(x,y)
上面是2次方程,下面推广到n个变量 x 1 , x 2 , … , x n x_1,x_2,…,x_n x1,x2,,xn的方程:

定义8

含有n个变量 x 1 , x 2 , … , x n x_1,x_2,…,x_n x1,x2,,xn的二次齐次函数
f ( x 1 , x 2 , … , x n ) = a 11 x 1 2 i + a 22 x 2 2 + … + a n n x n 2 + 2 a 12 x 1 x 2 + 2 a 13 x 1 x 3 + … + 2 a n − 1 , n x n − 1 x n f(x_1,x_2,…,x_n)=a_{11}x_1^2i+ a_{22}x_2^2+…+a_{nn}x_n^2+2a_{12}x_1x_2+2a_{13}x_1x_3+…+2a_{n-1,n}x_{n-1}x_n f(x1,x2,,xn)=a11x12i+a22x22++annxn2+2a12x1x2+2a13x1x3++2an1,nxn1xn
称为二次型.
对于二次型,我们讨论的主要问题是:寻求可逆的线性变换
在这里插入图片描述
使二次型只含平方项,能使:
f = k 1 y 1 2 + k 2 y 2 2 + . . . + k n y n 2 f=k_1y_1^2+k_2y_2^2+...+k_ny_n^2 f=k1y12+k2y22+...+knyn2
这种只含平方项的二次型,称为二次型的标准形(或法式).

说人话:对于 f ( x 1 , x 2 , … , x n ) f(x_1,x_2,…,x_n) f(x1,x2,,xn)找到一个线性变换(就是把x坐标线性变换到y),使得整个函数可以写为: k 1 y 1 2 + k 2 y 2 2 + . . . + k n y n 2 k_1y_1^2+k_2y_2^2+...+k_ny_n^2 k1y12+k2y22+...+knyn2,这个模式不含 2 a 12 x 1 x 2 + 2 a 13 x 1 x 3 + … + 2 a n − 1 , n x n − 1 x n 2a_{12}x_1x_2+2a_{13}x_1x_3+…+2a_{n-1,n}x_{n-1}x_n 2a12x1x2+2a13x1x3++2an1,nxn1xn这种交叉项的。

如果标准形的系数 k 1 , k 2 , … , k n k_1,k_2,…,k_n k1,k2,,kn只在1,-1,0三个数中取值:
f = y 1 2 + … + y p 2 − y p + 1 2 − … − y r 2 f=y_1^2+…+y_p^2-y_{p+1}^2-…-y_r^2 f=y12++yp2yp+12yr2
则称上式为二次型的规范形.
要把标准形变成规范形就是把系数k放入平方中,例如: k 1 y 1 2 = ( k 1 y 1 ) 2 k_1y_1^2=(\sqrt{k_1}y_1)^2 k1y12=(k1 y1)2,然后令 z = k 1 y 1 z=\sqrt{k_1}y_1 z=k1 y1,则: k 1 y 1 2 = z 2 k_1y_1^2=z^2 k1y12=z2
下面是数学的具体表达
在这里插入图片描述

在这里插入图片描述
则二次型可记作:
f = x T A x (1) f=x^TAx\tag{1} f=xTAx(1)
其中A为对称阵.。
例子:
在这里插入图片描述
公式(1)中,如果A是对角矩阵该多棒,一下子就是标准型甚至规范型了
在这里插入图片描述
下面就是要把A变成对角矩阵,形成标准形:
由于A是对称阵,有: P T A P = Λ P^TAP=\Lambda PTAP=Λ----》 A = ( P T ) − 1 Λ P − 1 A=(P^T)^{-1}\Lambda P^{-1} A=(PT)1ΛP1,令 P − 1 = Q P^{-1}=Q P1=Q ( P T ) − 1 = ( P − 1 ) T = Q T (P^T)^{-1}=(P^{-1})^T=Q^T (PT)1=(P1)T=QT式子变成 Q T Λ Q Q^T\Lambda Q QTΛQ,把 A = Q T Λ Q A=Q^T\Lambda Q A=QTΛQ代入公式(1)
f = x T Q T Λ Q x = ( x Q ) T Λ Q x f=x^TQ^T\Lambda Qx=(xQ)^T\Lambda Qx f=xTQTΛQx=(xQ)TΛQx
Q x = y Qx=y Qx=y,上式可以写成: f = y T Λ y f=y^T\Lambda y f=yTΛy
这个是关于y的标准形

正定的概念:

定义10:设有二次型 f ( x ) = x T A x f(x)=x^TAx f(x)=xTAx,如果对任何 x ≠ 0 x\neq0 x=0,都有 f ( x ) > 0 f(x)>0 f(x)>0(显然 f ( 0 ) = 0 f(0)=0 f(0)=0),则称f为正定二次型,并称对称阵A是正定的;如果对任何 x ≠ 0 x\neq0 x=0都有 f ( x ) < 0 f(x)<0 f(x)<0,则称f为负定二次型,并称对称阵A是负定的。
定理10:n元二次型 f ( x ) = x T A x f(x)=x^TAx f(x)=xTAx为正定的充分必要条件是:它的标准形的n个系数全为正,即它的规范形的n个系数全为1,亦即它的正惯性指数等于n.
推论:对称阵A为正定的充分必要条件是:A的特征值全为正
说人话:对于对称矩阵A, f ( x ) = x T A x f(x)=x^TAx f(x)=xTAx有:

正定对于任意x≠0有:f(x)>0
负定对于任意x≠0有:f(x)<0
半正定对于任意x≠0有:f(x)≥0
半负定对于任意x≠0有:f(x)≤0

说人话:对称矩阵A是正定的,与A的特征值 λ i > 0 \lambda_i>0 λi>0等价,可以推出A可逆;
对称矩阵A是半正定的,与A的特征值 λ i ≥ 0 \lambda_i≥0 λi0等价,A不一定可逆
上面结论在岭回归的时候要用到。。。

;