本课程来自 深度之眼,部分截图来自课程视频。
【第一章 线性代数】1.7矩阵对角化二次型
在线LaTeX公式编辑器
任务详解:
1、掌握相似矩阵,对角化,对角化的条件。对称矩阵一定可以对角化
2、二次型与矩阵的正定性,以及如何判断正定,可逆的又一种判断方法
1.相似矩阵
定义7
设A,B都是n阶矩阵,若有可逆矩阵P,使
P
−
1
A
P
=
B
P^{-1}AP=B
P−1AP=B
则称B是A的相似矩阵,或说矩阵A与B相似(对应的B与A也是相似的)。对A进行运算
P
−
1
A
P
P^{-1}AP
P−1AP称为对A进行相似变换,可逆矩阵P称为把A变成B的相似变换矩阵.
定理3
若n阶矩阵A与B相似,则A与B的特征多项式(就是上节课中的
∣
A
−
λ
E
∣
|A-\lambda E|
∣A−λE∣)相同,从而A与B的特征值亦相同。
证明:
从B的特征多项式来看:
∣
B
−
λ
E
∣
=
∣
P
−
1
A
P
−
P
−
1
E
P
∣
=
∣
P
−
1
(
A
−
λ
E
)
P
∣
|B-\lambda E|=|P^{-1}AP-P^{-1}EP|=|P^{-1}(A-\lambda E)P|
∣B−λE∣=∣P−1AP−P−1EP∣=∣P−1(A−λE)P∣
=
∣
P
−
1
∣
∣
(
A
−
λ
E
)
∣
∣
P
∣
=
∣
P
−
1
∣
∣
P
∣
∣
(
A
−
λ
E
)
∣
=|P^{-1}||(A-\lambda E)||P|=|P^{-1}||P||(A-\lambda E)|
=∣P−1∣∣(A−λE)∣∣P∣=∣P−1∣∣P∣∣(A−λE)∣
=
∣
P
−
1
P
∣
∣
(
A
−
λ
E
)
∣
=
∣
(
A
−
λ
E
)
∣
=|P^{-1}P||(A-\lambda E)|=|(A-\lambda E)|
=∣P−1P∣∣(A−λE)∣=∣(A−λE)∣
所以A与B的特征多项式相同,注意,特征向量不一定一样。
推论
若n阶矩阵A与对角阵
Λ
=
[
λ
1
λ
2
⋱
λ
n
]
\Lambda =\begin{bmatrix} \lambda_1 & & & \\ & \lambda_2 & & \\ & & \ddots& \\ & & & \lambda_n \end{bmatrix}
Λ=⎣⎢⎢⎡λ1λ2⋱λn⎦⎥⎥⎤
相似,则
λ
1
,
λ
2
,
⋯
,
λ
n
\lambda_1,\lambda_2,\cdots,\lambda_n
λ1,λ2,⋯,λn即是A的n个特征值.
因为:
Λ
\Lambda
Λ的特征多项式
∣
Λ
−
λ
E
∣
|\Lambda-\lambda E|
∣Λ−λE∣为:
∣
λ
1
−
λ
λ
2
−
λ
⋱
λ
n
−
λ
∣
=
(
λ
1
−
λ
)
(
λ
2
−
λ
)
.
.
.
(
λ
n
−
λ
)
\begin{vmatrix} \lambda_1-\lambda & & & \\ & \lambda_2 -\lambda& & \\ & & \ddots& \\ & & & \lambda_n-\lambda \end{vmatrix}=(\lambda_1-\lambda)(\lambda_2-\lambda)...(\lambda_n-\lambda)
∣∣∣∣∣∣∣∣λ1−λλ2−λ⋱λn−λ∣∣∣∣∣∣∣∣=(λ1−λ)(λ2−λ)...(λn−λ)
所以:
λ
1
,
λ
2
,
⋯
,
λ
n
\lambda_1,\lambda_2,\cdots,\lambda_n
λ1,λ2,⋯,λn即是
Λ
\Lambda
Λ的n个特征值.
A又和
Λ
\Lambda
Λ相似,所以
λ
1
,
λ
2
,
⋯
,
λ
n
\lambda_1,\lambda_2,\cdots,\lambda_n
λ1,λ2,⋯,λn也是A的n个特征值.
矩阵的对角化
下面我们要讨论的主要问题是:对n阶矩阵A,寻求相似变换矩阵P,使
∣
P
−
1
A
P
=
Λ
|P^{-1}AP=\Lambda
∣P−1AP=Λ为对角阵,这就称为把矩阵A对角化.
假设已经找到可逆矩阵P,使P-1AP=A为对角阵,我们来讨论P应满足什么关系.
把P用其列向量表示为
P
=
(
p
1
,
p
2
,
…
,
p
n
)
P=(p_1,p_2,…,p_n)
P=(p1,p2,…,pn)
由
∣
P
−
1
A
P
=
Λ
|P^{-1}AP=\Lambda
∣P−1AP=Λ(左右两边同时乘上P)得
A
P
=
P
Λ
AP=P\Lambda
AP=PΛ,即
A
(
p
1
,
p
2
,
…
,
p
n
)
=
(
p
1
,
p
2
,
…
,
p
n
)
[
λ
1
λ
2
⋱
λ
n
]
A(p_1,p_2,…,p_n)=(p_1,p_2,…,p_n)\begin{bmatrix} \lambda_1 & & & \\ & \lambda_2 & & \\ & & \ddots& \\ & & & \lambda_n \end{bmatrix}
A(p1,p2,…,pn)=(p1,p2,…,pn)⎣⎢⎢⎡λ1λ2⋱λn⎦⎥⎥⎤
=
(
λ
1
p
1
,
λ
2
p
2
,
.
.
.
λ
n
p
n
)
=(\lambda_1p_1,\lambda_2p_2,...\lambda_np_n)
=(λ1p1,λ2p2,...λnpn)
于是有:
A
p
i
=
λ
i
p
i
(
i
=
1
,
2
,
.
.
.
,
n
)
Ap_i=\lambda_ip_i(i=1,2,...,n)
Api=λipi(i=1,2,...,n),这个是特征向量的定义里面的公式(
A
x
=
λ
x
Ax=\lambda x
Ax=λx)啊~~
定理4
n阶矩阵A与对角阵相似(即A能对角化)的充分必要条件是A有n个线性无关的特征向量(可以解出n个 ( p 1 , p 2 , … , p n ) (p_1,p_2,…,p_n) (p1,p2,…,pn))。
定理2
设
(
λ
1
,
λ
2
,
.
.
.
λ
m
)
(\lambda_1,\lambda_2,...\lambda_m)
(λ1,λ2,...λm)是方阵A的m个特征值,
(
p
1
,
p
2
,
…
,
p
m
)
(p_1,p_2,…,p_m)
(p1,p2,…,pm)依次是与之对应的特征向量,如果
(
λ
1
,
λ
2
,
.
.
.
λ
m
)
(\lambda_1,\lambda_2,...\lambda_m)
(λ1,λ2,...λm)各不相等,则
(
p
1
,
p
2
,
…
,
p
m
)
(p_1,p_2,…,p_m)
(p1,p2,…,pm)线性无关.
推论:如果n阶矩阵A的n个特征值互不相等,则A与对角阵相似.
推理证明:n阶矩阵A的n个特征值互不相等,即
(
λ
1
,
λ
2
,
.
.
.
λ
n
)
(\lambda_1,\lambda_2,...\lambda_n)
(λ1,λ2,...λn)各不相等,根据定理2可知,与
(
λ
1
,
λ
2
,
.
.
.
λ
n
)
(\lambda_1,\lambda_2,...\lambda_n)
(λ1,λ2,...λn)对应的特征向量
(
p
1
,
p
2
,
…
,
p
n
)
(p_1,p_2,…,p_n)
(p1,p2,…,pn)线性无关.,根据定理4,n阶矩阵A与对角阵相似。
上面这几个小节虽然讲了矩阵对角化的判别标准,但是这个标准需要去计算矩阵的n个特征值,很是麻烦,有么有什么方法可以不用计算就判断矩阵是否可以对角化呢?看下一节!
对称矩阵的对角化
对称矩阵一定是可以对角化滴。
定理5:对称阵的特征值为实数
定理6:设
λ
1
,
λ
2
\lambda_1,\lambda_2
λ1,λ2是对称阵A的两个特征值,
p
1
,
p
2
p_1,p_2
p1,p2,是对应的特征向量.若
λ
1
≠
λ
2
\lambda_1\neq\lambda_2
λ1=λ2,则
p
1
与
p
2
p_1与p_2
p1与p2正交.(上面是讲线性无关,这里约束更强)
证明:
λ
1
,
λ
2
\lambda_1,\lambda_2
λ1,λ2是对称阵A的两个特征值
因此有:
λ
1
p
1
=
A
p
1
,
λ
2
p
2
=
A
p
2
,
λ
1
≠
λ
2
\lambda_1p_1=Ap_1,\lambda_2p_2=Ap_2,\lambda_1\neq\lambda_2
λ1p1=Ap1,λ2p2=Ap2,λ1=λ2
因A对称,故
λ
1
p
1
T
=
(
λ
1
p
1
)
T
=
(
A
p
1
)
T
=
p
1
T
A
T
=
p
1
T
A
\lambda_1p_1^T=(\lambda_1p_1)^T=(Ap_1)^T=p_1^TA^T=p_1^TA
λ1p1T=(λ1p1)T=(Ap1)T=p1TAT=p1TA,这个式子等式两边的右边在乘以
p
2
p_2
p2,得:
λ
1
p
1
T
p
2
=
p
1
T
A
p
2
\lambda_1p_1^Tp_2=p_1^TAp_2
λ1p1Tp2=p1TAp2,把
λ
2
p
2
=
A
p
2
\lambda_2p_2=Ap_2
λ2p2=Ap2代入:
λ
1
p
1
T
p
2
=
p
1
T
A
p
2
=
p
1
T
(
λ
2
p
2
)
=
λ
2
p
1
T
p
2
\lambda_1p_1^Tp_2=p_1^TAp_2=p_1^T(\lambda_2p_2)=\lambda_2p_1^Tp_2
λ1p1Tp2=p1TAp2=p1T(λ2p2)=λ2p1Tp2,即
(
λ
1
−
λ
2
)
p
1
T
p
2
=
0
(\lambda_1-\lambda_2)p_1^Tp_2=0
(λ1−λ2)p1Tp2=0
由于
λ
1
≠
λ
2
\lambda_1\neq\lambda_2
λ1=λ2,故
p
1
T
p
2
=
0
p_1^Tp_2=0
p1Tp2=0,即
p
1
与
p
2
p_1与p_2
p1与p2正交
定理7:设A为n阶对称阵,则必有正交阵P,使
P
−
1
A
P
=
P
T
A
P
=
Λ
P^{-1}AP=P^TAP=\Lambda
P−1AP=PTAP=Λ,其中
Λ
\Lambda
Λ是以A的n个特征值为对角元的对角阵.
这个定理描述了两个东西,根据A对称,或者说
A
=
A
T
A=A^{T}
A=AT:
1、
P
−
1
A
P
=
Λ
=
P
T
A
P
P^{-1}AP=\Lambda=P^TAP
P−1AP=Λ=PTAP
2、P还是一个正交阵:
P
T
P
=
P
P
T
=
E
P^TP=PP^T=E
PTP=PPT=E
推论
设A为n阶对称阵,λ是A的特征方程的k重根,则矩阵A-λE的秩R(A-λE)=n-k,从而对应特征值λ恰有k个线性无关的特征向量。
证明:按定理7知对称阵A与对角阵
Λ
=
d
i
a
g
(
λ
1
,
…
,
λ
n
)
\Lambda=diag(\lambda_1,…,\lambda_n)
Λ=diag(λ1,…,λn)相似,从而A-λE与
Λ
−
λ
E
=
d
i
a
g
(
λ
1
,
…
,
λ
n
)
\Lambda-\lambda E=diag(\lambda_1,…,\lambda_n)
Λ−λE=diag(λ1,…,λn)相似.当λ是A的k重特征根时,
λ
1
,
…
,
λ
n
\lambda_1,…,\lambda_n
λ1,…,λn这n个特征值中有k个等于λ,有n-k个不等于λ,从而对角阵
Λ
−
λ
E
\Lambda-\lambda E
Λ−λE的对角元恰有k个等于0,于是
R
(
Λ
−
λ
E
)
=
n
−
k
R(\Lambda-λE)=n-k
R(Λ−λE)=n−k而
R
(
A
−
λ
E
)
=
R
(
Λ
−
λ
E
)
R(A-λE)=R(\Lambda-λE)
R(A−λE)=R(Λ−λE),所以
R
(
A
−
λ
E
)
=
n
−
k
.
R(A-λE)=n-k.
R(A−λE)=n−k.证毕
说人话:就是对于n阶对称矩阵A来说,有k重根,就有k个解。
依据定理7及其推论,我们有下述把对称阵A对角化的步骤:
(i)求出A的全部互不相等的特征值
λ
1
,
…
,
λ
s
\lambda_1,…,\lambda_s
λ1,…,λs,它们的重数依次为
k
1
,
…
,
k
s
(
k
1
+
…
+
k
s
=
n
)
k_1,…,k_s(k1+…+k_s=n)
k1,…,ks(k1+…+ks=n).
(ii)对每个k重特征值λ,求方程
(
A
−
λ
i
E
)
x
=
0
(A-λ_iE)x=0
(A−λiE)x=0的基础解系,得
k
i
k_i
ki个线性无关的特征向量.再把它们正交化、单位化,得
k
i
k_i
ki个两两正交的单位特征向量.因
k
1
+
…
+
k
s
=
n
k1+…+k_s=n
k1+…+ks=n,故总共可得n个两两正交的单位特征向量.
(iii)把这n个两两正交的单位特征向量构成正交阵P,便有
P
−
1
A
P
=
P
T
A
P
=
Λ
P^{-1}AP=P^TAP=\Lambda
P−1AP=PTAP=Λ注意
Λ
\Lambda
Λ中对角元的排列次序应与P中列向量的排列次序相对应.
例子
设
A
=
[
0
−
1
1
−
1
0
1
1
1
0
]
A=\begin{bmatrix} 0& -1&1 \\ -1 & 0& 1 \\ 1 &1 & 0 \end{bmatrix}
A=⎣⎡0−11−101110⎦⎤求一个正交阵P,使
P
−
1
A
P
=
Λ
P^{-1}AP=\Lambda
P−1AP=Λ
解:由
求得A的特征值为
λ
1
=
−
2
,
λ
2
=
λ
3
=
1
\lambda_1=-2,\lambda_2=\lambda_3=1
λ1=−2,λ2=λ3=1.
对应
λ
1
=
−
2
\lambda_1=-2
λ1=−2,解方程(A+2E)x=0,由
对应
λ
2
=
λ
3
=
1
\lambda_2=\lambda_3=1
λ2=λ3=1,解方程(A-E)x=0,由
以上将
ξ
2
,
ξ
3
\xi_2,\xi_3
ξ2,ξ3正交化的操作,可以百度施密特规范,
ξ
2
,
ξ
3
\xi_2,\xi_3
ξ2,ξ3是线性无关,但不正交,这里是正交化后单位化
至此
p
1
,
p
2
,
p
3
p_1,p_2,p_3
p1,p2,p3都求出来了,组合变成P
解空间
对于线性方程
A
x
=
0
Ax=0
Ax=0来说,有:
R
(
A
)
+
N
(
A
)
=
n
R(A)+N(A)=n
R(A)+N(A)=n,其中R(A)为系数矩阵A的秩,N(A)为线性方程解的维度,例如下面这个例子就是一维的解
n为方程的未知数个数。
2.二次型以及矩阵的正定性
在解析几何中,为了便于研究二次曲线
a
x
2
+
b
x
y
+
c
y
2
=
1
ax^2+bxy+cy^2=1
ax2+bxy+cy2=1
的几何性质,可以选择适当的坐标旋转变换
{
x
=
x
′
c
o
s
θ
−
y
′
s
i
n
θ
,
y
=
x
′
s
i
n
θ
−
y
′
c
o
s
θ
,
\left\{\begin{matrix} x=x'cos\theta-y'sin\theta,\\y=x'sin\theta-y'cos\theta, \end{matrix}\right.
{x=x′cosθ−y′sinθ,y=x′sinθ−y′cosθ,
把方程化为标准形
m
x
′
2
+
n
y
′
2
=
1
mx'^2+ny'^2=1
mx′2+ny′2=1
也就是:
a
x
2
+
b
x
y
+
c
y
2
=
f
(
x
,
y
)
ax^2+bxy+cy^2=f(x,y)
ax2+bxy+cy2=f(x,y)
上面是2次方程,下面推广到n个变量
x
1
,
x
2
,
…
,
x
n
x_1,x_2,…,x_n
x1,x2,…,xn的方程:
定义8
含有n个变量
x
1
,
x
2
,
…
,
x
n
x_1,x_2,…,x_n
x1,x2,…,xn的二次齐次函数
f
(
x
1
,
x
2
,
…
,
x
n
)
=
a
11
x
1
2
i
+
a
22
x
2
2
+
…
+
a
n
n
x
n
2
+
2
a
12
x
1
x
2
+
2
a
13
x
1
x
3
+
…
+
2
a
n
−
1
,
n
x
n
−
1
x
n
f(x_1,x_2,…,x_n)=a_{11}x_1^2i+ a_{22}x_2^2+…+a_{nn}x_n^2+2a_{12}x_1x_2+2a_{13}x_1x_3+…+2a_{n-1,n}x_{n-1}x_n
f(x1,x2,…,xn)=a11x12i+a22x22+…+annxn2+2a12x1x2+2a13x1x3+…+2an−1,nxn−1xn
称为二次型.
对于二次型,我们讨论的主要问题是:寻求可逆的线性变换
使二次型只含平方项,能使:
f
=
k
1
y
1
2
+
k
2
y
2
2
+
.
.
.
+
k
n
y
n
2
f=k_1y_1^2+k_2y_2^2+...+k_ny_n^2
f=k1y12+k2y22+...+knyn2
这种只含平方项的二次型,称为二次型的标准形(或法式).
说人话:对于 f ( x 1 , x 2 , … , x n ) f(x_1,x_2,…,x_n) f(x1,x2,…,xn)找到一个线性变换(就是把x坐标线性变换到y),使得整个函数可以写为: k 1 y 1 2 + k 2 y 2 2 + . . . + k n y n 2 k_1y_1^2+k_2y_2^2+...+k_ny_n^2 k1y12+k2y22+...+knyn2,这个模式不含 2 a 12 x 1 x 2 + 2 a 13 x 1 x 3 + … + 2 a n − 1 , n x n − 1 x n 2a_{12}x_1x_2+2a_{13}x_1x_3+…+2a_{n-1,n}x_{n-1}x_n 2a12x1x2+2a13x1x3+…+2an−1,nxn−1xn这种交叉项的。
如果标准形的系数
k
1
,
k
2
,
…
,
k
n
k_1,k_2,…,k_n
k1,k2,…,kn只在1,-1,0三个数中取值:
f
=
y
1
2
+
…
+
y
p
2
−
y
p
+
1
2
−
…
−
y
r
2
f=y_1^2+…+y_p^2-y_{p+1}^2-…-y_r^2
f=y12+…+yp2−yp+12−…−yr2
则称上式为二次型的规范形.
要把标准形变成规范形就是把系数k放入平方中,例如:
k
1
y
1
2
=
(
k
1
y
1
)
2
k_1y_1^2=(\sqrt{k_1}y_1)^2
k1y12=(k1y1)2,然后令
z
=
k
1
y
1
z=\sqrt{k_1}y_1
z=k1y1,则:
k
1
y
1
2
=
z
2
k_1y_1^2=z^2
k1y12=z2
下面是数学的具体表达
记
则二次型可记作:
f
=
x
T
A
x
(1)
f=x^TAx\tag{1}
f=xTAx(1)
其中A为对称阵.。
例子:
公式(1)中,如果A是对角矩阵该多棒,一下子就是标准型甚至规范型了
下面就是要把A变成对角矩阵,形成标准形:
由于A是对称阵,有:
P
T
A
P
=
Λ
P^TAP=\Lambda
PTAP=Λ----》
A
=
(
P
T
)
−
1
Λ
P
−
1
A=(P^T)^{-1}\Lambda P^{-1}
A=(PT)−1ΛP−1,令
P
−
1
=
Q
P^{-1}=Q
P−1=Q,
(
P
T
)
−
1
=
(
P
−
1
)
T
=
Q
T
(P^T)^{-1}=(P^{-1})^T=Q^T
(PT)−1=(P−1)T=QT式子变成
Q
T
Λ
Q
Q^T\Lambda Q
QTΛQ,把
A
=
Q
T
Λ
Q
A=Q^T\Lambda Q
A=QTΛQ代入公式(1)
f
=
x
T
Q
T
Λ
Q
x
=
(
x
Q
)
T
Λ
Q
x
f=x^TQ^T\Lambda Qx=(xQ)^T\Lambda Qx
f=xTQTΛQx=(xQ)TΛQx
令
Q
x
=
y
Qx=y
Qx=y,上式可以写成:
f
=
y
T
Λ
y
f=y^T\Lambda y
f=yTΛy
这个是关于y的标准形
正定的概念:
定义10:设有二次型
f
(
x
)
=
x
T
A
x
f(x)=x^TAx
f(x)=xTAx,如果对任何
x
≠
0
x\neq0
x=0,都有
f
(
x
)
>
0
f(x)>0
f(x)>0(显然
f
(
0
)
=
0
f(0)=0
f(0)=0),则称f为正定二次型,并称对称阵A是正定的;如果对任何
x
≠
0
x\neq0
x=0都有
f
(
x
)
<
0
f(x)<0
f(x)<0,则称f为负定二次型,并称对称阵A是负定的。
定理10:n元二次型
f
(
x
)
=
x
T
A
x
f(x)=x^TAx
f(x)=xTAx为正定的充分必要条件是:它的标准形的n个系数全为正,即它的规范形的n个系数全为1,亦即它的正惯性指数等于n.
推论:对称阵A为正定的充分必要条件是:A的特征值全为正
说人话:对于对称矩阵A,
f
(
x
)
=
x
T
A
x
f(x)=x^TAx
f(x)=xTAx有:
正定 | 对于任意x≠0有:f(x)>0 |
---|---|
负定 | 对于任意x≠0有:f(x)<0 |
半正定 | 对于任意x≠0有:f(x)≥0 |
半负定 | 对于任意x≠0有:f(x)≤0 |
说人话:对称矩阵A是正定的,与A的特征值
λ
i
>
0
\lambda_i>0
λi>0等价,可以推出A可逆;
对称矩阵A是半正定的,与A的特征值
λ
i
≥
0
\lambda_i≥0
λi≥0等价,A不一定可逆
上面结论在岭回归的时候要用到。。。