本课程来自 深度之眼,部分截图来自课程视频。
【第一章 线性代数】1.6矩阵的特征值和特征向量
在线LaTeX公式编辑器
任务详解:
1、掌握内积,正交,线性相关,线性无关的概念
2、掌握规范正交基,正交矩阵
3、掌握特征值特征向量的几何意义与算法
1.向量的内积和范数
向量的内积以及正交性
定义1:
设有n维向量(如果不做特殊说明,n维向量都是指列向量)
[x,y]称为向量x与y的内积(或者叫点积,elementwise).
内积是两个向量之间的一种运算,其结果是一个实数,用矩阵记号表示,当x与y都是列向量时,有
[
x
,
y
]
=
x
T
y
=
y
T
x
[x,y]=x^Ty=y^Tx
[x,y]=xTy=yTx
有时候也记做:<x,y>
还有一个重要性质:柯西不等式
[
x
,
y
]
2
≤
[
x
,
x
]
[
y
,
y
]
[x,y]^2≤[x,x][y,y]
[x,y]2≤[x,x][y,y]
由以上性质加上我们中学在二维空间里面向量夹角的概念,我们可以推广到高维空间,也可以用来衡量高维空间中两个样本的相似度的一种度量(不同于欧式距离)。
定义2
令
∣
∣
x
∣
∣
=
[
x
,
x
]
=
x
1
2
+
x
2
2
+
.
.
.
+
x
n
2
||x||=\sqrt{[x,x]}=\sqrt{x_1^2+x_2^2+...+x_n^2}
∣∣x∣∣=[x,x]=x12+x22+...+xn2
∣
∣
x
∣
∣
||x||
∣∣x∣∣称为n维向量x的长度或者范数或者模长
当
∣
∣
x
∣
∣
=
1
||x||=1
∣∣x∣∣=1时,称x为单位向量。
向量的长度具有下述性质:
(i)非负性:当x≠0时,
∣
∣
x
∣
∣
>
0
||x||>0
∣∣x∣∣>0;当x=0时,
∣
∣
x
∣
∣
=
0
||x||=0
∣∣x∣∣=0;
(i)齐次性:
∣
λ
x
∣
=
∣
λ
∣
∣
∣
x
∣
∣
|\lambda x|=|\lambda|||x||
∣λx∣=∣λ∣∣∣x∣∣;右边的实数外面是绝对值
(ii)三角不等式:
∣
∣
x
+
y
∣
∣
≤
∣
∣
x
∣
∣
+
∣
∣
y
∣
∣
||x+y||≤||x||+||y||
∣∣x+y∣∣≤∣∣x∣∣+∣∣y∣∣。
当[x,y]=0时,称向量x与y正交(二维上看就在垂直关系).显然,若x=0,则x与任何向量都正交。
定理1:若n维向量
a
1
,
a
2
,
…
,
a
n
a_1,a_2,…,a_n
a1,a2,…,an是一组两两正交的非零向量(
[
a
i
,
a
j
]
=
0
,
i
≠
j
[a_i,a_j]=0,i\neq j
[ai,aj]=0,i=j),则
a
1
,
a
2
,
…
,
a
n
a_1,a_2,…,a_n
a1,a2,…,an线性无关.
以下是百度百科中的线性无关定义:
在向量空间V的一组向量A:
a
1
,
a
2
,
⋅
⋅
⋅
,
a
m
a_1, a_2, ···,a_m
a1,a2,⋅⋅⋅,am如果存在不全为零的数
k
1
,
k
2
,
⋅
⋅
⋅
,
k
m
k_1, k_2, ···,k_m
k1,k2,⋅⋅⋅,km , 使
k
1
a
1
+
k
2
a
2
+
.
.
.
+
k
m
a
m
=
0
k_1a_1+k_2a_2+...+k_ma_m=0
k1a1+k2a2+...+kmam=0
则称向量组A是线性相关的 ,否则数
k
1
,
k
2
,
⋅
⋅
⋅
,
k
m
k_1, k_2, ···,k_m
k1,k2,⋅⋅⋅,km全为0时,称它是线性无关。
由此定义看出 是否线性相关,就看是否存在一组不全为零的数
k
1
,
k
2
,
⋅
⋅
⋅
,
k
m
k_1, k_2, ···,k_m
k1,k2,⋅⋅⋅,km使得上式成立。
定理1证明:
在式子
k
1
a
1
+
k
2
a
2
+
.
.
.
+
k
m
a
m
=
0
k_1a_1+k_2a_2+...+k_ma_m=0
k1a1+k2a2+...+kmam=0的左右两边同时点乘
a
1
a_1
a1得
k
1
[
a
1
,
a
1
]
+
k
2
[
a
2
,
a
1
]
+
.
.
.
+
k
m
[
a
m
,
a
1
]
=
0
k_1[a_1,a_1]+k_2[a_2,a_1]+...+k_m[a_m,a_1]=0
k1[a1,a1]+k2[a2,a1]+...+km[am,a1]=0
由于
a
1
,
a
2
,
…
,
a
m
a_1,a_2,…,a_m
a1,a2,…,am两两正交,因此:
[
a
2
,
a
1
]
=
0
,
.
.
.
[
a
m
,
a
1
]
=
0
[a_2,a_1]=0,...[a_m,a_1]=0
[a2,a1]=0,...[am,a1]=0
k
1
[
a
1
,
a
1
]
=
0
k_1[a_1,a_1]=0
k1[a1,a1]=0,由条件可知
a
1
a_1
a1是非零向量,[a_1,a_1]≠0,
因此
k
1
=
0
k_1=0
k1=0,同理
k
2
=
0
,
⋅
⋅
⋅
,
k
m
=
0
k_2=0, ···,k_m=0
k2=0,⋅⋅⋅,km=0
a
1
,
a
2
,
…
,
a
n
a_1,a_2,…,a_n
a1,a2,…,an线性无关.得证。
定义3
设n维向量
e
1
,
e
2
,
…
,
e
r
e_1,e_2,…,e_r
e1,e2,…,er,是向量空间
V
(
V
⊂
R
n
)
V(V\subset R^n)
V(V⊂Rn)的一个基,如果
e
1
,
e
2
,
…
,
e
r
e_1,e_2,…,e_r
e1,e2,…,er两两正交,且都是单位向量,则称
e
1
,
e
2
,
…
,
e
r
e_1,e_2,…,e_r
e1,e2,…,er是V的一个规范正交基。例如:
就是
R
4
R^4
R4的一个规范正交基.
若
e
1
,
e
2
,
…
,
e
r
e_1,e_2,…,e_r
e1,e2,…,er是V的一个规范正交基,那么V中任一向量a应能由
e
1
,
e
2
,
…
,
e
r
e_1,e_2,…,e_r
e1,e2,…,er线性表示,设表示式为
a
=
λ
1
e
1
+
λ
2
e
2
+
,
…
,
+
λ
r
e
r
a=\lambda_1 e_1+\lambda_2e_2+,…,+\lambda_re_r
a=λ1e1+λ2e2+,…,+λrer
λ
r
=
[
a
,
e
r
]
\lambda_r=[a,e_r]
λr=[a,er]
定义4
如果n阶矩阵A满足
A
T
A
=
E
,
即
A
−
1
=
A
T
A^TA=E,即A^{-1}=A^T
ATA=E,即A−1=AT
那么称A为正交矩阵,简称正交阵。
上式用列向量表示,即是
[
a
1
T
a
2
T
⋮
a
n
T
]
(
a
1
,
a
2
,
⋯
,
a
n
)
=
E
\begin{bmatrix} a_1^T\\a_2^T \\ \vdots \\a_n^T \end{bmatrix}(a_1,a_2,\cdots,a_n)=E
⎣⎢⎢⎢⎡a1Ta2T⋮anT⎦⎥⎥⎥⎤(a1,a2,⋯,an)=E
因为
A
T
A
=
E
A^TA=E
ATA=E与
A
A
T
=
E
AA^T=E
AAT=E等价,所以上述结论对A的行向量也成立。
由此可见,你、阶正交阵A的n个列(或者行)向量构成的向量空间
ℜ
n
\real^n
ℜn的一个规范正交基。
判定矩阵A可逆的小结
1、A的行列式不等于0
2、A的秩等于A的维度n
3、
a
1
,
a
2
,
…
,
a
n
a_1,a_2,…,a_n
a1,a2,…,an线性无关
2.特征值特征向量以及矩阵的相似
方阵的特征值与特征向量
定义6
设A是n阶矩阵,如果数λ和μ维非零列向量x使下面关系式成立,
A
x
=
λ
x
Ax=\lambda x
Ax=λx
那么,这样的数λ称为矩阵A的特征值,非零向量x称为A的对应于特征值λ的特征向量。
人话版本(物理意义):刚开始讲矩阵的时候,讲过矩阵的本质是对应线性变换,如果从线性变换的角度看待这个问题,那么就是:现在我们有一个可以做线性变换的矩阵A,如果有一个向量x(注意不是变量),通过这个矩阵进行线性变换(就是乘上A)后的到
x
~
\tilde x
x~相对于原来的x方向不变,仅仅是大小变化而已(变大了λ倍),(说明这个x还蛮特殊的,一般的向量经过线性变换后大小方向都会变化)那么就把这个特殊的x叫做A的特征向量,变大的倍数λ称为特征值。
如果给我们一个A,如何来求特征值λ和特征向量x呢?就是把上面的公式
A
x
=
λ
x
Ax=\lambda x
Ax=λx解方程,把x提取出来,x向量提取出来后,还剩下单位向量E,变成下面的公式:
(
A
−
λ
E
)
x
=
0
(A-\lambda E)x=0
(A−λE)x=0
根据之前学过的克莱姆法则(如果
A
x
=
0
Ax=0
Ax=0有非零解,则|A|=0,如果是|A|≠0则方程只有唯一解,那么x只能=0),则要使得上面的式子要有非零解的充分必要条件是
∣
A
−
λ
E
∣
=
0
|A-\lambda E|=0
∣A−λE∣=0:
∣
a
11
−
λ
a
12
⋯
a
1
n
a
21
a
22
−
λ
⋯
a
2
n
⋮
⋮
⋮
a
n
1
a
n
2
⋯
a
n
n
−
λ
∣
=
0
\begin{vmatrix} a_{11}-\lambda& a_{12}&\cdots & a_{1n}\\ a_{21}& a_{22}-\lambda&\cdots & a_{2n}\\ \vdots& \vdots&& \vdots\\ a_{n1}& a_{n2}&\cdots & a_{nn}-\lambda \end{vmatrix}=0
∣∣∣∣∣∣∣∣∣a11−λa21⋮an1a12a22−λ⋮an2⋯⋯⋯a1na2n⋮ann−λ∣∣∣∣∣∣∣∣∣=0
把上面的式子看做是关于λ的方程
f
(
λ
)
=
0
f(\lambda)=0
f(λ)=0
(i)
λ
1
+
λ
2
+
⋯
+
λ
n
=
a
11
+
a
22
+
⋯
+
a
n
n
\lambda_1+\lambda_2+\cdots+\lambda_n=a_{11}+a_{22}+\cdots+a_{nn}
λ1+λ2+⋯+λn=a11+a22+⋯+ann
(II)
λ
1
λ
2
⋯
λ
n
=
∣
A
∣
\lambda_1\lambda_2\cdots\lambda_n=|A|
λ1λ2⋯λn=∣A∣
设
λ
=
λ
i
\lambda=\lambda_i
λ=λi为矩阵A的一个特征值,则由方程
(
A
−
λ
i
E
)
x
=
0
(A-\lambda_iE)x=0
(A−λiE)x=0
可求得非零解
x
=
p
i
x=p_i
x=pi,那么
p
i
p_i
pi便是A的对应于特征值
λ
i
\lambda_i
λi的特征向量。
例子:求矩阵
A
=
[
3
−
1
−
1
3
]
A=\begin{bmatrix} 3 & -1\\ -1& 3 \end{bmatrix}
A=[3−1−13]的特征值和特征向量。
解:先求
∣
A
−
λ
E
∣
=
∣
3
−
λ
−
1
−
1
3
−
λ
∣
=
(
3
−
λ
)
2
−
1
=
0
|A-\lambda E|=\begin{vmatrix} 3-\lambda & -1\\ -1& 3-\lambda \end{vmatrix}=(3-\lambda)^2-1=0
∣A−λE∣=∣∣∣∣3−λ−1−13−λ∣∣∣∣=(3−λ)2−1=0
3
−
λ
=
±
1
3-\lambda=\pm 1
3−λ=±1求得两个特征值:
λ
1
=
2
,
λ
2
=
4
\lambda_1=2,\lambda_2=4
λ1=2,λ2=4
分两步
第一步求
λ
1
=
2
\lambda_1=2
λ1=2对应的特征向量,解下面方程
(
A
−
λ
1
E
)
x
1
=
0
(A-\lambda_1 E)x_1=0
(A−λ1E)x1=0
[
3
−
λ
1
−
1
−
1
3
−
λ
1
]
x
1
=
0
\begin{bmatrix} 3-\lambda_1 & -1\\ -1& 3-\lambda_1 \end{bmatrix}x_1=0
[3−λ1−1−13−λ1]x1=0
[
1
−
1
−
1
1
]
[
x
11
x
12
]
=
0
\begin{bmatrix} 1 & -1\\ -1& 1 \end{bmatrix}\begin{bmatrix}x_{11}\\x_{12}\end{bmatrix}=0
[1−1−11][x11x12]=0
解得:
x
1
=
[
1
1
]
x_1=\begin{bmatrix}1\\1\end{bmatrix}
x1=[11]归一化后得:
x
1
=
[
2
2
2
2
]
x_1=\begin{bmatrix}\cfrac{\sqrt{2}}{2}\\\cfrac{\sqrt{2}}{2}\end{bmatrix}
x1=⎣⎢⎢⎡2222⎦⎥⎥⎤
第一步求
λ
1
=
4
\lambda_1=4
λ1=4对应的特征向量,解下面方程
(
A
−
λ
1
E
)
x
2
=
0
(A-\lambda_1 E)x_2=0
(A−λ1E)x2=0
[
3
−
λ
2
−
1
−
1
3
−
λ
2
]
x
2
=
0
\begin{bmatrix} 3-\lambda_2 & -1\\ -1& 3-\lambda_2 \end{bmatrix}x_2=0
[3−λ2−1−13−λ2]x2=0
[
−
1
−
1
−
1
−
1
]
[
x
21
x
22
]
=
0
\begin{bmatrix} -1 & -1\\ -1& -1 \end{bmatrix}\begin{bmatrix}x_{21}\\x_{22}\end{bmatrix}=0
[−1−1−1−1][x21x22]=0
解得:
x
2
=
[
1
−
1
]
x_2=\begin{bmatrix}1\\-1\end{bmatrix}
x2=[1−1]归一化后得:
x
2
=
[
2
2
−
2
2
]
x_2=\begin{bmatrix}\cfrac{\sqrt{2}}{2}\\-\cfrac{\sqrt{2}}{2}\end{bmatrix}
x2=⎣⎢⎢⎡22−22⎦⎥⎥⎤
再看一例:
求矩阵
A
=
[
−
1
1
0
−
4
3
0
1
0
2
]
A=\begin{bmatrix} -1& 1&0\\ -4& 3&0\\ 1 &0 &2 \end{bmatrix}
A=⎣⎡−1−41130002⎦⎤的特征值和特征向量。
解:A的特征多项式为
∣
A
−
λ
E
∣
=
∣
−
1
−
λ
1
0
−
4
3
−
λ
0
1
0
2
−
λ
∣
=
(
3
−
λ
)
2
−
1
=
(
2
−
λ
)
(
1
−
λ
)
2
|A-\lambda E|=\begin{vmatrix} -1-\lambda & 1&0\\ -4& 3-\lambda&0\\ 1 &0&2-\lambda \end{vmatrix}=(3-\lambda)^2-1=(2-\lambda)(1-\lambda)^2
∣A−λE∣=∣∣∣∣∣∣−1−λ−4113−λ0002−λ∣∣∣∣∣∣=(3−λ)2−1=(2−λ)(1−λ)2
所以A的特征值为
λ
1
=
2
,
λ
2
=
λ
3
=
1
\lambda_1=2,\lambda_2=\lambda_3=1
λ1=2,λ2=λ3=1
当
λ
1
=
2
\lambda_1=2
λ1=2时,解方程
(
A
−
2
E
)
x
=
0
(A-2E)x=0
(A−2E)x=0.由
得基础解系:
p
1
=
[
0
0
1
]
p_1=\begin{bmatrix}0\\0\\1\end{bmatrix}
p1=⎣⎡001⎦⎤
所以
k
p
1
(
k
≠
0
)
kp_1(k\neq0)
kp1(k=0)是对应于
λ
1
=
2
\lambda_1=2
λ1=2的全部特征向量。
另外一组解:
当
λ
2
=
λ
3
=
1
\lambda_2=\lambda_3=1
λ2=λ3=1时,解方程
(
A
−
2
E
)
x
=
0
(A-2E)x=0
(A−2E)x=0.由
得基础解系:
p
2
=
[
−
1
−
2
1
]
p_2=\begin{bmatrix}-1\\-2\\1\end{bmatrix}
p2=⎣⎡−1−21⎦⎤
所以
k
p
2
(
k
≠
0
)
kp_2(k\neq0)
kp2(k=0)是对应于
λ
2
=
λ
3
=
1
\lambda_2=\lambda_3=1
λ2=λ3=1的全部特征向量。
由于有重根,所以只要两个特征向量
例8设
λ
\lambda
λ是方阵A的特征值,证明
(1)
λ
2
\lambda^2
λ2是
A
2
A^2
A2的特征值;
(2)当A可逆时,
1
λ
\frac{1}{\lambda}
λ1是
A
−
1
A^{-1}
A−1的特征值.
证明(1):由
λ
\lambda
λ是方阵A的特征值可知:
A
x
=
λ
x
Ax=\lambda x
Ax=λx
A
2
x
=
λ
A
x
=
λ
2
x
A^2x=\lambda Ax=\lambda^2x
A2x=λAx=λ2x
以此类推:
A
n
A^n
An的特征值为
λ
n
\lambda^n
λn,特征向量为x
n可以为负数,例如
A
−
2
A^{-2}
A−2的特征值为
λ
−
2
\lambda^{-2}
λ−2
证明(2):由
λ
\lambda
λ是方阵A的特征值可知:
A
x
=
λ
x
Ax=\lambda x
Ax=λx,两边同时乘以A的逆矩阵得:
x
=
λ
A
−
1
x
x=\lambda A^{-1}x
x=λA−1x,两边同时除以
λ
\lambda
λ得
1
λ
x
=
A
−
1
x
\frac{1}{\lambda}x=A^{-1}x
λ1x=A−1x,即
A
−
1
x
=
1
λ
x
A^{-1}x=\frac{1}{\lambda}x
A−1x=λ1x,根据特征值的定义可知:
1
λ
\frac{1}{\lambda}
λ1是
A
−
1
A^{-1}
A−1的特征值,特征向量为x
再推广:如果
λ
\lambda
λ是方阵A的特征值,那么
f
(
λ
)
f(\lambda)
f(λ)是方阵
f
(
A
)
f(A)
f(A)的特征值。
例子:设3阶矩阵A的特征值为1,-1,2,求
A
2
+
3
A
−
2
E
A^2+3A-2E
A2+3A−2E的特征值。
解:把A的特征值1,-1,2分别代入上式
1
2
+
3
∗
1
−
2
=
2
1^2+3*1-2=2
12+3∗1−2=2
(
−
1
)
2
+
3
(
−
1
)
−
2
=
−
4
(-1)^2+3(-1)-2=-4
(−1)2+3(−1)−2=−4
2
2
+
3
∗
2
−
2
=
8
2^2+3*2-2=8
22+3∗2−2=8
A
2
+
3
A
−
2
E
A^2+3A-2E
A2+3A−2E的特征值为2,-4,8