Bootstrap

线代:1.6矩阵的特征值和特征向量


本课程来自 深度之眼,部分截图来自课程视频。
【第一章 线性代数】1.6矩阵的特征值和特征向量
在线LaTeX公式编辑器

任务详解:

1、掌握内积,正交,线性相关,线性无关的概念
2、掌握规范正交基,正交矩阵
3、掌握特征值特征向量的几何意义与算法

1.向量的内积和范数

向量的内积以及正交性

定义1:

设有n维向量(如果不做特殊说明,n维向量都是指列向量)
在这里插入图片描述
[x,y]称为向量x与y的内积(或者叫点积,elementwise).
内积是两个向量之间的一种运算,其结果是一个实数,用矩阵记号表示,当x与y都是列向量时,有
[ x , y ] = x T y = y T x [x,y]=x^Ty=y^Tx [x,y]=xTy=yTx
有时候也记做:<x,y>
在这里插入图片描述
还有一个重要性质:柯西不等式
[ x , y ] 2 ≤ [ x , x ] [ y , y ] [x,y]^2≤[x,x][y,y] [x,y]2[x,x][y,y]
在这里插入图片描述
由以上性质加上我们中学在二维空间里面向量夹角的概念,我们可以推广到高维空间,也可以用来衡量高维空间中两个样本的相似度的一种度量(不同于欧式距离)。

定义2


∣ ∣ x ∣ ∣ = [ x , x ] = x 1 2 + x 2 2 + . . . + x n 2 ||x||=\sqrt{[x,x]}=\sqrt{x_1^2+x_2^2+...+x_n^2} x=[x,x] =x12+x22+...+xn2
∣ ∣ x ∣ ∣ ||x|| x称为n维向量x的长度或者范数或者模长
∣ ∣ x ∣ ∣ = 1 ||x||=1 x=1时,称x为单位向量。
向量的长度具有下述性质:
(i)非负性:当x≠0时, ∣ ∣ x ∣ ∣ > 0 ||x||>0 x>0;当x=0时, ∣ ∣ x ∣ ∣ = 0 ||x||=0 x=0
(i)齐次性: ∣ λ x ∣ = ∣ λ ∣ ∣ ∣ x ∣ ∣ |\lambda x|=|\lambda|||x|| λx=λx;右边的实数外面是绝对值
(ii)三角不等式: ∣ ∣ x + y ∣ ∣ ≤ ∣ ∣ x ∣ ∣ + ∣ ∣ y ∣ ∣ ||x+y||≤||x||+||y|| x+yx+y
当[x,y]=0时,称向量x与y正交(二维上看就在垂直关系).显然,若x=0,则x与任何向量都正交。

定理1:若n维向量 a 1 , a 2 , … , a n a_1,a_2,…,a_n a1,a2,,an是一组两两正交的非零向量( [ a i , a j ] = 0 , i ≠ j [a_i,a_j]=0,i\neq j [ai,aj]=0,i=j),则 a 1 , a 2 , … , a n a_1,a_2,…,a_n a1,a2,,an线性无关.
以下是百度百科中的线性无关定义:
在向量空间V的一组向量A: a 1 , a 2 , ⋅ ⋅ ⋅ , a m a_1, a_2, ···,a_m a1,a2,,am如果存在不全为零的数 k 1 , k 2 , ⋅ ⋅ ⋅ , k m k_1, k_2, ···,k_m k1,k2,,km , 使
k 1 a 1 + k 2 a 2 + . . . + k m a m = 0 k_1a_1+k_2a_2+...+k_ma_m=0 k1a1+k2a2+...+kmam=0
则称向量组A是线性相关的 ,否则数 k 1 , k 2 , ⋅ ⋅ ⋅ , k m k_1, k_2, ···,k_m k1,k2,,km全为0时,称它是线性无关。
由此定义看出 是否线性相关,就看是否存在一组不全为零的数 k 1 , k 2 , ⋅ ⋅ ⋅ , k m k_1, k_2, ···,k_m k1,k2,,km使得上式成立。
定理1证明:
在式子 k 1 a 1 + k 2 a 2 + . . . + k m a m = 0 k_1a_1+k_2a_2+...+k_ma_m=0 k1a1+k2a2+...+kmam=0的左右两边同时点乘 a 1 a_1 a1
k 1 [ a 1 , a 1 ] + k 2 [ a 2 , a 1 ] + . . . + k m [ a m , a 1 ] = 0 k_1[a_1,a_1]+k_2[a_2,a_1]+...+k_m[a_m,a_1]=0 k1[a1,a1]+k2[a2,a1]+...+km[am,a1]=0
由于 a 1 , a 2 , … , a m a_1,a_2,…,a_m a1,a2,,am两两正交,因此: [ a 2 , a 1 ] = 0 , . . . [ a m , a 1 ] = 0 [a_2,a_1]=0,...[a_m,a_1]=0 [a2,a1]=0,...[am,a1]=0
k 1 [ a 1 , a 1 ] = 0 k_1[a_1,a_1]=0 k1[a1,a1]=0,由条件可知 a 1 a_1 a1是非零向量,[a_1,a_1]≠0,
因此 k 1 = 0 k_1=0 k1=0,同理 k 2 = 0 , ⋅ ⋅ ⋅ , k m = 0 k_2=0, ···,k_m=0 k2=0,,km=0
a 1 , a 2 , … , a n a_1,a_2,…,a_n a1,a2,,an线性无关.得证。

定义3

设n维向量 e 1 , e 2 , … , e r e_1,e_2,…,e_r e1,e2,,er,是向量空间 V ( V ⊂ R n ) V(V\subset R^n) V(VRn)的一个基,如果 e 1 , e 2 , … , e r e_1,e_2,…,e_r e1,e2,,er两两正交,且都是单位向量,则称 e 1 , e 2 , … , e r e_1,e_2,…,e_r e1,e2,,er是V的一个规范正交基。例如:
在这里插入图片描述
就是 R 4 R^4 R4的一个规范正交基.
e 1 , e 2 , … , e r e_1,e_2,…,e_r e1,e2,,er是V的一个规范正交基,那么V中任一向量a应能由 e 1 , e 2 , … , e r e_1,e_2,…,e_r e1,e2,,er线性表示,设表示式为
a = λ 1 e 1 + λ 2 e 2 + , … , + λ r e r a=\lambda_1 e_1+\lambda_2e_2+,…,+\lambda_re_r a=λ1e1+λ2e2+,,+λrer
λ r = [ a , e r ] \lambda_r=[a,e_r] λr=[a,er]

定义4

如果n阶矩阵A满足
A T A = E , 即 A − 1 = A T A^TA=E,即A^{-1}=A^T ATA=E,A1=AT
那么称A为正交矩阵,简称正交阵。
上式用列向量表示,即是
[ a 1 T a 2 T ⋮ a n T ] ( a 1 , a 2 , ⋯   , a n ) = E \begin{bmatrix} a_1^T\\a_2^T \\ \vdots \\a_n^T \end{bmatrix}(a_1,a_2,\cdots,a_n)=E a1Ta2TanT(a1,a2,,an)=E
因为 A T A = E A^TA=E ATA=E A A T = E AA^T=E AAT=E等价,所以上述结论对A的行向量也成立。
由此可见,你、阶正交阵A的n个列(或者行)向量构成的向量空间 ℜ n \real^n n的一个规范正交基。

判定矩阵A可逆的小结

1、A的行列式不等于0
2、A的秩等于A的维度n
3、 a 1 , a 2 , … , a n a_1,a_2,…,a_n a1,a2,,an线性无关

2.特征值特征向量以及矩阵的相似

方阵的特征值与特征向量

定义6

设A是n阶矩阵,如果数λ和μ维非零列向量x使下面关系式成立,
A x = λ x Ax=\lambda x Ax=λx
那么,这样的数λ称为矩阵A的特征值,非零向量x称为A的对应于特征值λ的特征向量。
人话版本(物理意义):刚开始讲矩阵的时候,讲过矩阵的本质是对应线性变换,如果从线性变换的角度看待这个问题,那么就是:现在我们有一个可以做线性变换的矩阵A,如果有一个向量x(注意不是变量),通过这个矩阵进行线性变换(就是乘上A)后的到 x ~ \tilde x x~相对于原来的x方向不变,仅仅是大小变化而已(变大了λ倍),(说明这个x还蛮特殊的,一般的向量经过线性变换后大小方向都会变化)那么就把这个特殊的x叫做A的特征向量,变大的倍数λ称为特征值。
如果给我们一个A,如何来求特征值λ和特征向量x呢?就是把上面的公式 A x = λ x Ax=\lambda x Ax=λx解方程,把x提取出来,x向量提取出来后,还剩下单位向量E,变成下面的公式:
( A − λ E ) x = 0 (A-\lambda E)x=0 (AλE)x=0
根据之前学过的克莱姆法则(如果 A x = 0 Ax=0 Ax=0有非零解,则|A|=0,如果是|A|≠0则方程只有唯一解,那么x只能=0),则要使得上面的式子要有非零解的充分必要条件是 ∣ A − λ E ∣ = 0 |A-\lambda E|=0 AλE=0
∣ a 11 − λ a 12 ⋯ a 1 n a 21 a 22 − λ ⋯ a 2 n ⋮ ⋮ ⋮ a n 1 a n 2 ⋯ a n n − λ ∣ = 0 \begin{vmatrix} a_{11}-\lambda& a_{12}&\cdots & a_{1n}\\ a_{21}& a_{22}-\lambda&\cdots & a_{2n}\\ \vdots& \vdots&& \vdots\\ a_{n1}& a_{n2}&\cdots & a_{nn}-\lambda \end{vmatrix}=0 a11λa21an1a12a22λan2a1na2nannλ=0
把上面的式子看做是关于λ的方程 f ( λ ) = 0 f(\lambda)=0 f(λ)=0
(i) λ 1 + λ 2 + ⋯ + λ n = a 11 + a 22 + ⋯ + a n n \lambda_1+\lambda_2+\cdots+\lambda_n=a_{11}+a_{22}+\cdots+a_{nn} λ1+λ2++λn=a11+a22++ann
(II) λ 1 λ 2 ⋯ λ n = ∣ A ∣ \lambda_1\lambda_2\cdots\lambda_n=|A| λ1λ2λn=A
λ = λ i \lambda=\lambda_i λ=λi为矩阵A的一个特征值,则由方程
( A − λ i E ) x = 0 (A-\lambda_iE)x=0 (AλiE)x=0
可求得非零解 x = p i x=p_i x=pi,那么 p i p_i pi便是A的对应于特征值 λ i \lambda_i λi的特征向量。
例子:求矩阵 A = [ 3 − 1 − 1 3 ] A=\begin{bmatrix} 3 & -1\\ -1& 3 \end{bmatrix} A=[3113]的特征值和特征向量。
解:先求 ∣ A − λ E ∣ = ∣ 3 − λ − 1 − 1 3 − λ ∣ = ( 3 − λ ) 2 − 1 = 0 |A-\lambda E|=\begin{vmatrix} 3-\lambda & -1\\ -1& 3-\lambda \end{vmatrix}=(3-\lambda)^2-1=0 AλE=3λ113λ=(3λ)21=0
3 − λ = ± 1 3-\lambda=\pm 1 3λ=±1求得两个特征值: λ 1 = 2 , λ 2 = 4 \lambda_1=2,\lambda_2=4 λ1=2,λ2=4
分两步
第一步求 λ 1 = 2 \lambda_1=2 λ1=2对应的特征向量,解下面方程
( A − λ 1 E ) x 1 = 0 (A-\lambda_1 E)x_1=0 (Aλ1E)x1=0
[ 3 − λ 1 − 1 − 1 3 − λ 1 ] x 1 = 0 \begin{bmatrix} 3-\lambda_1 & -1\\ -1& 3-\lambda_1 \end{bmatrix}x_1=0 [3λ1113λ1]x1=0
[ 1 − 1 − 1 1 ] [ x 11 x 12 ] = 0 \begin{bmatrix} 1 & -1\\ -1& 1 \end{bmatrix}\begin{bmatrix}x_{11}\\x_{12}\end{bmatrix}=0 [1111][x11x12]=0
解得: x 1 = [ 1 1 ] x_1=\begin{bmatrix}1\\1\end{bmatrix} x1=[11]归一化后得: x 1 = [ 2 2 2 2 ] x_1=\begin{bmatrix}\cfrac{\sqrt{2}}{2}\\\cfrac{\sqrt{2}}{2}\end{bmatrix} x1=22 22
第一步求 λ 1 = 4 \lambda_1=4 λ1=4对应的特征向量,解下面方程
( A − λ 1 E ) x 2 = 0 (A-\lambda_1 E)x_2=0 (Aλ1E)x2=0
[ 3 − λ 2 − 1 − 1 3 − λ 2 ] x 2 = 0 \begin{bmatrix} 3-\lambda_2 & -1\\ -1& 3-\lambda_2 \end{bmatrix}x_2=0 [3λ2113λ2]x2=0
[ − 1 − 1 − 1 − 1 ] [ x 21 x 22 ] = 0 \begin{bmatrix} -1 & -1\\ -1& -1 \end{bmatrix}\begin{bmatrix}x_{21}\\x_{22}\end{bmatrix}=0 [1111][x21x22]=0
解得: x 2 = [ 1 − 1 ] x_2=\begin{bmatrix}1\\-1\end{bmatrix} x2=[11]归一化后得: x 2 = [ 2 2 − 2 2 ] x_2=\begin{bmatrix}\cfrac{\sqrt{2}}{2}\\-\cfrac{\sqrt{2}}{2}\end{bmatrix} x2=22 22
再看一例:
求矩阵 A = [ − 1 1 0 − 4 3 0 1 0 2 ] A=\begin{bmatrix} -1& 1&0\\ -4& 3&0\\ 1 &0 &2 \end{bmatrix} A=141130002的特征值和特征向量。
解:A的特征多项式为
∣ A − λ E ∣ = ∣ − 1 − λ 1 0 − 4 3 − λ 0 1 0 2 − λ ∣ = ( 3 − λ ) 2 − 1 = ( 2 − λ ) ( 1 − λ ) 2 |A-\lambda E|=\begin{vmatrix} -1-\lambda & 1&0\\ -4& 3-\lambda&0\\ 1 &0&2-\lambda \end{vmatrix}=(3-\lambda)^2-1=(2-\lambda)(1-\lambda)^2 AλE=1λ4113λ0002λ=(3λ)21=(2λ)(1λ)2
所以A的特征值为 λ 1 = 2 , λ 2 = λ 3 = 1 \lambda_1=2,\lambda_2=\lambda_3=1 λ1=2,λ2=λ3=1
λ 1 = 2 \lambda_1=2 λ1=2时,解方程 ( A − 2 E ) x = 0 (A-2E)x=0 (A2E)x=0.由
在这里插入图片描述
得基础解系: p 1 = [ 0 0 1 ] p_1=\begin{bmatrix}0\\0\\1\end{bmatrix} p1=001
所以 k p 1 ( k ≠ 0 ) kp_1(k\neq0) kp1(k=0)是对应于 λ 1 = 2 \lambda_1=2 λ1=2的全部特征向量。
另外一组解:
λ 2 = λ 3 = 1 \lambda_2=\lambda_3=1 λ2=λ3=1时,解方程 ( A − 2 E ) x = 0 (A-2E)x=0 (A2E)x=0.由
在这里插入图片描述
得基础解系: p 2 = [ − 1 − 2 1 ] p_2=\begin{bmatrix}-1\\-2\\1\end{bmatrix} p2=121
所以 k p 2 ( k ≠ 0 ) kp_2(k\neq0) kp2(k=0)是对应于 λ 2 = λ 3 = 1 \lambda_2=\lambda_3=1 λ2=λ3=1的全部特征向量。
由于有重根,所以只要两个特征向量

例8设 λ \lambda λ是方阵A的特征值,证明
(1) λ 2 \lambda^2 λ2 A 2 A^2 A2的特征值;
(2)当A可逆时, 1 λ \frac{1}{\lambda} λ1 A − 1 A^{-1} A1的特征值.
证明(1):由 λ \lambda λ是方阵A的特征值可知: A x = λ x Ax=\lambda x Ax=λx
A 2 x = λ A x = λ 2 x A^2x=\lambda Ax=\lambda^2x A2x=λAx=λ2x
以此类推: A n A^n An的特征值为 λ n \lambda^n λn,特征向量为x
n可以为负数,例如 A − 2 A^{-2} A2的特征值为 λ − 2 \lambda^{-2} λ2
证明(2):由 λ \lambda λ是方阵A的特征值可知: A x = λ x Ax=\lambda x Ax=λx,两边同时乘以A的逆矩阵得:
x = λ A − 1 x x=\lambda A^{-1}x x=λA1x,两边同时除以 λ \lambda λ
1 λ x = A − 1 x \frac{1}{\lambda}x=A^{-1}x λ1x=A1x,即 A − 1 x = 1 λ x A^{-1}x=\frac{1}{\lambda}x A1x=λ1x,根据特征值的定义可知:
1 λ \frac{1}{\lambda} λ1 A − 1 A^{-1} A1的特征值,特征向量为x
再推广:如果 λ \lambda λ是方阵A的特征值,那么 f ( λ ) f(\lambda) f(λ)是方阵 f ( A ) f(A) f(A)的特征值。
例子:设3阶矩阵A的特征值为1,-1,2,求 A 2 + 3 A − 2 E A^2+3A-2E A2+3A2E的特征值。
解:把A的特征值1,-1,2分别代入上式
1 2 + 3 ∗ 1 − 2 = 2 1^2+3*1-2=2 12+312=2
( − 1 ) 2 + 3 ( − 1 ) − 2 = − 4 (-1)^2+3(-1)-2=-4 (1)2+3(1)2=4
2 2 + 3 ∗ 2 − 2 = 8 2^2+3*2-2=8 22+322=8
A 2 + 3 A − 2 E A^2+3A-2E A2+3A2E的特征值为2,-4,8

;