一、特征值和特征向量的定义
和行列式一样,特征值和特征向量也是方阵的属性。一个矩阵 A A A 作用在一个向量上,向量的大小和方向会改变,对于那些作用前和作用后向量保持方向不变的向量称为特征向量,同方向的向量可以用一个数表示他们之间的关系,这个数称为特征值。
设
A
A
A 是
n
n
n 阶矩阵,如果数
λ
\lambda
λ 和
n
n
n维 非零列向量
x
x
x 使关系式:
A
x
=
λ
x
(1)
Ax=\lambda x \tag{1}
Ax=λx(1)
成立,那么,这样的数
λ
\lambda
λ 称为矩阵
A
A
A 的特征值,非零向量
x
x
x 称为
A
A
A 对应特征值
λ
\lambda
λ 的特征向量。将
(
1
)
(1)
(1) 移项后有:
(
A
−
λ
I
)
x
=
0
(2)
(A-\lambda I)x=0\tag{2}
(A−λI)x=0(2)
就到了我们熟悉的求解
A
x
=
0
Ax=0
Ax=0方程组的范畴了:
- 如果矩阵是满秩的,那么有且仅有一个零解(对应的解只能是全零)
- 如果矩阵是非满秩的,那么有无穷多个解
求解特征值和特征向量的依据就是,矩阵是非满秩的、奇异的,用行列式表示就是行列式为零:
∣
A
−
λ
I
∣
=
0
(3)
\vert A-\lambda I\vert=0\tag{3}
∣A−λI∣=0(3)
将这个式子展开后,左边是一个关于
λ
\lambda
λ的一元
n
n
n次方程,整个方程式
(
3
)
(3)
(3) 称为特征方程。特征方程能够帮助我们求解特征值,得到特征值后带入
(
2
)
(2)
(2) 式后,再求一个非零向量解就求得了对应的特征向量。
关于特征值和特征向量的两个重要性质:设 n n n 阶矩阵 A A A 的特征值是 λ 1 \lambda_1 λ1 λ 2 \lambda_2 λ2 ⋯ \cdots ⋯ λ n \lambda_n λn,有:
- 所有特征值之和,等于矩阵主对角线元素之和(常被称为迹(trace))
- 所有特征值之积,等于矩阵对应行列式
特征向量和特征值是方阵的属性,投影矩阵也是一个方阵,那么其对应的特征值和特征向量是怎么样的?我们利用一个向量 b b b 向平面投影来直观上理解特征值和特征向量:
- 一个与平面有一定角度的向量。投影在平面上的 p p p 不可能和 b b b 共线,故不是投影矩阵的特征向量;
- 一个与平面正交的向量。投影在平面上的 p p p 是一个零向量,因为零向量和任一向量都是平行的,所以这个向量是投影矩阵的特征向量,对应特征值为0;
- 向量在平面上。投影矩阵是其 p p p 本身,当然是 P P P 矩阵的特征向量,特征值为1;
行列式为零的方阵就是奇异矩阵。为什么这样的矩阵被认为是“奇异的”,这个叫法可能是来源于求解方程组个数时候出现的,那时候的人认为方程组只有唯一解,如在某种特殊情况下(行列式为0),解居然有无穷多个,这不符合当时的认知,所以奇异的奇特之处在于“它居然不是唯一解”[1]。
例子:找出矩阵
A
A
A 的特征值和特征向量。
A
=
[
0
1
1
0
]
A=\begin{bmatrix} 0&1\\1&0 \end{bmatrix}
A=[0110]
我们知道,一个向量左乘一个初等矩阵,等于对其进行相同的行变换。这个
A
A
A显然是对其作用的向量进行一个行交换操作,什么样的向量交换前后是一样的?所有元素值相同的向量,交换前后保持不变,如:
[
1
1
]
\begin{bmatrix}1\\1\end{bmatrix}
[11]是一个特征向量,对应的特征值为
λ
=
1
\lambda=1
λ=1;
假如,特征值 λ = − 1 \lambda=-1 λ=−1,那么意味着作用前后,向量方向相反了,什么样的向量会使得行交换位置之后,值等于其相反数 [ − 1 1 ] \begin{bmatrix}-1\\1\end{bmatrix} [−11]是其中的一个特征向量。
由上面可以看出:一个矩阵可以有多组特征值和特征向量。
二、 代数方法求解特征值和特征向量
对于二阶的矩阵,观察法求解是一个很好求法,对于多维矩阵,观察法似乎不太现实,利用(3)式转成一元多次方程的代数方法是合适的,求解特征值和特征向量就转换成求解一元多次方程的代数求解问题。
求 n × n n\times n n×n 矩阵 A A A 的特征值和特征向量问题一般步骤:
- 计算 A − λ I A-\lambda I A−λI 的行列式。也就是矩阵 A A A 对角线上减去关于 λ \lambda λ 的对角矩阵,它是关于矩阵 A A A 阶数 n n n 的 n n n 次多项式;
- 找到多项式的根。方法是通过求解 d e t ( A − λ I ) = 0 det(A-\lambda I)=0 det(A−λI)=0。根的个数=特征值个数=特征向量个数=矩阵 A A A 阶数,也可以说成是使得 A − λ I A-\lambda I A−λI 奇异的根。
- 对于每一个特征值 λ \lambda λ ,求解 ( A − λ I ) x = 0 (A-\lambda I)x=0 (A−λI)x=0 求得特征向量。
例子1:求矩阵 A A A的特征值和特征向量。
A = [ 3 1 1 3 ] A=\begin{bmatrix}3&1\\1&3\end{bmatrix} A=[3113]
利用特征方程,将问题转换成求解一元多次方程:
∣
A
−
λ
I
∣
=
∣
3
−
λ
1
1
3
−
λ
∣
=
(
λ
−
2
)
(
λ
−
4
)
=
0
\vert A-\lambda I\vert=\left | \begin{matrix}3-\lambda&1\\1 &3-\lambda\end{matrix}\right |=(\lambda-2)(\lambda-4)=0
∣A−λI∣=
3−λ113−λ
=(λ−2)(λ−4)=0
特征值为
λ
1
=
2
\lambda_1=2
λ1=2
λ
2
=
4
\lambda_2=4
λ2=4。接着求解其特征向量:将特征值和特征向量带入(2)有:
-
λ 1 = 2 \lambda_1=2 λ1=2, ( A − 2 I ) X = 0 (A-2I)X=0 (A−2I)X=0
A − 2 I = [ 3 1 1 3 ] − [ 2 0 0 2 ] = [ 1 1 1 1 ] A-2I=\begin{bmatrix} 3&1\\1&3 \end{bmatrix}-\begin{bmatrix} 2&0\\0&2 \end{bmatrix}=\begin{bmatrix} 1&1\\1&1 \end{bmatrix} A−2I=[3113]−[2002]=[1111]
R R E F ( A − 2 I ) = [ 1 1 0 0 ] RREF(A-2I)=\begin{bmatrix} 1&1\\0&0 \end{bmatrix} RREF(A−2I)=[1010],所以,特征值向量为 x 1 = [ − 1 1 ] x_1=\begin{bmatrix}-1\\1\end{bmatrix} x1=[−11] -
λ 2 = 4 , \lambda_2=4, λ2=4, ( A − 4 I ) X = 0 (A-4I)X=0 (A−4I)X=0
A − 4 I = [ 3 1 1 3 ] − [ 4 0 0 4 ] = [ − 1 1 1 − 1 ] A-4I=\begin{bmatrix} 3&1\\1&3 \end{bmatrix}-\begin{bmatrix} 4&0\\0&4 \end{bmatrix}=\begin{bmatrix} -1&1\\1&-1 \end{bmatrix} A−4I=[3113]−[4004]=[−111−1]
R R E F ( A − 4 I ) = [ 1 − 1 0 0 ] RREF(A-4I)=\begin{bmatrix} 1&-1\\0&0 \end{bmatrix} RREF(A−4I)=[10−10],故特征向量为 x 2 = [ 1 1 ] x_2=\begin{bmatrix} 1\\1 \end{bmatrix} x2=[11]
是一个 A X = 0 AX=0 AX=0齐次方程求解问题,这里不再赘述,特征向量为: x 1 = [ − 1 1 ] x_1=\begin{bmatrix}-1\\1\end{bmatrix} x1=[−11] x 2 = [ 1 1 ] x_2=\begin{bmatrix}1\\1\end{bmatrix} x2=[11]
特征向量的 k k k倍仍是特征向量。
例子2:求矩阵 A − 2 I A-2I A−2I的特征值和特征向量
求 A = [ 3 1 1 3 ] − 2 I = [ 1 1 1 1 ] A=\begin{bmatrix}3&1\\1&3\end{bmatrix}-2I=\begin{bmatrix}1&1\\1&1\end{bmatrix} A=[3113]−2I=[1111]的特征值和特征向量。
∣
A
−
λ
I
∣
=
∣
1
−
λ
1
1
1
−
λ
∣
=
λ
(
λ
−
2
)
=
0
\vert A-\lambda I\vert=\left | \begin{matrix}1-\lambda&1\\1 &1-\lambda\end{matrix}\right |=\lambda(\lambda-2)=0
∣A−λI∣=
1−λ111−λ
=λ(λ−2)=0
特征值为
λ
1
=
0
\lambda_1=0
λ1=0
λ
2
=
2
\lambda_2=2
λ2=2。代入
(
A
−
λ
I
)
x
=
0
(A-\lambda I)x=0
(A−λI)x=0求解出特征向量:
x
1
=
[
1
1
]
x_1=\begin{bmatrix}1\\1\end{bmatrix}
x1=[11]和
x
2
=
[
−
1
1
]
x_2=\begin{bmatrix}-1\\1\end{bmatrix}
x2=[−11]
比较例1,同样的矩阵 A A A,加了单位矩阵的倍数,特征值发生了改变,特征向量没有发生改变。
事实上,如果方阵
A
A
A的特征值和特征向量为:
λ
\lambda
λ和
x
x
x,加上单位矩阵
k
I
kI
kI的特征值和特征向量为:
λ
+
k
\lambda+k
λ+k和
x
x
x,这是因为:
(
A
+
k
I
)
x
=
A
x
+
k
x
=
(
λ
+
k
)
x
(A+kI)x=Ax+kx=(\lambda+k)x
(A+kI)x=Ax+kx=(λ+k)x
例子3:旋转90度的旋转矩阵 Q Q Q的特征值
Q
=
[
0
−
1
1
0
]
Q=\begin{bmatrix}0&-1\\1&0\end{bmatrix}
Q=[01−10]
利用方阵特征值的两个关系即可求解:
λ
1
+
λ
2
=
0
\lambda_1+\lambda_2=0
λ1+λ2=0和
λ
1
λ
2
=
∣
Q
∣
=
1
\lambda_1\lambda_2=\vert Q\vert=1
λ1λ2=∣Q∣=1,可以求得:
λ
1
=
i
\lambda_1=i
λ1=i
λ
2
=
−
i
\lambda_2=-i
λ2=−i,这告诉我们就算是实数方阵,其特征向量也不一定是实数。如果一个方阵是对称矩阵或者接近对称矩阵,那么它的特征值就是实数;当特征值是复数时,其特征值是共轭的。
例子4:求 A A A的特征值
A
=
[
3
1
0
3
]
A=\begin{bmatrix} 3&1\\0&3 \end{bmatrix}
A=[3013]
利用特征方程求解:
∣
A
−
λ
I
∣
=
∣
3
−
λ
1
1
3
−
λ
∣
=
0
\vert A-\lambda I\vert=\left | \begin{matrix}3-\lambda&1\\1 &3-\lambda\end{matrix}\right |=0
∣A−λI∣=
3−λ113−λ
=0
有特征值
λ
=
3
\lambda=3
λ=3,对应的特征向量为:
x
=
[
1
0
]
x=\begin{bmatrix}1\\0\end{bmatrix}
x=[10],不存在第二个线性无关的特征向量。只有一个特征值和一个特征向量。
小结:
- 特征值可能是实数也可能是复数;
- 特征值个数小于或者列向量个数;
- 一个特征值对应一个特征向量;
[1] https://blog.sciencenet.cn/blog-315774-889594.html