第一部分:基础
本手册汇集了线性代数中的核心公式和定理,旨在帮助学生快速记忆与应用。内容涵盖向量、矩阵、行列式、特征值与特征向量、向量空间、线性变换、解线性方程组以及内积空间等关键主题,每一部分都附有详细解释,便于理解和复习。
向量
向量是线性代数的基本概念之一,用于表示具有大小和方向的量。
向量加法
向量加法遵循对应分量相加的规则:
u
+
v
=
[
u
1
+
v
1
u
2
+
v
2
⋮
u
n
+
v
n
]
\boldsymbol{u} + \boldsymbol{v} = \begin{bmatrix}u_1 + v_1 \\ u_2 + v_2 \\ \vdots \\ u_n + v_n \end{bmatrix}
u+v=
u1+v1u2+v2⋮un+vn
其中,
u
\boldsymbol{u}
u 和
v
\boldsymbol{v}
v 是同维度的向量。
向量数乘
向量的数乘是指将向量的每个分量乘以一个标量:
c
u
=
[
c
u
1
c
u
2
⋮
c
u
n
]
c\boldsymbol{u} = \begin{bmatrix}cu_1 \\ cu_2 \\ \vdots \\ cu_n \end{bmatrix}
cu=
cu1cu2⋮cun
这里,
c
c
c 是标量,
u
\boldsymbol{u}
u 是向量。
向量内积
向量内积(点积)用于衡量两个向量的相似性:
u
⋅
v
=
u
1
v
1
+
u
2
v
2
+
⋯
+
u
n
v
n
\boldsymbol{u} \cdot \boldsymbol{v} = u_1v_1 + u_2v_2 + \cdots + u_nv_n
u⋅v=u1v1+u2v2+⋯+unvn
内积结果是一个标量。
向量范数
向量范数表示向量的长度或大小,通常使用欧几里得范数:
∥
u
∥
=
u
⋅
u
=
u
1
2
+
u
2
2
+
⋯
+
u
n
2
\|\boldsymbol{u}\| = \sqrt{\boldsymbol{u} \cdot \boldsymbol{u}} = \sqrt{u_1^2 + u_2^2 + \cdots + u_n^2}
∥u∥=u⋅u=u12+u22+⋯+un2
矩阵
矩阵是线性代数中的第二类基本对象,用于表示和操作线性变换。
矩阵加法
矩阵加法是逐元素相加:
A
+
B
=
[
a
11
+
b
11
⋯
a
1
n
+
b
1
n
⋮
⋱
⋮
a
m
1
+
b
m
1
⋯
a
m
n
+
b
m
n
]
A + B = \begin{bmatrix}a_{11} + b_{11} & \cdots & a_{1n} + b_{1n} \\ \vdots & \ddots & \vdots \\ a_{m1} + b_{m1} & \cdots & a_{mn} + b_{mn} \end{bmatrix}
A+B=
a11+b11⋮am1+bm1⋯⋱⋯a1n+b1n⋮amn+bmn
矩阵乘法
矩阵乘法通过行与列的内积计算:
(
A
B
)
i
j
=
∑
k
=
1
n
a
i
k
b
k
j
(AB)_{ij} = \sum_{k=1}^n a_{ik}b_{kj}
(AB)ij=k=1∑naikbkj
其中,
A
A
A 的列数必须等于
B
B
B 的行数。
转置矩阵
转置操作将矩阵的行和列互换:
(
A
T
)
i
j
=
a
j
i
(A^T)_{ij} = a_{ji}
(AT)ij=aji
逆矩阵
对于可逆矩阵
A
A
A,其逆矩阵
A
−
1
A^{-1}
A−1 满足:
A
A
−
1
=
A
−
1
A
=
I
AA^{-1} = A^{-1}A = I
AA−1=A−1A=I
其中,
I
I
I 是单位矩阵。如果矩阵不可逆,则不存在逆矩阵。
行列式
行列式是与方阵相关的标量量,具有多种重要性质。
2阶行列式
对于
2
×
2
2 \times 2
2×2 矩阵:
det
[
a
b
c
d
]
=
a
d
−
b
c
\det\begin{bmatrix}a & b \\ c & d\end{bmatrix} = ad - bc
det[acbd]=ad−bc
3阶行列式
对于
3
×
3
3 \times 3
3×3 矩阵:
det
[
a
b
c
d
e
f
g
h
i
]
=
a
(
e
i
−
f
h
)
−
b
(
d
i
−
f
g
)
+
c
(
d
h
−
e
g
)
\det\begin{bmatrix} a & b & c \\ d & e & f \\ g & h & i \\ \end{bmatrix} = a(ei - fh) - b(di - fg) + c(dh - eg)
det
adgbehcfi
=a(ei−fh)−b(di−fg)+c(dh−eg)
行列式性质
- 乘积性质: det ( A B ) = det ( A ) det ( B ) \det(AB) = \det(A)\det(B) det(AB)=det(A)det(B)
- 转置性质: det ( A T ) = det ( A ) \det(A^T) = \det(A) det(AT)=det(A)
- 零行(列)性质:若 A A A 有一行(列)全为零,则 det ( A ) = 0 \det(A) = 0 det(A)=0
特征值与特征向量
特征值与特征向量在理解矩阵的性质和线性变换中起关键作用。
特征值定义
对于矩阵
A
A
A,若存在标量
λ
\lambda
λ 和非零向量
v
\boldsymbol{v}
v 满足:
A
v
=
λ
v
A\boldsymbol{v} = \lambda \boldsymbol{v}
Av=λv
则
λ
\lambda
λ 为
A
A
A 的特征值,
v
\boldsymbol{v}
v 为对应的特征向量。
特征值求解
特征值
λ
\lambda
λ 通过解特征方程得到:
det
(
A
−
λ
I
)
=
0
\det(A - \lambda I) = 0
det(A−λI)=0
谱定理(对称矩阵)
若
A
A
A 为对称矩阵,则存在正交矩阵
Q
Q
Q 和对角矩阵
Λ
\Lambda
Λ 使得:
A
=
Q
Λ
Q
T
A = Q\Lambda Q^T
A=QΛQT
这意味着对称矩阵可以对角化,且其特征向量构成正交基。
向量空间
向量空间是线性代数的基础结构,包含向量的集合及其线性运算。
子空间条件
若集合 W W W 满足以下条件:
- 零向量属于 W W W
- 向量加法封闭
- 数乘封闭
则 W W W 是向量空间的子空间。
基与维数
- 基:向量空间中线性无关且能生成整个空间的一组向量。
- 维数:基的向量个数,表示向量空间的“大小”。
线性变换
线性变换是向量空间之间保持线性结构的映射。
线性变换定义
映射
T
:
R
n
→
R
m
T: \mathbb{R}^n \rightarrow \mathbb{R}^m
T:Rn→Rm 满足:
T
(
u
+
v
)
=
T
(
u
)
+
T
(
v
)
,
T
(
c
u
)
=
c
T
(
u
)
T(\boldsymbol{u} + \boldsymbol{v}) = T(\boldsymbol{u}) + T(\boldsymbol{v}), \quad T(c\boldsymbol{u}) = cT(\boldsymbol{u})
T(u+v)=T(u)+T(v),T(cu)=cT(u)
矩阵表示
任何线性变换都可以表示为矩阵乘法:
T
(
x
)
=
A
x
T(\boldsymbol{x}) = A\boldsymbol{x}
T(x)=Ax
其中,
A
A
A 是对应的变换矩阵。
解线性方程组
解线性方程组是线性代数中的基本问题,常用多种方法求解。
矩阵形式
线性方程组可以表示为矩阵形式:
A
x
=
b
A\boldsymbol{x} = \boldsymbol{b}
Ax=b
克拉默法则
对于可逆矩阵
A
A
A,系统的解为:
x
i
=
det
(
A
i
)
det
(
A
)
x_i = \frac{\det(A_i)}{\det(A)}
xi=det(A)det(Ai)
其中,
A
i
A_i
Ai 是将
A
A
A 的第
i
i
i 列替换为向量
b
\boldsymbol{b}
b 所得到的矩阵。
高斯消元法
通过一系列行变换将矩阵化为上三角或阶梯形,从而简化求解过程。
内积空间
内积空间是在向量空间中引入内积运算,赋予向量更多几何意义。
定义
向量空间 V V V 配备内积运算 ⟨ ⋅ , ⋅ ⟩ \langle \cdot , \cdot \rangle ⟨⋅,⋅⟩,满足:
- 线性性
- 对称性
- 正定性
正交性
若 ⟨ u , v ⟩ = 0 \langle \boldsymbol{u}, \boldsymbol{v} \rangle = 0 ⟨u,v⟩=0,则称向量 u \boldsymbol{u} u 与 v \boldsymbol{v} v 正交。
正交基
基中的所有向量两两正交,且每个向量的范数为 1,这种基称为正交基或标准正交基。
张量
张量是线性代数和多线性代数中的高阶概念,广泛应用于物理学和工程学。
张量定义
张量是多维数组的推广,能够描述多维空间中的线性关系。一个阶为 n n n 的张量可以表示为一个具有 n n n 个索引的多维数组。
张量运算
- 张量加法:对应元素相加。
- 张量乘法:可通过爱因斯坦求和约定进行收缩乘法。
广义逆矩阵
广义逆矩阵用于处理不可逆矩阵的情况,尤其在最小二乘问题中应用广泛。
摩尔-彭若斯广义逆
对于任意矩阵
A
A
A,其摩尔-彭若斯广义逆
A
+
A^+
A+ 满足:
A
A
+
A
=
A
,
A
+
A
A
+
=
A
+
,
(
A
A
+
)
T
=
A
A
+
,
(
A
+
A
)
T
=
A
+
A
AA^+A = A, \quad A^+AA^+ = A^+, \quad (AA^+)^T = AA^+, \quad (A^+A)^T = A^+A
AA+A=A,A+AA+=A+,(AA+)T=AA+,(A+A)T=A+A
奇异值分解 (SVD)
奇异值分解是一种矩阵分解方法,将任意矩阵表示为三个矩阵的乘积,可用于降维和数据压缩。
SVD定义
对于任意
m
×
n
m \times n
m×n 矩阵
A
A
A,存在正交矩阵
U
U
U 和
V
V
V 及对角矩阵
Σ
\Sigma
Σ,使得:
A
=
U
Σ
V
T
A = U\Sigma V^T
A=UΣVT
其中,
Σ
\Sigma
Σ 的对角线元素为奇异值。
QR分解
QR分解将矩阵分解为一个正交矩阵和一个上三角矩阵的乘积,常用于求解线性方程组和特征值问题。
QR分解定义
对于任意
m
×
n
m \times n
m×n 矩阵
A
A
A,存在正交矩阵
Q
Q
Q 和上三角矩阵
R
R
R,使得:
A
=
Q
R
A = QR
A=QR
线性相关与线性无关
线性相关
如果存在不全为零的标量
c
1
,
c
2
,
…
,
c
k
c_1, c_2, \dotsc, c_k
c1,c2,…,ck,使得:
c
1
v
1
+
c
2
v
2
+
⋯
+
c
k
v
k
=
0
c_1\boldsymbol{v}_1 + c_2\boldsymbol{v}_2 + \cdots + c_k\boldsymbol{v}_k = \boldsymbol{0}
c1v1+c2v2+⋯+ckvk=0
则向量组
{
v
1
,
v
2
,
…
,
v
k
}
\{\boldsymbol{v}_1, \boldsymbol{v}_2, \dotsc, \boldsymbol{v}_k\}
{v1,v2,…,vk} 线性相关。
线性无关
如果只有当所有标量 c 1 , c 2 , … , c k c_1, c_2, \dotsc, c_k c1,c2,…,ck 都为零时,上述等式成立,则向量组线性无关。
行空间、列空间与零空间
行空间
一个矩阵的行空间是其所有行向量的线性组合所构成的空间。
列空间
一个矩阵的列空间是其所有列向量的线性组合所构成的空间。
零空间
一个矩阵的零空间是所有满足 A x = 0 A\boldsymbol{x} = \boldsymbol{0} Ax=0 的向量 x \boldsymbol{x} x 所组成的集合。
维数定理
维数定理描述了矩阵的列空间维数(秩)与零空间维数之间的关系:
秩
(
A
)
+
零空间维数
(
A
)
=
列数
(
A
)
\text{秩}(A) + \text{零空间维数}(A) = \text{列数}(A)
秩(A)+零空间维数(A)=列数(A)
对角化
对角化是将一个可对角化矩阵表示为对角矩阵的过程,这对于简化矩阵运算非常有用。
对角化定义
如果一个
n
×
n
n \times n
n×n 的矩阵
A
A
A 存在一个可逆矩阵
P
P
P 和一个对角矩阵
D
D
D,使得:
A
=
P
D
P
−
1
A = PDP^{-1}
A=PDP−1
则称矩阵
A
A
A 是可对角化的,
D
D
D 是
A
A
A 的对角矩阵,
P
P
P 的列向量是
A
A
A 的特征向量。
对角化条件
矩阵 A A A 可对角化的充分必要条件是 A A A 有 n n n 个线性无关的特征向量,即 A A A 有 n n n 个不同的特征值,或者特征值的几何重数等于代数重数。
对角化步骤
- 求解矩阵 A A A 的特征值 λ 1 , λ 2 , … , λ n \lambda_1, \lambda_2, \dotsc, \lambda_n λ1,λ2,…,λn。
- 对每个特征值 λ i \lambda_i λi,求解对应的特征向量 v i \boldsymbol{v}_i vi。
- 构造矩阵 P P P,其列为特征向量 v i \boldsymbol{v}_i vi。
- 构造对角矩阵 D D D,其对角线上的元素为特征值 λ i \lambda_i λi。
- 验证 A = P D P − 1 A = PDP^{-1} A=PDP−1。
乔丹标准形
乔丹标准形是将任意方阵化为接近对角矩阵的形式,使得其结构更加清晰,特别是在矩阵不可对角化的情况下。
乔丹标准形定义
对于一个
n
×
n
n \times n
n×n 的矩阵
A
A
A,存在一个可逆矩阵
P
P
P 和一个乔丹矩阵
J
J
J,使得:
A
=
P
J
P
−
1
A = PJP^{-1}
A=PJP−1
其中,
J
J
J 是由乔丹块组成的块对角矩阵,每个乔丹块对应一个特征值,并且在每个块中该特征值在对角线上重复出现。
乔丹块
一个乔丹块
J
k
(
λ
)
J_k(\lambda)
Jk(λ) 对应于特征值
λ
\lambda
λ,其形式为一个
k
×
k
k \times k
k×k 的矩阵:
J
k
(
λ
)
=
[
λ
1
0
⋯
0
0
λ
1
⋯
0
⋮
⋮
⋱
⋱
⋮
0
0
⋯
λ
1
0
0
⋯
0
λ
]
J_k(\lambda) = \begin{bmatrix} \lambda & 1 & 0 & \cdots & 0 \\ 0 & \lambda & 1 & \cdots & 0 \\ \vdots & \vdots & \ddots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda & 1 \\ 0 & 0 & \cdots & 0 & \lambda \\ \end{bmatrix}
Jk(λ)=
λ0⋮001λ⋮0001⋱⋯⋯⋯⋯⋱λ000⋮1λ
乔丹标准形的存在性
每个方阵都存在一个乔丹标准形,这使得乔丹标准形成为研究线性变换的重要工具,尤其是在理解矩阵的结构和性质方面。
求解步骤
- 求解矩阵 A A A 的特征值及其代数重数。
- 确定每个特征值的几何重数,进而确定乔丹块的大小。
- 构造矩阵 P P P,其列为广义特征向量。
- 构造乔丹矩阵 J J J,使得 A = P J P − 1 A = PJP^{-1} A=PJP−1。
规范形与等价变换
初等行变换
初等行变换包括交换两行、将一行乘以非零标量以及将一行加到另一行的倍数。这些变换用于将矩阵化为行简化阶梯形,从而便于求解线性方程组和研究矩阵的秩。
规范形
通过一系列初等行变换,可以将任意矩阵化为其规范形,即最简形式,如行最简阶梯形。这有助于理解矩阵的基本性质和解决相关问题。
正交投影
正交投影的定义
在内积空间中,向量 u \boldsymbol{u} u 在子空间 W W W 上的正交投影是子空间中距离 u \boldsymbol{u} u 最近的向量,记为 proj W u \text{proj}_W \boldsymbol{u} projWu。
投影公式
若
W
W
W 是由正交基
{
w
1
,
w
2
,
…
,
w
k
}
\{\boldsymbol{w}_1, \boldsymbol{w}_2, \dotsc, \boldsymbol{w}_k\}
{w1,w2,…,wk} 生成的子空间,则
proj
W
u
=
∑
i
=
1
k
u
⋅
w
i
w
i
⋅
w
i
w
i
\text{proj}_W \boldsymbol{u} = \sum_{i=1}^k \frac{\boldsymbol{u} \cdot \boldsymbol{w}_i}{\boldsymbol{w}_i \cdot \boldsymbol{w}_i} \boldsymbol{w}_i
projWu=i=1∑kwi⋅wiu⋅wiwi
投影矩阵
正交投影可以用矩阵表示。对于子空间
W
W
W,投影矩阵
P
P
P 满足:
P
=
W
(
W
T
W
)
−
1
W
T
P = W(W^T W)^{-1} W^T
P=W(WTW)−1WT
其中,
W
W
W 是由
W
W
W 的基向量组成的矩阵。
基变换
基变换的定义
在向量空间中,基变换是将向量表示从一个基转换为另一个基的过程。
变换矩阵
若
B
=
{
b
1
,
…
,
b
n
}
B = \{\boldsymbol{b}_1, \dotsc, \boldsymbol{b}_n\}
B={b1,…,bn} 和
C
=
{
c
1
,
…
,
c
n
}
C = \{\boldsymbol{c}_1, \dotsc, \boldsymbol{c}_n\}
C={c1,…,cn} 是两个基,则从
B
B
B 到
C
C
C 的基变换矩阵
P
C
←
B
P_{C \leftarrow B}
PC←B 满足:
c
i
=
P
C
←
B
b
i
,
∀
i
=
1
,
2
,
…
,
n
\boldsymbol{c}_i = P_{C \leftarrow B} \boldsymbol{b}_i, \quad \forall i = 1, 2, \dotsc, n
ci=PC←Bbi,∀i=1,2,…,n
坐标变换
向量
v
\boldsymbol{v}
v 在基
B
B
B 和基
C
C
C 下的坐标关系为:
v
C
=
P
C
←
B
v
B
\boldsymbol{v}_C = P_{C \leftarrow B} \boldsymbol{v}_B
vC=PC←BvB
双线性形式与二次形式
双线性形式
一个双线性形式是一个函数
B
:
V
×
V
→
R
B: V \times V \rightarrow \mathbb{R}
B:V×V→R,满足对于所有的
u
,
v
,
w
∈
V
\boldsymbol{u}, \boldsymbol{v}, \boldsymbol{w} \in V
u,v,w∈V 和标量
c
c
c,有:
B
(
u
+
v
,
w
)
=
B
(
u
,
w
)
+
B
(
v
,
w
)
B(\boldsymbol{u} + \boldsymbol{v}, \boldsymbol{w}) = B(\boldsymbol{u}, \boldsymbol{w}) + B(\boldsymbol{v}, \boldsymbol{w})
B(u+v,w)=B(u,w)+B(v,w)
B
(
c
u
,
v
)
=
c
B
(
u
,
v
)
B(c\boldsymbol{u}, \boldsymbol{v}) = cB(\boldsymbol{u}, \boldsymbol{v})
B(cu,v)=cB(u,v)
二次形式
一个二次形式是一个函数
Q
:
V
→
R
Q: V \rightarrow \mathbb{R}
Q:V→R,满足:
Q
(
v
)
=
B
(
v
,
v
)
Q(\boldsymbol{v}) = B(\boldsymbol{v}, \boldsymbol{v})
Q(v)=B(v,v)
其中,
B
B
B 是一个对称双线性形式。
矩阵表示
双线性形式和二次形式可以通过矩阵表示。对于双线性形式 B ( u , v ) = u T A v B(\boldsymbol{u}, \boldsymbol{v}) = \boldsymbol{u}^T A \boldsymbol{v} B(u,v)=uTAv,其中 A A A 是对称矩阵。
矩阵范数
矩阵范数的定义
矩阵范数是一个将矩阵映射到非负实数的函数,满足以下性质:
- ∥ A ∥ ≥ 0 \|A\| \geq 0 ∥A∥≥0,且 ∥ A ∥ = 0 \|A\| = 0 ∥A∥=0 当且仅当 A A A 是零矩阵。
- ∥ c A ∥ = ∣ c ∣ ∥ A ∥ \|cA\| = |c| \|A\| ∥cA∥=∣c∣∥A∥,其中 c c c 是标量。
- ∥ A + B ∥ ≤ ∥ A ∥ + ∥ B ∥ \|A + B\| \leq \|A\| + \|B\| ∥A+B∥≤∥A∥+∥B∥。
常见矩阵范数
-
Frobenius 范数:
∥ A ∥ F = ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ 2 \|A\|_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n |a_{ij}|^2} ∥A∥F=i=1∑mj=1∑n∣aij∣2 -
谱范数(2-范数):
∥ A ∥ 2 = σ max ( A ) \|A\|_2 = \sigma_{\max}(A) ∥A∥2=σmax(A)
其中, σ max ( A ) \sigma_{\max}(A) σmax(A) 是矩阵 A A A 的最大奇异值。 -
1-范数:
∥ A ∥ 1 = max 1 ≤ j ≤ n ∑ i = 1 m ∣ a i j ∣ \|A\|_1 = \max_{1 \leq j \leq n} \sum_{i=1}^m |a_{ij}| ∥A∥1=1≤j≤nmaxi=1∑m∣aij∣ -
无穷范数:
∥ A ∥ ∞ = max 1 ≤ i ≤ m ∑ j = 1 n ∣ a i j ∣ \|A\|_\infty = \max_{1 \leq i \leq m} \sum_{j=1}^n |a_{ij}| ∥A∥∞=1≤i≤mmaxj=1∑n∣aij∣
正交矩阵与正交变换
正交矩阵
正交矩阵是指其转置等于其逆的方阵,即:
Q
T
Q
=
Q
Q
T
=
I
Q^T Q = QQ^T = I
QTQ=QQT=I
其中,
Q
T
Q^T
QT 是矩阵
Q
Q
Q 的转置,
I
I
I 是单位矩阵。
正交变换
正交变换是由正交矩阵表示的线性变换,保持向量的长度和夹角不变。即对于所有向量
u
,
v
∈
R
n
\boldsymbol{u}, \boldsymbol{v} \in \mathbb{R}^n
u,v∈Rn:
∥
Q
u
∥
=
∥
u
∥
\|Q\boldsymbol{u}\| = \|\boldsymbol{u}\|
∥Qu∥=∥u∥
(
Q
u
)
⋅
(
Q
v
)
=
u
⋅
v
(Q\boldsymbol{u}) \cdot (Q\boldsymbol{v}) = \boldsymbol{u} \cdot \boldsymbol{v}
(Qu)⋅(Qv)=u⋅v
正交矩阵的性质
- 保持长度: ∥ Q u ∥ = ∥ u ∥ \|Q\boldsymbol{u}\| = \|\boldsymbol{u}\| ∥Qu∥=∥u∥
- 保持内积: ( Q u ) ⋅ ( Q v ) = u ⋅ v (Q\boldsymbol{u}) \cdot (Q\boldsymbol{v}) = \boldsymbol{u} \cdot \boldsymbol{v} (Qu)⋅(Qv)=u⋅v
- 行向量和列向量正交:矩阵的行向量和列向量都是单位正交的
第二部分:进阶
对称矩阵与谱定理
对称矩阵
对称矩阵是指矩阵等于其转置,即:
A
=
A
T
A = A^T
A=AT
对称矩阵的所有特征值都是实数。
谱定理
谱定理指出,每个对称矩阵都可以被正交对角化。即,对于一个对称矩阵
A
A
A,存在一个正交矩阵
Q
Q
Q 和一个对角矩阵
Λ
\Lambda
Λ,使得:
A
=
Q
Λ
Q
T
A = Q\Lambda Q^T
A=QΛQT
其中,
Λ
\Lambda
Λ 的对角线元素是
A
A
A 的特征值,
Q
Q
Q 的列向量是
A
A
A 的特征向量。
应用
- 主成分分析(PCA):利用谱定理对协方差矩阵进行对角化以实现数据降维
- 二次型的分类:通过谱定理将二次型表示为对角形式,便于分析其性质
正定矩阵与半正定矩阵
正定矩阵
一个对称矩阵
A
A
A 被称为正定矩阵,如果对于所有非零向量
x
\boldsymbol{x}
x,有:
x
T
A
x
>
0
\boldsymbol{x}^T A \boldsymbol{x} > 0
xTAx>0
半正定矩阵
一个对称矩阵
A
A
A 被称为半正定矩阵,如果对于所有向量
x
\boldsymbol{x}
x,有:
x
T
A
x
≥
0
\boldsymbol{x}^T A \boldsymbol{x} \geq 0
xTAx≥0
性质与判别
- 特征值判别:正定矩阵的所有特征值均为正,半正定矩阵的所有特征值非负
- 主子式判别:正定矩阵的所有主子式均为正
最小二乘问题
问题描述
在过定的线性方程组
A
x
=
b
A\boldsymbol{x} = \boldsymbol{b}
Ax=b 中,求解使得
∥
A
x
−
b
∥
\|A\boldsymbol{x} - \boldsymbol{b}\|
∥Ax−b∥ 最小的向量
x
\boldsymbol{x}
x,即:
min
x
∥
A
x
−
b
∥
2
\min_{\boldsymbol{x}} \|A\boldsymbol{x} - \boldsymbol{b}\|_2
xmin∥Ax−b∥2
正规方程
最小二乘解可以通过正规方程得到:
A
T
A
x
=
A
T
b
A^T A \boldsymbol{x} = A^T \boldsymbol{b}
ATAx=ATb
解的存在性与唯一性
当
A
T
A
A^T A
ATA 可逆时,最小二乘解唯一,且为:
x
=
(
A
T
A
)
−
1
A
T
b
\boldsymbol{x} = (A^T A)^{-1} A^T \boldsymbol{b}
x=(ATA)−1ATb
解析几何解释
最小二乘解是向量 b \boldsymbol{b} b 在列空间 C ( A ) \mathcal{C}(A) C(A) 上的正交投影所对应的向量。
稀疏矩阵
稀疏矩阵定义
稀疏矩阵是指矩阵中大部分元素为零的矩阵。与之相对的是稠密矩阵,其大部分元素非零。
存储与计算
稀疏矩阵常采用特殊的数据结构进行存储,如压缩稀疏行(CSR)或压缩稀疏列(CSC),以节省存储空间并提高计算效率。
应用
- 科学计算:大型线性系统的求解
- 图论:图的邻接矩阵表示
- 机器学习:特征矩阵通常为稀疏
程序设计中的线性代数应用
图像处理
- 图像压缩:利用奇异值分解(SVD)进行降维
- 图像旋转与变换:使用正交矩阵实现图像的旋转和反射
机器学习
- 主成分分析(PCA):通过特征值分解或奇异值分解实现数据降维
- 线性回归:最小二乘法用于模型参数的估计
网络分析
- PageRank 算法:基于矩阵的特征值计算网页重要性
计算机图形学
- 变换矩阵:用于实现图形的平移、旋转、缩放等操作
双线性变换与张量
双线性变换
双线性变换是线性代数中的一种高级概念,涉及两个向量空间之间的双线性映射。具体定义和性质可参考双线性形式章节。
张量运算的扩展
- 张量积:将两个张量合成为一个更高阶的张量
- 收缩:对张量的某些指标进行求和,降低其阶数
算法复杂度与数值稳定性
算法复杂度
线性代数算法的时间与空间复杂度,例如:
- 高斯消元法:时间复杂度为 O ( n 3 ) O(n^3) O(n3)
- 奇异值分解(SVD):时间复杂度较高,通常为 O ( n 3 ) O(n^3) O(n3)
数值稳定性
在实际计算中,算法的数值稳定性至关重要,避免因舍入误差导致结果不准确。常用技术包括:
- 部分选主元:在高斯消元中选择主元以提高稳定性
- 正交变换:如QR分解,减少舍入误差
LU分解
LU分解定义
LU分解是将一个矩阵分解为下三角矩阵
L
L
L 和上三角矩阵
U
U
U 的乘积,即:
A
=
L
U
A = LU
A=LU
其中,
L
L
L 是单位下三角矩阵(对角线元素全部为1),
U
U
U 是上三角矩阵。
分解条件
并非所有矩阵都可以进行LU分解。一个矩阵可以进行LU分解的充分必要条件是其所有主子式均不为零,或者在进行分解过程中不需要行交换。
分解方法
-
直接分解法:
通过逐步消元将矩阵 A A A 转化为上三角矩阵 U U U,并记录下每一步的系数形成下三角矩阵 L L L。 -
带部分主元的LU分解:
在分解过程中进行行交换以提高稳定性,即:
P A = L U PA = LU PA=LU
其中, P P P 是置换矩阵。
应用
- 求解线性方程组:通过分解后,先解 L y = b Ly = b Ly=b,再解 U x = y Ux = y Ux=y。
- 计算行列式: det ( A ) = det ( L ) ⋅ det ( U ) \det(A) = \det(L) \cdot \det(U) det(A)=det(L)⋅det(U),由于 L L L 是单位下三角矩阵, det ( A ) = det ( U ) \det(A) = \det(U) det(A)=det(U)。
- 逆矩阵:利用分解结果可以高效计算矩阵的逆。
Cholesky分解
Cholesky分解定义
Cholesky分解是将一个对称正定矩阵分解为一个下三角矩阵与其转置的乘积,即:
A
=
L
L
T
A = LL^T
A=LLT
其中,
L
L
L 是下三角矩阵。
分解条件
只有对称正定矩阵才能进行Cholesky分解。
分解方法
通过逐步计算元素,确保分解过程中每一步的对角元素为正,从而保持下三角矩阵 L L L 的非奇异性。
应用
- 数值稳定的线性方程组求解:比LU分解在处理对称正定矩阵时更高效。
- 优化问题:在凸优化中广泛应用于二次型的优化问题。
- 蒙特卡洛模拟:用于生成具有特定协方差结构的多变量正态分布数据。
数值线性代数中的迭代方法
雅可比迭代法
雅可比迭代法是一种求解线性方程组
A
x
=
b
A\boldsymbol{x} = \boldsymbol{b}
Ax=b 的迭代方法。将矩阵
A
A
A 分解为对角矩阵
D
D
D 和其余部分
R
R
R,即
A
=
D
+
R
A = D + R
A=D+R,迭代公式为:
x
(
k
+
1
)
=
D
−
1
(
b
−
R
x
(
k
)
)
\boldsymbol{x}^{(k+1)} = D^{-1}(\boldsymbol{b} - R\boldsymbol{x}^{(k)})
x(k+1)=D−1(b−Rx(k))
高斯-赛德尔迭代法
高斯-赛德尔迭代法改进了雅可比方法,使用最新的迭代值进行计算。分解同样为
A
=
D
+
R
A = D + R
A=D+R,迭代公式为:
x
(
k
+
1
)
=
(
D
+
L
)
−
1
(
b
−
U
x
(
k
)
)
\boldsymbol{x}^{(k+1)} = (D + L)^{-1}(\boldsymbol{b} - U\boldsymbol{x}^{(k)})
x(k+1)=(D+L)−1(b−Ux(k))
其中,
L
L
L 是
A
A
A 的下三角部分,
U
U
U 是上三角部分。
共轭梯度法
共轭梯度法是一种针对对称正定矩阵的高效迭代方法,适用于大规模稀疏线性系统。它通过构建共轭方向逐步逼近解。
应用
- 大规模线性系统求解:尤其在工程和科学计算中处理稀疏矩阵时。
- 优化算法:如最小二乘问题和凸优化问题中的子步骤。
- 图像处理和机器学习:用于高效计算和数据分析。
矩阵的迹
矩阵迹的定义
一个 n × n n \times n n×n 矩阵 A A A 的迹,记作 tr ( A ) \text{tr}(A) tr(A),是矩阵对角线上元素的和:
tr ( A ) = ∑ i = 1 n a i i \text{tr}(A) = \sum_{i=1}^n a_{ii} tr(A)=i=1∑naii
矩阵迹的性质
-
线性性:
tr ( A + B ) = tr ( A ) + tr ( B ) \text{tr}(A + B) = \text{tr}(A) + \text{tr}(B) tr(A+B)=tr(A)+tr(B)
tr ( c A ) = c tr ( A ) \text{tr}(cA) = c \, \text{tr}(A) tr(cA)=ctr(A) -
循环不变性:
tr ( A B ) = tr ( B A ) \text{tr}(AB) = \text{tr}(BA) tr(AB)=tr(BA) -
与转置的关系:
tr ( A ) = tr ( A T ) \text{tr}(A) = \text{tr}(A^T) tr(A)=tr(AT)
应用
-
特征值关系:
矩阵的迹等于其特征值的和。tr ( A ) = λ 1 + λ 2 + ⋯ + λ n \text{tr}(A) = \lambda_1 + \lambda_2 + \cdots + \lambda_n tr(A)=λ1+λ2+⋯+λn
-
计算方便:
矩阵的迹可以用于快速计算某些矩阵运算的结果,如矩阵对角线元素之和。
矩阵指数
矩阵指数的定义
对于一个方阵 A A A,其矩阵指数定义为幂级数:
e A = ∑ k = 0 ∞ A k k ! e^{A} = \sum_{k=0}^{\infty} \frac{A^k}{k!} eA=k=0∑∞k!Ak
性质
-
幂级数收敛:对于任何方阵 A A A,幂级数一定收敛。
-
矩阵的性质保持:
如果 A A A 和 B B B 可交换( A B = B A AB = BA AB=BA),则 e A + B = e A e B e^{A+B} = e^{A} e^{B} eA+B=eAeB。 -
矩阵指数与特征值:
如果 λ \lambda λ 是 A A A 的特征值,则 e λ e^{\lambda} eλ 是 e A e^{A} eA 的特征值。
应用
-
解决线性微分方程:
线性系统 d x d t = A x \frac{d\boldsymbol{x}}{dt} = A\boldsymbol{x} dtdx=Ax 的解为 x ( t ) = e A t x ( 0 ) \boldsymbol{x}(t) = e^{At} \boldsymbol{x}(0) x(t)=eAtx(0)。 -
量子力学:
在量子力学中,矩阵指数用于描述时间演化算符。 -
控制理论:
用于描述系统的状态转移。
Gram-Schmidt正交化
Gram-Schmidt过程的定义
Gram-Schmidt过程是一种将一组线性无关的向量转化为一组正交向量的方法。对于向量组 { v 1 , v 2 , … , v n } \{\boldsymbol{v}_1, \boldsymbol{v}_2, \dotsc, \boldsymbol{v}_n\} {v1,v2,…,vn},Gram-Schmidt过程生成一组正交向量 { u 1 , u 2 , … , u n } \{\boldsymbol{u}_1, \boldsymbol{u}_2, \dotsc, \boldsymbol{u}_n\} {u1,u2,…,un},满足:
u 1 = v 1 \boldsymbol{u}_1 = \boldsymbol{v}_1 u1=v1
u k = v k − ∑ i = 1 k − 1 u i ⋅ v k u i ⋅ u i u i 对于 k = 2 , 3 , … , n \boldsymbol{u}_k = \boldsymbol{v}_k - \sum_{i=1}^{k-1} \frac{\boldsymbol{u}_i \cdot \boldsymbol{v}_k}{\boldsymbol{u}_i \cdot \boldsymbol{u}_i} \boldsymbol{u}_i \quad \text{对于 } k = 2, 3, \dotsc, n uk=vk−i=1∑k−1ui⋅uiui⋅vkui对于 k=2,3,…,n
Gram-Schmidt过程的性质
- 正交性:生成的向量组 { u 1 , u 2 , … , u n } \{\boldsymbol{u}_1, \boldsymbol{u}_2, \dotsc, \boldsymbol{u}_n\} {u1,u2,…,un} 是正交的。
- 生成相同的子空间:新向量组与原向量组生成相同的子空间。
应用
- 正交基的构造:用于构建向量空间的正交基。
- QR分解:Gram-Schmidt过程是QR分解的一种实现方法。
克罗内克积 (Kronecker Product)
克罗内克积的定义
对于两个矩阵 A ∈ R m × n A \in \mathbb{R}^{m \times n} A∈Rm×n 和 B ∈ R p × q B \in \mathbb{R}^{p \times q} B∈Rp×q,它们的克罗内克积记作 A ⊗ B A \otimes B A⊗B,是一个 m p × n q mp \times nq mp×nq 的块矩阵:
A ⊗ B = [ a 11 B ⋯ a 1 n B ⋮ ⋱ ⋮ a m 1 B ⋯ a m n B ] A \otimes B = \begin{bmatrix} a_{11}B & \cdots & a_{1n}B \\ \vdots & \ddots & \vdots \\ a_{m1}B & \cdots & a_{mn}B \\ \end{bmatrix} A⊗B= a11B⋮am1B⋯⋱⋯a1nB⋮amnB
克罗内克积的性质
- 结合性:
( A ⊗ B ) ⊗ C = A ⊗ ( B ⊗ C ) (A \otimes B) \otimes C = A \otimes (B \otimes C) (A⊗B)⊗C=A⊗(B⊗C) - 分配性:
A ⊗ ( B + C ) = A ⊗ B + A ⊗ C A \otimes (B + C) = A \otimes B + A \otimes C A⊗(B+C)=A⊗B+A⊗C - 与矩阵乘法的关系:
( A ⊗ B ) ( C ⊗ D ) = ( A C ) ⊗ ( B D ) (A \otimes B)(C \otimes D) = (AC) \otimes (BD) (A⊗B)(C⊗D)=(AC)⊗(BD)
前提是 A A A 和 C C C 可乘, B B B 和 D D D 可乘。
应用
- 张量表示:用于描述多线性关系和高阶张量的操作。
- 量子计算:用于表示多量子比特系统的状态和操作。
特征多项式与最小多项式
特征多项式
特征多项式是一个方阵的特征值的重要工具。对于一个 n × n n \times n n×n 的矩阵 A A A,它的特征多项式定义为:
p A ( λ ) = det ( A − λ I ) p_A(\lambda) = \det(A - \lambda I) pA(λ)=det(A−λI)
其中, λ \lambda λ 是变量, I I I 是 n × n n \times n n×n 的单位矩阵。
性质
- 特征值关系:矩阵 A A A 的特征值是特征多项式的根。
- 相似矩阵:如果两个矩阵相似,则它们的特征多项式相同。
- 多重性:
- 代数重数:一个特征值在特征多项式中出现的次数。
- 几何重数:对应特征值的特征向量的线性无关组的数量。
应用
- 计算特征值:通过求解特征多项式的根来找到矩阵的特征值。
- 矩阵分类:利用特征多项式判断矩阵是否可对角化。
最小多项式
最小多项式是满足 m A ( A ) = 0 m_A(A) = 0 mA(A)=0 的最低次数的非零多项式,其中 m A ( λ ) m_A(\lambda) mA(λ) 为矩阵 A A A 的最小多项式。
性质
- 包含所有特征值:最小多项式的根包括矩阵 A A A 的所有特征值。
- 因子:最小多项式是特征多项式的一个因子。
- 相似矩阵:相似矩阵的最小多项式相同。
应用
- 矩阵函数:利用最小多项式可以定义矩阵的多项式函数。
- 判断可对角化:如果最小多项式的每个不重复根的重数为1,则矩阵可对角化。
双对偶空间
双对偶空间的定义
对于一个向量空间 V V V,其双对偶空间 V ∗ ∗ V^{**} V∗∗ 定义为 V ∗ V^* V∗ 的对偶空间,即 V ∗ ∗ = ( V ∗ ) ∗ V^{**} = (V^*)^* V∗∗=(V∗)∗。通过自然映射, V V V 同构于 V ∗ ∗ V^{**} V∗∗。
自然映射
自然映射 Φ : V → V ∗ ∗ \Phi: V \rightarrow V^{**} Φ:V→V∗∗ 通过将每个向量 v ∈ V \boldsymbol{v} \in V v∈V 映射为线性函数 Φ ( v ) ∈ V ∗ ∗ \Phi(\boldsymbol{v}) \in V^{**} Φ(v)∈V∗∗,满足:
Φ ( v ) ( ϕ ) = ϕ ( v ) , ∀ ϕ ∈ V ∗ \Phi(\boldsymbol{v})(\phi) = \phi(\boldsymbol{v}), \quad \forall \phi \in V^* Φ(v)(ϕ)=ϕ(v),∀ϕ∈V∗
性质
- 同构性:对于有限维向量空间, V V V 与 V ∗ ∗ V^{**} V∗∗ 同构。
- 反射性:双对偶空间反映了原空间的结构和性质。
应用
- 泛函分析:双对偶空间在泛函分析中用于研究线性算子的性质。
- 表示理论:在表示理论中,双对偶空间用于描述双线性形式和复合映射。
分块矩阵
分块矩阵的定义
分块矩阵是将一个大矩阵划分为若干个小矩阵块进行表示的矩阵形式。设 A A A 是一个 m × n m \times n m×n 的矩阵,可以分块表示为:
A = [ A 11 A 12 ⋯ A 1 k A 21 A 22 ⋯ A 2 k ⋮ ⋮ ⋱ ⋮ A k 1 A k 2 ⋯ A k k ] A = \begin{bmatrix} A_{11} & A_{12} & \cdots & A_{1k} \\ A_{21} & A_{22} & \cdots & A_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ A_{k1} & A_{k2} & \cdots & A_{kk} \\ \end{bmatrix} A= A11A21⋮Ak1A12A22⋮Ak2⋯⋯⋱⋯A1kA2k⋮Akk
其中, A i j A_{ij} Aij 是第 i i i 行第 j j j 列的子矩阵块。
分块矩阵的运算
- 加法与减法:对应块进行加法或减法。
- 乘法:通过块的乘法和加法实现。
- 求逆:在特定条件下,分块矩阵的逆可以通过Schur补实现。
应用
- 简化计算:将大矩阵分块后,可以简化矩阵运算和求逆过程。
- 数值方法:分块矩阵在数值线性代数中的迭代方法和分解方法中广泛应用。
- 工程与科学计算:用于处理复杂系统的矩阵表示,如电路网络和结构工程中的矩阵。
按块LU分解
定义
按块LU分解是将一个分块矩阵分解为分块下三角矩阵 L L L 和分块上三角矩阵 U U U 的乘积,即:
A = L U A = LU A=LU
其中, L L L 和 U U U 也是分块矩阵,且具有下三角和上三角的块结构。
方法
- 划分矩阵块:将矩阵 A A A 划分为若干块。
- 递归分解:对每个块进行LU分解,并递归处理。
- 求解Schur补:利用Schur补的方法处理剩余的矩阵部分。
应用
- 高效计算:通过按块操作,可以利用矩阵的结构进行高效计算,尤其在处理稀疏矩阵时。
- 并行计算:分块LU分解适合并行计算,提高计算效率。
- 大型线性系统求解:用于分布式系统中求解大型线性方程组。
Schur分解
Schur分解的定义
Schur分解是将一个复方阵表示为一个酉矩阵与一个上三角矩阵的乘积,即:
A
=
Q
U
Q
∗
A = QUQ^*
A=QUQ∗
其中,
Q
Q
Q 是酉矩阵(即
Q
∗
Q
=
Q
Q
∗
=
I
Q^* Q = QQ^* = I
Q∗Q=QQ∗=I),
U
U
U 是上三角矩阵。
分解条件
任何复方阵都可以进行 Schur 分解。
分解方法
- 对矩阵 A A A 进行 QR 分解。
- 通过迭代应用 QR 分解,直到上三角矩阵 U U U 收敛。
应用
- 特征值计算:Schur 分解在数值特征值算法中广泛应用。
- 稳定性分析:用于判断矩阵的稳定性和动力系统的性质。
Polar分解
Polar分解的定义
Polar分解是将一个矩阵表示为一个正交矩阵与一个半正定矩阵的乘积,即:
A
=
U
P
A = UP
A=UP
其中,
U
U
U 是正交矩阵,
P
P
P 是半正定矩阵。
分解条件
任何实矩阵都可以进行 Polar 分解。
分解方法
- 计算 P = A T A P = \sqrt{A^T A} P=ATA。
- 计算 U = A P − 1 U = A P^{-1} U=AP−1。
应用
- 量子力学:用于描述量子态的演化。
- 图像处理:用于图像的旋转和缩放。
矩阵的秩
矩阵秩的定义
一个矩阵的秩,记作 rank ( A ) \text{rank}(A) rank(A),是矩阵中最大线性无关行(或列)的数量。
秩的性质
- 行秩等于列秩:对于任何矩阵,行秩与列秩相等。
- 子空间关系: rank ( A ) = dim ( C ( A ) ) = dim ( R ( A ) ) \text{rank}(A) = \dim(\mathcal{C}(A)) = \dim(\mathcal{R}(A)) rank(A)=dim(C(A))=dim(R(A)),其中 C ( A ) \mathcal{C}(A) C(A) 是列空间, R ( A ) \mathcal{R}(A) R(A) 是行空间。
- 矩阵乘积的秩:
rank ( A B ) ≤ min ( rank ( A ) , rank ( B ) ) \text{rank}(AB) \leq \min(\text{rank}(A), \text{rank}(B)) rank(AB)≤min(rank(A),rank(B))
秩的计算方法
- 行简化阶梯形:通过高斯消元法将矩阵转化为行简化阶梯形,非零行的数量即为秩。
- 奇异值分解(SVD):非零奇异值的数量等于矩阵的秩。
应用
- 线性方程组:判断方程组的解的存在性和唯一性。
- 最小二乘问题:分析最小二乘解的唯一性。
- 矩阵分解:在各种矩阵分解中,秩是一个关键参数。
向量空间的正交补
正交补的定义
在向量空间
V
V
V 中,对于子空间
W
W
W,其正交补
W
⊥
W^\perp
W⊥ 定义为:
W
⊥
=
{
v
∈
V
∣
v
⊥
w
,
∀
w
∈
W
}
W^\perp = \{\boldsymbol{v} \in V \mid \boldsymbol{v} \perp \boldsymbol{w}, \forall \boldsymbol{w} \in W\}
W⊥={v∈V∣v⊥w,∀w∈W}
正交补的性质
- 维数关系:
dim ( W ) + dim ( W ⊥ ) = dim ( V ) \dim(W) + \dim(W^\perp) = \dim(V) dim(W)+dim(W⊥)=dim(V) - 双正交补:
( W ⊥ ) ⊥ = W (W^\perp)^\perp = W (W⊥)⊥=W - 子空间交集:
W ∩ W ⊥ = { 0 } W \cap W^\perp = \{\boldsymbol{0}\} W∩W⊥={0}
应用
- 分解定理:任何向量可以唯一地表示为 W W W 中的向量与 W ⊥ W^\perp W⊥ 中的向量之和。
- 最小二乘问题:解的存在性与正交补相关。
- 信号处理:正交补用于信号的分离与滤波。
特征向量的正交性
特征向量正交性的条件
对于对称矩阵 A A A,不同特征值对应的特征向量是正交的。
正交特征向量组
如果
A
A
A 是对称矩阵,则存在一组正交的特征向量基,使得:
Q
T
A
Q
=
Λ
Q^T A Q = \Lambda
QTAQ=Λ
其中,
Q
Q
Q 是由正交特征向量构成的矩阵,
Λ
\Lambda
Λ 是对角矩阵,包含
A
A
A 的特征值。
应用
- 谱分解:利用正交特征向量进行矩阵的谱分解。
- 主成分分析(PCA):通过正交特征向量实现数据降维。
- 稳定性分析:正交特征向量用于分析系统的稳定性。
矩阵函数
矩阵函数的定义
矩阵函数是将标量函数扩展到矩阵上的方法。例如,对于一个标量函数
f
(
λ
)
f(\lambda)
f(λ),其矩阵函数
f
(
A
)
f(A)
f(A) 定义为:
f
(
A
)
=
∑
k
=
0
∞
f
(
k
)
(
0
)
k
!
A
k
f(A) = \sum_{k=0}^{\infty} \frac{f^{(k)}(0)}{k!} A^k
f(A)=k=0∑∞k!f(k)(0)Ak
常见的矩阵函数
- 矩阵指数:
e A = ∑ k = 0 ∞ A k k ! e^A = \sum_{k=0}^{\infty} \frac{A^k}{k!} eA=k=0∑∞k!Ak - 矩阵对数:
对于可逆矩阵 A A A,其对数定义为:
log ( A ) = ∑ k = 1 ∞ ( − 1 ) k + 1 k ( A − I ) k \log(A) = \sum_{k=1}^{\infty} \frac{(-1)^{k+1}}{k} (A - I)^k log(A)=k=1∑∞k(−1)k+1(A−I)k - 矩阵的幂:
对于整数 k k k,
A k = A ⋅ A ⋯ A ( k 次 ) A^k = A \cdot A \cdots A \quad (k \text{ 次}) Ak=A⋅A⋯A(k 次)
矩阵函数的性质
- 相似变换不变性:
如果 A = P B P − 1 A = PBP^{-1} A=PBP−1,则
f ( A ) = P f ( B ) P − 1 f(A) = Pf(B)P^{-1} f(A)=Pf(B)P−1 - 可加性与齐次性:
对于标量函数 f f f,某些矩阵函数满足
f ( A + B ) = f ( A ) + f ( B ) , f ( c A ) = c f ( A ) f(A + B) = f(A) + f(B), \quad f(cA) = c f(A) f(A+B)=f(A)+f(B),f(cA)=cf(A)
但这取决于具体的函数形式。
应用
- 微分方程求解:利用矩阵指数求解线性微分方程组。
- 控制理论:矩阵函数用于描述系统的状态转移。
- 量子力学:矩阵函数用于描述量子态的演化。
Hessenberg矩阵
Hessenberg矩阵的定义
一个Hessenberg矩阵是一个上 Hessenberg 阶矩阵,其下三角部分仅有第一条下对角线上的元素可能不为零:
H
=
[
h
11
h
12
⋯
h
1
n
h
21
h
22
⋱
⋮
0
h
32
⋱
h
3
n
⋮
⋱
⋱
h
(
n
−
1
)
n
0
⋯
0
h
n
n
]
H = \begin{bmatrix} h_{11} & h_{12} & \cdots & h_{1n} \\ h_{21} & h_{22} & \ddots & \vdots \\ 0 & h_{32} & \ddots & h_{3n} \\ \vdots & \ddots & \ddots & h_{(n-1)n} \\ 0 & \cdots & 0 & h_{nn} \end{bmatrix}
H=
h11h210⋮0h12h22h32⋱⋯⋯⋱⋱⋱0h1n⋮h3nh(n−1)nhnn
Hessenberg矩阵的性质
- 简化计算:上 Hessenberg结构简化了特征值算法的步骤。
- 相似性:对于任意方阵 A A A,存在酉矩阵 Q Q Q 使得 Q ∗ A Q Q^* A Q Q∗AQ 是上 Hessenberg 矩阵。
应用
- 数值特征值计算:Hessenberg形式是许多特征值算法(如QR算法)的预处理步骤。
- 数值稳定性:保持数值稳定性的同时,简化了矩阵运算。
极分解 (Polar Decomposition)
极分解的定义
极分解是将一个矩阵分解为一个酉矩阵与一个正定矩阵的乘积,即:
A
=
U
P
A = UP
A=UP
其中,
U
U
U 是酉矩阵,
P
P
P 是正定矩阵。
分解条件
任何复矩阵都可以进行极分解。
分解方法
- 计算 P = A ∗ A P = \sqrt{A^* A} P=A∗A。
- 计算 U = A P − 1 U = A P^{-1} U=AP−1。
应用
- 量子力学:用于描述量子态的演化和变换。
- 信号处理:用于信号的旋转和放缩操作。
- 计算机图形学:用于图像和模型的变换。
奇异值分解的进一步性质
奇异值的几何意义
-
奇异值分解 (SVD) 将矩阵 A A A 分解为:
A = U Σ V T A = U \Sigma V^T A=UΣVT
其中, U U U 和 V V V 是正交矩阵, Σ \Sigma Σ 是对角矩阵,包含奇异值。 -
几何解释:
- Σ \Sigma Σ 的对角线上的奇异值代表了矩阵 A A A 在相应方向上的伸缩比例。
- U U U 和 V V V 分别定义了输入空间和输出空间的正交基。
奇异值分解的性质
- 存在性:任何矩阵都可以进行奇异值分解。
- 唯一性:奇异值按照降序排列,且分解的 U U U 和 V V V 在奇异值重复时不唯一。
- 最优近似:SVD 提供了矩阵在低秩近似方面的最优解。
应用
- 数据压缩:减少数据维度同时保留重要信息。
- 图像处理:图像压缩与去噪。
- 推荐系统:矩阵分解用于预测用户偏好。
- 自然语言处理:潜在语义分析(LSA)。
四则运算
矩阵的加法与减法
- 加法:两个矩阵相加,要求它们的维数相同。
( A + B ) i j = a i j + b i j (A + B)_{ij} = a_{ij} + b_{ij} (A+B)ij=aij+bij - 减法:类似于加法。
( A − B ) i j = a i j − b i j (A - B)_{ij} = a_{ij} - b_{ij} (A−B)ij=aij−bij
矩阵的数乘
- 定义:矩阵的每个元素乘以一个标量。
( c A ) i j = c ⋅ a i j (cA)_{ij} = c \cdot a_{ij} (cA)ij=c⋅aij
矩阵乘法
- 定义:矩阵
A
∈
R
m
×
n
A \in \mathbb{R}^{m \times n}
A∈Rm×n 与矩阵
B
∈
R
n
×
p
B \in \mathbb{R}^{n \times p}
B∈Rn×p 的乘积
A
B
AB
AB 为矩阵
C
∈
R
m
×
p
C \in \mathbb{R}^{m \times p}
C∈Rm×p,其中:
c i j = ∑ k = 1 n a i k b k j c_{ij} = \sum_{k=1}^n a_{ik} b_{kj} cij=k=1∑naikbkj - 性质:
- 结合律: ( A B ) C = A ( B C ) (AB)C = A(BC) (AB)C=A(BC)
- 分配律: A ( B + C ) = A B + A C A(B + C) = AB + AC A(B+C)=AB+AC
- 不满足交换律:通常 A B ≠ B A AB \neq BA AB=BA
特殊乘法
- Hadamard积(元素乘积):
( A ∘ B ) i j = a i j b i j (A \circ B)_{ij} = a_{ij} b_{ij} (A∘B)ij=aijbij - Kronecker积:
已在克罗内克积章节中说明。
矩阵的秩、迹与特征值的关系
矩阵的秩与迹
- 秩:矩阵秩等于其列空间或行空间的维数。
- 迹:矩阵的迹等于其特征值的和。
矩阵的秩与特征值
- 关系:
rank ( A ) = number of non-zero singular values = number of non-zero eigenvalues of A T A \text{rank}(A) = \text{number of non-zero singular values} = \text{number of non-zero eigenvalues of } A^T A rank(A)=number of non-zero singular values=number of non-zero eigenvalues of ATA
应用
- 矩阵分解:秩和迹在矩阵分解中提供重要信息。
- 系统分析:在控制理论和系统工程中,用于评估系统的可控性和可观性。
条件数
条件数的定义
矩阵 A A A 的条件数,记作 κ ( A ) \kappa(A) κ(A),是矩阵范数与其逆矩阵范数的乘积:
κ ( A ) = ∥ A ∥ ⋅ ∥ A − 1 ∥ \kappa(A) = \|A\| \cdot \|A^{-1}\| κ(A)=∥A∥⋅∥A−1∥
当 A A A 可逆时,该值定义;否则,条件数为无穷大。
条件数的意义
- 数值稳定性:条件数衡量了矩阵的可逆性,条件数越大,矩阵越接近奇异,求解线性方程组的数值解越不稳定。
- 误差放大:线性方程组 A x = b A\boldsymbol{x} = \boldsymbol{b} Ax=b 的解对输入数据 b \boldsymbol{b} b 的相对变化的放大程度至少由条件数 κ ( A ) \kappa(A) κ(A) 决定。
条件数的计算
- 使用谱范数时:
κ 2 ( A ) = σ max ( A ) σ min ( A ) \kappa_2(A) = \frac{\sigma_{\max}(A)}{\sigma_{\min}(A)} κ2(A)=σmin(A)σmax(A)
其中, σ max ( A ) \sigma_{\max}(A) σmax(A) 和 σ min ( A ) \sigma_{\min}(A) σmin(A) 分别是矩阵 A A A 的最大和最小奇异值。
应用
- 数值分析:用于评估算法的数值稳定性。
- 优化:高条件数可能导致优化算法收敛缓慢。
- 工程:在传感器数据处理中,高条件数可能导致不准确的测量结果。
Power 方法
Power 方法的定义
Power 方法是一种迭代算法,用于计算矩阵 A A A 的最大绝对值特征值及其对应的特征向量。
算法步骤
- 选择一个初始非零向量 x ( 0 ) \boldsymbol{x}^{(0)} x(0)。
- 对于
k
=
0
,
1
,
2
,
…
k = 0, 1, 2, \dotsc
k=0,1,2,…,执行以下步骤:
y ( k + 1 ) = A x ( k ) \boldsymbol{y}^{(k+1)} = A \boldsymbol{x}^{(k)} y(k+1)=Ax(k)
x ( k + 1 ) = y ( k + 1 ) ∥ y ( k + 1 ) ∥ \boldsymbol{x}^{(k+1)} = \frac{\boldsymbol{y}^{(k+1)}}{\|\boldsymbol{y}^{(k+1)}\|} x(k+1)=∥y(k+1)∥y(k+1) - 当 ∥ x ( k + 1 ) − x ( k ) ∥ \|\boldsymbol{x}^{(k+1)} - \boldsymbol{x}^{(k)}\| ∥x(k+1)−x(k)∥ 足够小时,停止迭代。
收敛性
- 当矩阵 A A A 的最大特征值具有唯一的绝对值时,Power 方法收敛于该特征值及其对应的特征向量。
应用
- 特征值计算:用于求解大型稀疏矩阵的主特征值。
- 图论:PageRank 算法的基础。
- 数据分析:主成分分析的初步步骤。
Rayleigh 商
Rayleigh 商的定义
对于矩阵 A A A 和非零向量 x \boldsymbol{x} x,Rayleigh 商定义为:
R ( A , x ) = x T A x x T x R(A, \boldsymbol{x}) = \frac{\boldsymbol{x}^T A \boldsymbol{x}}{\boldsymbol{x}^T \boldsymbol{x}} R(A,x)=xTxxTAx
性质
- 特征值的极值:Rayleigh 商在向量 x \boldsymbol{x} x 为特征向量时,取到对应的特征值。
- 界限性质:矩阵的最小特征值和最大特征值分别是 Rayleigh 商在所有非零向量中的最小值和最大值。
应用
- 特征值优化:用于计算矩阵的最大和最小特征值。
- 数值算法:Rayleigh 商迭代法用于提高特征值计算的精度。
- 稳定性分析:评估矩阵在特定向量方向上的行为。
条件数与矩阵稳定性
条件数与解的稳定性
矩阵 A A A 的条件数 κ ( A ) \kappa(A) κ(A) 直接影响线性方程组 A x = b A\boldsymbol{x} = \boldsymbol{b} Ax=b 解的稳定性。具体来说:
∥ Δ x ∥ ∥ x ∥ ≤ κ ( A ) ⋅ ∥ Δ b ∥ ∥ b ∥ \frac{\|\Delta \boldsymbol{x}\|}{\|\boldsymbol{x}\|} \leq \kappa(A) \cdot \frac{\|\Delta \boldsymbol{b}\|}{\|\boldsymbol{b}\|} ∥x∥∥Δx∥≤κ(A)⋅∥b∥∥Δb∥
其中, Δ x \Delta \boldsymbol{x} Δx 和 Δ b \Delta \boldsymbol{b} Δb 分别是解和右端向量的扰动。
数值线性代数中的条件数
- 误差分析:在数值计算中,条件数用于预测解的误差上界。
- 算法选择:高条件数矩阵需要使用数值更稳定的算法,如带主元的高斯消元法。
应用示例
- 工程计算:在结构分析中,条件数用于评估模型的敏感性。
- 数据拟合:在回归分析中,条件数用于检测模型参数的多重共线性。