论文题目
免验证的对于复制鲁棒性的基于量的数据估值
1. 本文具体贡献
- 通过数据的体积形式化了数据多样性的度量,并在理论上和实证上证明了体积对数据估值的适用性;
- 形式化了复制鲁棒性的概念,并设计了一种基于稳健体积(RV)度量的数据估值方法,并在理论上保证了复制鲁棒性
- 与基线方法进行了广泛的实证比较,以证明我们的方法在无需验证的情况下具有一致的估值结果,具有复制鲁棒性,并且可以灵活地适应处理诸如各种神经网络等复杂的机器学习模型
2. 问题设置和符号(想要看懂的话认真看)
考虑两个带估值的数据子矩阵
X
S
X_S
XS和
X
S
′
X_{S'}
XS′,分别包含了
s
s
s和
s
′
s'
s′行的d维输入特征向量。
设
P
S
:
=
[
X
S
T
0
]
T
∈
R
n
×
d
P_S :=[X^T_S 0]^T \in \mathbb R^{n \times d}
PS:=[XST0]T∈Rn×d是
X
S
∈
R
n
×
d
X_S \in \mathbb R^{n \times d}
XS∈Rn×d的零填充版本。
我们沿着行将数据子矩阵连接起来形成完整的数据矩阵
X
S
∈
R
n
×
d
,
i
.
e
.
,
X
:
=
[
X
S
T
X
S
′
T
]
T
X_S \in \mathbb R^{n \times d},i.e.,X := [X^T_S X^T_{S'}]^T
XS∈Rn×d,i.e.,X:=[XSTXS′T]T并且
n
=
s
+
s
′
n=s+s'
n=s+s′(别担心,这里的T是转置矩阵,用两个T是为了验证行进行拼接)
我们将对应的标签表示为:
y
:
=
[
y
S
T
y
S
′
T
]
∈
R
n
×
1
y:=[y^T_Sy^T_{S'}]\in \mathbb R^{n\times 1}
y:=[ySTyS′T]∈Rn×1
OLS的最小二乘解为:
w
:
=
X
+
y
=
a
r
g
m
i
n
β
∣
∣
y
−
X
β
∣
∣
2
w:=X^{+}y=argmin_\beta||y-X\beta||^2
w:=X+y=argminβ∣∣y−Xβ∣∣2
X
+
:
=
(
X
T
X
)
−
1
X
T
X^{+}:=(X^TX)^{-1}X^T
X+:=(XTX)−1XT是
X
X
X的伪逆
相似的,我们用
X
S
+
X^+_S
XS+作为
X
S
X_S
XS的伪逆,
w
S
:
=
X
S
+
y
S
w_S:=X^{+}_Sy_S
wS:=XS+yS
同时为了简化公式:令
V
:
=
V
o
l
(
X
)
V := Vol(X)
V:=Vol(X)和
V
S
:
=
V
o
l
(
X
S
)
V_S := Vol(X_S)
VS:=Vol(XS)
Vol()的定义如下,
∣
A
∣
代表
A
的行列式
|A|代表A的行列式
∣A∣代表A的行列式,X的左Gram矩阵为
G
:
=
X
T
X
∈
R
d
×
d
G:=X^TX\in \mathbb R^{d\times d}
G:=XTX∈Rd×d,所以对于数据子矩阵
X
S
X_S
XS,
G
S
:
=
X
S
T
X
S
∈
R
d
×
d
G_S:=X^T_SX_S\in \mathbb R^{d\times d}
GS:=XSTXS∈Rd×d
Definition 1 (Volume). 对于一个满秩的矩阵
X
∈
R
n
×
d
X \in \mathbb{R}^{n \times d}
X∈Rn×d,其中
n
≥
d
n \geq d
n≥d,定义其体积为
V
o
l
(
X
)
:
=
∣
(
X
>
X
)
∣
=
∣
G
∣
Vol(X) := \sqrt{|(X>X)|} = \sqrt{|G|}
Vol(X):=∣(X>X)∣=∣G∣。我们采用上述对体积的定义有以下几个原因:
(a) 通常,数据的输入特征空间是由数据收集过程中预先确定和固定的。但是,新的数据可以不断涌入,因此
n
n
n 可以无限增长,而
d
d
d 保持不变。
(b) 通过利用体积与学习性能之间的形式联系(第3节),我们可以设计一个无需验证的基于体积的数据估值方法,将更大的价值分配给导致更好学习性能的数据。
© 这为体积和多样性之间提供了直观的解释:向数据集添加一个数据点可以增加多样性/体积,具体取决于数据集中已有的数据点(引理1)。
在实践中,我们进行预处理,比如主成分分析,以减少输入特征空间的维度,以确保这一假设得到满足。这一假设是为了确保没有冗余特征,即可以使用其他特征进行精确重构的特征。例如,如果数据集已经包含了月薪,那么年薪将是冗余的。
概念性讲解
OLS(Ordinary Least Squares,普通最小二乘)
OLS是一种常用的线性回归方法,用于拟合线性模型到数据中。在OLS中,我们试图找到一组系数,使得模型的预测值与实际观测值之间的残差平方和最小化。
对于给定的数据集,假设有一个包含n个样本的数据矩阵X,其中每行表示一个样本,每列表示一个特征。同时,有一个长度为n的目标向量y,表示每个样本的观测值。
OLS的目标是找到一个系数向量w,使得模型的预测值
X
w
X_w
Xw与观测值y之间的残差的平方和最小化。数学上,这可以表示为以下最小化问题:
w
O
L
S
=
a
r
g
w
m
i
n
∣
∣
y
−
X
w
∣
∣
2
2
w_{OLS}=arg_wmin||y-Xw||^2_2
wOLS=argwmin∣∣y−Xw∣∣22
向量的二范数
向量的二范数,也称为欧几里得范数(Euclidean Norm),是指向量中各个元素的平方和再开方得到的结果。对于一个n维向量v,其二范数表示为:
∣
∣
v
∣
∣
2
=
v
1
2
+
v
2
2
+
.
.
.
+
v
n
2
||v||_2=\sqrt{v^2_1+v^2_2+...+v^2_n}
∣∣v∣∣2=v12+v22+...+vn2
伪逆
伪逆(Pseudoinverse)是一种广义逆的概念,在线性代数和矩阵计算中经常用到。伪逆是针对非方阵或奇异矩阵的情况而提出的,因为对于这些矩阵来说,它们没有逆矩阵。
广义逆有几种不同的定义,其中最常见的是 Moore-Penrose 广义逆。给定一个矩阵
A
A
A,它的 Moore-Penrose 广义逆通常表示为
A
+
A^+
A+。广义逆满足以下四个性质:
[
A
A
+
A
=
A
A
+
A
A
+
=
A
+
(
A
A
+
)
T
=
A
A
+
(
A
+
A
)
T
=
A
+
A
]
[ \begin{align*} AA^+A &= A \\ A^+AA^+ &= A^+ \\ (AA^+)^T &= AA^+ \\ (A^+A)^T &= A^+A \end{align*} ]
[AA+AA+AA+(AA+)T(A+A)T=A=A+=AA+=A+A]
3 更大的数据量意味着更好的学习性能
通过普通最小二乘(OLS)框架来正式化这一说法。具体来说,我们将研究两个学习性能的度量指标
(a)由偏差表示的伪逆质量
b
i
a
s
S
:
=
∣
∣
P
S
+
−
X
+
∣
∣
bias_S:=||P^+_S-X^+||
biasS:=∣∣PS+−X+∣∣,因为准确估计
X
+
X^+
X+ 对于达到较小的均方误差(MSE)是重要的,其中
P
S
+
:
=
(
X
S
T
X
S
)
−
1
P
S
T
P^+_S:=(X^T_SX_S)^{-1}P^T_S
PS+:=(XSTXS)−1PST
(b)作为MSE表示的均方误差:
L
(
w
S
)
:
=
∣
∣
y
−
X
w
S
∣
∣
2
L(w_S):=||y-Xw_S||^2
L(wS):=∣∣y−XwS∣∣2
3.1 更大量的数据意味着更小的偏差
命题1(数据量VS偏差对于d=1)。对于 x ∈ R n × 1 x \in \mathbb R^{n\times 1} x∈Rn×1的非零 X S , X S ′ X_S,X_{S'} XS,XS′,有 V S ≥ V S ′ ⟺ b i a s S − b i a s S ′ ≤ 0 V_S\ge V_{S'} \Longleftrightarrow bias_S-bias_{S'} \le 0 VS≥VS′⟺biasS−biasS′≤0
命题2(一般情况下的体积 vs. 偏差)。对于
X
∈
R
n
×
d
X \in \mathbb{R}^{n \times d}
X∈Rn×d 的满秩的
X
S
X_S
XS、
X
S
′
X_{S'}
XS′,有
b
i
a
s
S
2
−
b
i
a
s
S
′
2
=
1
V
S
4
∥
Q
S
X
S
T
∥
2
−
1
V
S
′
4
∥
Q
S
′
X
S
′
T
∥
2
+
2
⟨
1
V
2
Q
X
T
,
1
V
S
′
2
Q
S
′
P
S
′
T
−
1
V
S
2
Q
S
P
S
T
⟩
\begin{align*} &bias^2_S - bias^2_{S'} \\ &= \frac{1}{V^4_S} \left\| Q_S X^T_S \right\|^2 - \frac{1}{V^4_{S'}} \left\| Q_S' X^T_{S'} \right\|^2 \\ &\quad + 2 \left\langle \frac{1}{V^2} QX^T, \frac{1}{V^2_{S'}} Q_{S'} P^T_{S'} - \frac{1}{V^2_S} Q_S P^T_S \right\rangle \end{align*}
biasS2−biasS′2=VS41
QSXST
2−VS′41
QS′XS′T
2+2⟨V21QXT,VS′21QS′PS′T−VS21QSPST⟩
其中
Q
:
=
∑
l
=
1
k
(
λ
l
σ
l
)
−
1
∏
j
=
1
,
j
≠
l
k
(
G
−
λ
j
I
)
,
{
λ
l
}
l
=
1
k
表示矩阵
X
的左 Gram 矩阵
G
的
k
个唯一特征值
,
Q
S
,
Q
S
′
相应地定义于
G
S
,
G
S
′
,
P
S
和
P
S
′
分别是
X
S
和
X
S
′
的零填充版本
,
σ
l
:
=
∑
g
=
1
k
(
−
1
)
g
+
1
λ
k
−
g
l
[
∑
H
⊂
{
1
,
.
.
.
,
k
}
∖
{
l
}
,
∣
H
∣
=
g
−
1
(
∏
h
∈
{
1
,
.
.
.
,
k
}
∖
H
λ
h
−
1
)
]
.
\begin{align*} Q &:= \sum_{l=1}^{k}(\lambda_l\sigma_l)^{-1} \prod_{j=1,j \neq l}^{k}(G - \lambda_j I), \\ \{\lambda_l\}_{l=1}^{k} &\text{ 表示矩阵 } X \text{ 的左 Gram 矩阵 } G \text{ 的 } k \text{ 个唯一特征值}, \\ Q_S, Q_S' &\text{ 相应地定义于 } G_S, G_S', \\ P_S \text{ 和 } P_S' &\text{ 分别是 } X_S \text{ 和 } X_S' \text{ 的零填充版本}, \\ \sigma_l &:= \sum_{g=1}^{k}(-1)^{g+1}\lambda_{k-g}^{l} \left[ \sum_{H \subset \{1,...,k\}\setminus \{l\},|H|=g-1} \left( \prod_{h \in \{1,...,k\}\setminus H} \lambda_h^{-1} \right) \right]. \end{align*}
Q{λl}l=1kQS,QS′PS 和 PS′σl:=l=1∑k(λlσl)−1j=1,j=l∏k(G−λjI), 表示矩阵 X 的左 Gram 矩阵 G 的 k 个唯一特征值, 相应地定义于 GS,GS′, 分别是 XS 和 XS′ 的零填充版本,:=g=1∑k(−1)g+1λk−gl
H⊂{1,...,k}∖{l},∣H∣=g−1∑
h∈{1,...,k}∖H∏λh−1
.
本文通过经验验证结论第3节的方法,检验第3.1节最后一段描述的附加假设是否成立,即通过检查
V
S
≥
V
S
′
⟺
b
i
a
s
S
−
b
i
a
s
S
′
≤
0
V_S\ge V_{S'} \Longleftrightarrow bias_S-bias_{S'} \le 0
VS≥VS′⟺biasS−biasS′≤0成立的百分比次数。
实验设置如下:
在500次独立试验中随机且相同地抽样相同大小的XS、XS’,并计算更大的体积导致更好的学习性能的百分比(纵轴)与XS、XS’大小(横轴)的关系。
3.2 更大量的数据意味着均方误差越小
命题3(d = 1 时的体积 vs. 均方误差)。对于
X
∈
R
n
×
1
X \in \mathbb{R}^{n \times 1}
X∈Rn×1 的非零
X
S
X_S
XS、
X
S
′
X_{S'}
XS′,有
V
S
≥
V
S
′
⇔
L
(
w
S
)
−
L
(
w
S
′
)
≤
0
V_S \geq V_{S'} \Leftrightarrow L(w_S) - L(w_{S'}) \leq 0
VS≥VS′⇔L(wS)−L(wS′)≤0。
不幸的是,以上结果不适用于d > 1的情况。