Bootstrap

凸优化笔记-基本概念

原文


m i n i m i z e     f 0 ( x ) minimize\ \ \ f_0(x) minimize   f0(x)
s u b j e c t   t o     f i ( x ) ≤ b i , i = 1 , . . . , m subject\ to\ \ \ f_i(x)\le b_i, i = 1,...,m subject to   fi(x)bi,i=1,...,m

凸优化问题
f i ( α x + β y ) ≤ α f i ( x ) + β f i ( y ) ,   x , y ∈ R n , α + β = 1 , α ≥ 0 , β ≥ 0 f_i(\alpha x+\beta y) \le \alpha f_i(x)+\beta f_i(y), \ x,y\in R^n, \alpha +\beta = 1,\alpha \ge 0,\beta\ge 0 fi(αx+βy)αfi(x)+βfi(y), x,yRn,α+β=1,α0,β0
所有的函数都是凸函数时这个规划问题成为凸优化问题。

最小二乘问题

无约束条件下
m i n i m i z e ∣ ∣ A x − b ∣ ∣ 2 2 minimize ||Ax-b||_2^2 minimize∣∣Axb22
A T A x = A T b A^TAx = A^Tb ATAx=ATb
x = ( A T A ) − 1 A T b x = (A^TA)^{-1}A^Tb x=(ATA)1ATb
A ∈ R k × n , k ≥ n A\in R^{k\times n},k\ge n ARk×n,kn
此处可以猜想一下,举例如k个点拟合一条直线。k个方程求解n个自变量。
带权的最小二乘
Σ w i ( a i T x − b ) \Sigma w_i(a_i^Tx-b) Σwi(aiTxb)

regularization
Σ i = 1 k ( a i T x − b i ) 2 + ρ Σ i = 1 n x i 2 \Sigma_{i=1}^k(a_i^Tx-b_i)^2 + \rho \Sigma_{i=1}^n x_i^2 Σi=1k(aiTxbi)2+ρΣi=1nxi2

线性规划
切比雪夫近似问题
m i n i m i z e   m a x i = 1... k   ∣ a i T x − b i ∣ minimize\ max_{i=1...k}\ |a_i^Tx-b_i| minimize maxi=1...k aiTxbi
与最小二乘不同,不使用平方而是使用极大值——一阶矩?1范数
不可微
转化为
m i n i m i z e   t minimize\ t minimize t
s u b j e c t   t o   a i T x − t ≤ b i , − a i T x − t ≤ − b i subject\ to\ a_i^Tx-t\le b_i,-a_i^Tx-t\le-b_i subject to aiTxtbi,aiTxtbi
内点法?

仿射

仿射集合:一个集合 C 在一个向量空间中被称为仿射集合,如果对于集合 CC 中的任意两个点 x 和 y,以及任意实数 α,其中 0≤α≤1,集合 CC 都包含点 (1−α)x+αy。

线性方程组的解集是一个仿射集合

A x = b Ax=b Ax=b的解 x 1 ≠ x 2 x_1\not=x_2 x1=x2
A x 1 = b , A x 2 = b Ax_1=b,Ax_2=b Ax1=b,Ax2=b
A ( α x 1 + β x 2 ) = A ( α x 1 ) + A ( β x 2 ) = ( α + β ) b = b A(\alpha x_1 +\beta x_2) =A(\alpha x_1)+A(\beta x_2)= (\alpha+\beta)b = b A(αx1+βx2)=A(αx1)+A(βx2)=(α+β)b=b

affine hull

The set of all affine combinations of points in some set C ⊆ Rn is called the affine hull of C, and denoted aff C

在欧几里得空间 Rn 中,一个集合 C 的仿射包(affine hull)是指所有包含在集合 C 中的点的仿射组合的集合。换句话说,它是通过 C中任意有限个点 x1,x2,…,xk的所有可能的线性组合的集合。
仿射包的理解?

aff   C = { θ 1 x 1 + . . . + θ n x n ∣ x k ∈ C , Σ θ i = 1 } \textbf{aff}\ C = \{\theta_1x_1+...+\theta_nx_n |x_k\in C,\Sigma\theta_i=1 \} aff C={θ1x1+...+θnxnxkC,Σθi=1}

affine dimension

集合C的仿射维度定义为他的仿射包(?)
例:对单位圆上的点
{ x ∈ R 2 ∣ x 1 2 + x 2 2 = 1 } \{x\in R^2|x_1^2+x_2^2 = 1 \} {xR2x12+x22=1}
其仿射包是 R 2 R^2 R2(单位圆上的点通过线性组合可以产生)

相对内部(relative interior)
r e l i n t   C = { x ∈ C ∣ B ( x , r ) ∩ aff C ⊆ C   f o r   s o m e   r > 0 } relint\ C = \{x\in C|B(x,r)\cap\textbf{aff}C\subseteq C\ for\ some\ r > 0\} relint C={xCB(x,r)affCC for some r>0}
就是这些点的邻域与aff C的交集仍然在C中。
c l   C   r e l i n t   C cl\ C \\ \ relint\ C cl C relint C 为边界

三维空间中的正方形
C = { x ∈ R 3 ∣ ∣ x 1 ∣ ≤ 1 , ∣ x 2 ∣ ≤ 2 , x 3 = 0 } C = \{x\in R^3||x_1|\le1,|x_2|\le2,x_3 = 0\} C={xR3∣∣x11,x22,x3=0}
其仿射包是什么呢?是由平面上的点组成的所有线性组合,那么自然是整个平面。那么dimension应该是2

凸集

x 1 ∈ C , x 2 ∈ C , 0 ≤ θ ≤ 1 , θ x 1 + ( 1 − θ ) x 2 ∈ C x_1\in C,x_2\in C,0\le\theta\le1,\theta x_1+(1-\theta)x_2\in C x1C,x2C,0θ1,θx1+(1θ)x2C
则为凸集
仿射集都是凸集

凸组合:
θ 1 x 1 + θ 2 x 2 + . . . + θ n x n , θ i ≥ 0 \theta_1 x_1+\theta_2x_2+...+\theta_nx_n,\theta_i\ge0 θ1x1+θ2x2+...+θnxn,θi0

凸包:
conv C = { θ 1 x 1 + . . . + θ k x k ∣ x i ∈ C , θ i ≥ 0 , i = 1 , . . . , k , θ 1 + . . . + θ k = 1 } \textbf{conv} C = \{\theta_1x_1+...+\theta_kx_k|x_i\in C,\theta_i\ge 0,i=1,...,k,\theta_1+...+\theta_k = 1\} convC={θ1x1+...+θkxkxiC,θi0,i=1,...,k,θ1+...+θk=1}
设 CC 是一个集合,那么 CC 的凸包 conv©conv© 是包含 CC 中所有点的最小凸集合。换句话说,conv©conv© 是包含 CC 的所有点的最小凸集合,且没有其他凸集合包含 CC 中的所有点。

线性组合、仿射组合与凸组合
对比一下,都是
θ 1 x 1 + . . . + θ k x k \theta_1x_1+...+\theta_kx_k θ1x1+...+θkxk
但是线性组合对 θ i \theta_i θi无要求,仿射要求 Σ θ i = 1 \Sigma\theta_i=1 Σθi=1,凸组合要求 Σ θ i = 1 \Sigma\theta_i=1 Σθi=1,且 θ i ≥ 0 \theta_i\ge 0 θi0
条件越来越强。
![./凸优化问题/凸优化笔记-基本概念/请添加图片描述

锥集

对任意 x ∈ C x\in C xC,都有 θ x ∈ C \theta x\in C θxC
锥的顶点在原点。
凸锥====== 又凸又锥(比如一个立在原点的在最粗的地方切开的洋葱头?)

θ 1 x 1 + . . . + θ k x k , θ i ≥ 0 \theta_1x_1+...+\theta_kx_k,\theta_i\ge 0 θ1x1+...+θkxk,θi0
conic combination
锥组合
锥包
{ θ 1 x 1 + . . . + θ k x k ∣ x i ∈ C , θ i ≥ 0 , i = 1 , . . . , k } \{\theta_1x_1+...+\theta_kx_k|x_i\in C,\theta_i\ge 0,i=1,...,k\} {θ1x1+...+θkxkxiC,θi0,i=1,...,k}
C的锥包是能包含C的最小的锥集

![./凸优化问题/凸优化笔记-基本概念/请添加图片描述

超平面和半空间

超平面
a T x = b a^Tx = b aTx=b
半空间
{ x ∣ a T x ≥ b } \{x|a^Tx\ge b\} {xaTxb}

椭球
ϵ = { x ∣ ( x − x c ) T P − 1 ( x − x c ) ≤ 1 } \epsilon = \{x|(x-x_c)^TP^{-1}(x-x_c)\le 1\} ϵ={x(xxc)TP1(xxc)1}
P是对称且正定的,对称轴的长度由特征值的根号给出 λ i \sqrt{\lambda_i} λi

多面体
P = { x ∣ A x ≼ b , C x = d } P=\{x|Ax≼ b,Cx = d\} P={xAxb,Cx=d}
A = [ a 1 T . . . a m T ] , C = [ c 1 T . . . c p T ] A = \begin{bmatrix}a_1^T\\.\\.\\.\\a_m^T\end{bmatrix},C = \begin{bmatrix}c_1^T\\.\\.\\.\\c_p^T\end{bmatrix} A= a1T...amT ,C= c1T...cpT

单纯形

n维单纯形有n+1个顶点,如1维线段,2维三角形,三维四面体

单位单纯形 x ⪰ 0 , 1 T x ≤ 1 x\succeq0,\textbf 1^Tx\le1 x0,1Tx1 , n维度
概率单纯形 x ⪰ 0 , 1 T x = 1 x\succeq 0,\textbf 1^Tx=1 x0,1Tx=1, n-1维度

整半定锥

对称矩阵集合 S n = { X ∈ R n × n ∣ X = X T } S^n=\{X\in R^{n\times n}|X=X^T\} Sn={XRn×nX=XT}
其维度为 ( n + 1 ) n / 2 (n+1)n/2 (n+1)n/2,可以想想有多少个独立的元素。

非负
S + n = { X ∈ R n × n ∣ X = X T , X ⪰ 0 } S^n_+=\{X\in R^{n\times n}|X=X^T,X\succeq0\} S+n={XRn×nX=XT,X0}

S + n + = { X ∈ R n × n ∣ X = X T , X ≻ 0 } S^n_++=\{X\in R^{n\times n}|X=X^T,X\succ 0\} S+n+={XRn×nX=XT,X0}
convex set:都是
convex cone: S + n + S^n_++ S+n+不是,因为没有0

保凸性的操作

仿射变换、凸集的交集、求和、笛卡尔内积

设有线性矩阵不等式(LMI)
A ( x ) = x 1 A 1 + . . . + x n A n ⪯ B A(x)=x_1A_1+...+x_nA_n\preceq B A(x)=x1A1+...+xnAnB
其解集是convex的
仿射变换呢?

透视函数

降低维度 P : R n + 1 → R n P:R^{n+1}\to R^n P:Rn+1Rn
可以等效为一个小孔成像摄像机

接受平面位置在 x 3 = − 1 x_3 = -1 x3=1
小孔在原点,被测物 x 1 , x 2 , x 3 x_1,x_2,x_3 x1,x2,x3
则相点为 − ( x 1 / x 3 , x 2 / x 3 , 1 ) -(x_1/x_3,x_2/x_3,1) (x1/x3,x2/x3,1)
d o m P = R n × R + + dom P = R^n\times R_{++} domP=Rn×R++
P ( z , t ) = z / t P(z,t)=z/t P(z,t)=z/t
如果domP中的C是凸点,他的像
P ( C ) = { P ( x ) ∣ x ∈ C } P(C)=\{P(x)|x\in C\} P(C)={P(x)xC}
也是凸的

凸函数的条件

1阶判定条件

若f可微,当且仅当dom f凸,而且
f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) f(y)\ge f(x)+\nabla f(x)^T(y-x) f(y)f(x)+f(x)T(yx)
![./凸优化问题/凸优化笔记-基本概念/请添加图片描述

其几何意义为函数上的点永远比某一条切线上的点高(或重合)
(该形式为泰勒一阶展开)

2阶判定条件

∇ f ⪰ 0 \nabla f \succeq 0 f0

  • R n R^n Rn上的范数都是凸的(由范数的三角不等式得到)
    ∣ ∣ u 1 ∣ ∣ + ∣ ∣ u 2 ∣ ∣ ≥ ∣ ∣ u 1 + u 2 ∣ ∣ ||u_1||+||u_2|| \ge ||u_1+u_2|| ∣∣u1∣∣+∣∣u2∣∣∣∣u1+u2∣∣
  • 最大值函数是凸的
    m a x ( x ) + m a x ( y ) > m a x ( x + y ) max(x) + max(y) >max(x+y) max(x)+max(y)>max(x+y)
  • 二次overlinear函数
    f ( x , y ) = x 2 / y , y > 0        ∇ 2 f = [ 2 / y − 2 x / y 2 − 2 x / y 2 2 x 2 / y 3 ] , d e t ( ∇ 2 f ) = 2 y 3 ∣ y 2 − x y − x y 2 x 2 ∣ = 2 y 2 ∗ ( 2 x 2 y 2 − x 2 y 2 ) > 0 f(x,y) = x^2/y,y>0\ \ \ \ \ \ \nabla^2 f = \begin{bmatrix}2/y & -2x/y^2 \\-2x/y^2 & 2x^2/y^3\end{bmatrix}, det(\nabla^2 f) = \frac{2}{y^3}\begin{vmatrix}y^2&-xy\\-xy&2x^2\end{vmatrix}=\frac{2}{y^2}*(2x^2y^2-x^2y^2)>0 f(x,y)=x2/y,y>0      2f=[2/y2x/y22x/y22x2/y3],det(2f)=y32 y2xyxy2x2 =y22(2x2y2x2y2)>0
  • 对数求和指数
    f ( x ) = log ⁡ ( e x p ( x 1 ) + e x p ( x 2 ) + . . . + e x p ( x n ) ) f(x) = \log(exp(x_1)+exp(x_2)+...+exp(x_n)) f(x)=log(exp(x1)+exp(x2)+...+exp(xn))
    ∂ f ∂ x i = exp ⁡ ( x i ) Σ j = 0 j = n exp ⁡ ( x j ) \frac{\partial f}{\partial x_i} = \frac{\exp(x_i)}{\Sigma_{j =0} ^{j=n} \exp(x_j)} xif=Σj=0j=nexp(xj)exp(xi)
    z = ( e x p ( x 1 ) , e x p ( x 2 ) , . . . , e x p ( x n ) ) ,   Σ j = 0 j = n exp ⁡ ( x j ) = 1 T z z = (exp(x_1),exp(x_2),...,exp(x_n)),\ \Sigma_{j =0} ^{j=n} \exp(x_j)= \textbf{1}^Tz z=(exp(x1),exp(x2),...,exp(xn)), Σj=0j=nexp(xj)=1Tz
    求Hessian矩阵
    ∂ 2 f ∂ x i ∂ x j = − exp ⁡ ( x i ) exp ⁡ ( x j ) ( 1 T z ) 2 , i ≠ j \frac{\partial^2f}{\partial x_i\partial x_j}=-\frac{\exp(x_i)\exp(x_j)}{(\textbf{1}^Tz)^2},i\not = j xixj2f=(1Tz)2exp(xi)exp(xj),i=j
    ∂ 2 f ∂ x i 2 = exp ⁡ ( x i ) 1 T z − exp ⁡ ( x i ) 2 ( 1 T z ) 2 \frac{\partial^2 f}{\partial x_i^2} = \frac{\exp(x_i)}{\textbf{1}^Tz} - \frac{\exp(x_i)^2}{(\textbf{1}^Tz)^2} xi22f=1Tzexp(xi)(1Tz)2exp(xi)2
    i=j时二阶导导前半部分可以组成一个对角阵列,后半部分和不等时的形式相同
    ∇ 2 f = 1 ( 1 T z ) 2 ( ( 1 T z ) d i a g ( z ) − z z T ) \nabla^2f=\frac{1}{(\textbf{1}^Tz)^2 } ((\textbf{1}^Tz )diag(z)-zz^T) 2f=(1Tz)21((1Tz)diag(z)zzT)
    对任意v,有
    v T ∇ 2 f   v = 1 ( 1 T z ) 2 ( Σ j = 0 j = n z j Σ j = 0 j = n v j 2 z j − v T z z T v ) = 1 ( 1 T z ) 2 ( Σ j = 0 j = n z j Σ j = 0 j = n v j 2 z j − ( Σ j = 0 j = n z j v j ) 2 ) v^T\nabla^2f\ v=\frac{1}{(\textbf{1}^Tz)^2 } (\Sigma_{j =0} ^{j=n} z_j \Sigma_{j =0} ^{j=n} v_j^2z_j-v^Tzz^Tv)= \frac{1}{(\textbf{1}^Tz)^2 } (\Sigma_{j =0} ^{j=n} z_j \Sigma_{j =0} ^{j=n} v_j^2z_j-(\Sigma_{j =0} ^{j=n}z_jv_j)^2) vT2f v=(1Tz)21(Σj=0j=nzjΣj=0j=nvj2zjvTzzTv)=(1Tz)21(Σj=0j=nzjΣj=0j=nvj2zj(Σj=0j=nzjvj)2)
    此处使用Cauchy-Schwarz不等式, a i = v i z i , b i = z i , ( a T a ) ( b T b ) ≥ ( a T b ) 2 a_i = v_i\sqrt{z_i},b_i = \sqrt{z_i},(a^Ta) (b^Tb)\ge (a^Tb)^2 ai=vizi ,bi=zi ,(aTa)(bTb)(aTb)2,可得上式不小于0。

Epigraph 外图

函数f的graph定义为
{ ( x , f ( x ) ) ∣ x ∈ dom   f } \{(x,f(x))|x\in \textbf{dom}\ f\} {(x,f(x))xdom f}
R n + 1 \textbf{R}^{n+1} Rn+1的子集
其epigraph为
epi   f = { ( x , t ) ∣ x ∈ dom   f , f ≤ t } \textbf{epi}\ f=\{ (x,t) | x\in \textbf{dom} \ f,f\le t\} epi f={(x,t)xdom f,ft}
(‘Epi’ means ‘above’ so epigraph means ‘above the graph’.)
亚图为
hypo f = { ( x , t ) ∣ x ∈ dom   f , f ≥ t } \textbf{hypo}f = \{ (x,t) | x\in \textbf{dom} \ f,f\ge t \} hypof={(x,t)xdom f,ft}

请添加图片描述

这个图能建立凸集和凸函数的关系。当且仅当外图(epi f)是凸的时候函数是凸的。
当且仅当亚图(hypo f)是凸的时候函数是凹的

  • 矩阵分式函数
    f ( x , Y ) = x T Y − 1 x ,     dom   f = R n × S + + n f(x,Y) = x^TY^{-1}x,\ \ \ \textbf{dom} \ f=\textbf{R}^n\times\textbf{S}^n_{++} f(x,Y)=xTY1x,   dom f=Rn×S++n

epi f = { ( x , Y , t ) ∣ Y ≻ 0 , f ( x , Y ) ≤ t } \textbf{epi} f =\{(x,Y,t)|Y\succ0, f(x,Y)\le t \} epif={(x,Y,t)Y0,f(x,Y)t}
x T Y − 1 x ≤ t x^TY^{-1}x\le t xTY1xt
此处需要用到舒尔补(Schur complement)
M = [ A B C D ] M = \begin{bmatrix}A&B\\C&D\end{bmatrix} M=[ACBD]
如果A可逆,则其舒尔补为 D − C A − 1 B D-CA^{-1}B DCA1B
代入有
M = [ Y x x T t ] ⪰ 0 M = \begin{bmatrix}Y&x\\x^T&t\end{bmatrix}\succeq 0 M=[YxTxt]0

;