Bootstrap

L-BFGS算法介绍

本文由作者林洋港授权网易云社区发布。


一、 L-BFGS是什么

L-BFGS是解无约束非线性规划问题最常用的方法,具有收敛速度快、内存开销少等优点,在机器学习各类算法中常有它的身影。简单的说,L-BFGS和梯度下降、SGD干的同样的事情,但大多数情况下收敛速度更快,这点在大规模计算中很重要。下图是深度学习Autoencoder模型不同优化方法的比较。

9a3f1e3d-1a25-4d2e-bfda-4d47d51d6623

二、 L-BFGS“之前”的那些方法


这里的“之前”并不是说L-BFGS问世之前就已经存在的方法,而是指为了更好的理解L-BFGS需要了解的其他方法。无约束问题定义:

b969f667-a1f1-4dcc-96e3-6109fe5e7ead

我们先从泰勒展开开始,这可以说是本文介绍的所有方法的基础。f在b3a89ad5-2177-4c7d-9d42-1fcf0e1ec48b的一阶泰勒展开为

2266b6c1-1d53-436d-a5d1-3efdc6c3258b

二阶泰勒展开为

2e918e73-6183-479e-ae01-331a8b37d063

去掉最后的余项,得到

aa668410-b74d-45dc-b5ee-13a960e1f1f2

d7e23b5e-5e9e-4c44-824b-fa5d87706e3f

2.1 最速下降法(Gradient descent)


CD算法的一个前提条件就是f在b3a89ad5-2177-4c7d-9d42-1fcf0e1ec48b连续可微,并且在b3a89ad5-2177-4c7d-9d42-1fcf0e1ec48b处的导数不为0。由公式1可知当第二项<0时f的值将下降。由Cauchy-Schwartz不等式可得

e40640ad-6a3f-4351-8186-1eb94e63bc4e为最速下降方向。因此迭代公式为

;