梯度下降法 Gradient Descent Method
本章中我们开始利用梯度信息解决最优化问题。基本的梯度下降法采用迭代法,基于“梯度方向是函数上升最快的方向”,每一轮迭代向梯度的反方向走一步,即
其中 称为步长 stepsize,用于约束每一步走的长度。
Vanilla Analysis
为了方便进行收敛性分析,我们假定目标函数 是凸的,处处可导的,且有全局最优解 。
在实际计算时,我们往往难以找到精确解,因此对于优化目标
我们往往目标会改为找到接近最优解的一个解即可,即
一个自然的问题是,我们如何约束 ?