优化器

SGD with Momentum

$p, g, v$ and $\mu$ denote the parameters, gradient, velocity, and momentum respectively.

$v_{t+1}=u * v_{t}+g_{t+1}$ $p_{t+1}=p_{t}-lr * v_{t+1}$

$v_{t+1}=u * v_{t}+lr*g_{t+1}$ $p_{t+1}=p_{t}-v_{t+1}$

Adagrad 是一种自适应优化方法，是自适应的为各个参数分配不同的学习率。这个学习率的变化，会受到梯度的大小和迭代次数的影响。梯度越大，学习率越小;梯度越小，学习率越大。缺点是训练后期，学习率过小，因为Adagrad累加之前所有的梯度平方作为分母。

RMSProp 使用指数衰减平均以丢弃遥远过去的历史，使其能够在找到凸碗状结构后快速收敛，它就像一个初始化于该碗状结构的AdaGrad算法实例。 RMSprop是对Adagrad的一种改进，采用均方根作为分母，可缓解Adagrad学习率下降较快的问题。

Adam 是一种自适应学习率的优化方法，Adam 利用梯度的一阶矩()估计和二阶矩()估计动态的调整学习率，结合了 Momentum 和 RMSprop，并进行了偏差修正。

Last updated 3 years ago

Was this helpful?