优化器

SGD with Momentum

$p, g, v$ and $\mu$ denote the parameters, gradient, velocity, and momentum respectively.

  • Nesterov version [pytorch]

vt+1=uvt+gt+1v_{t+1}=u * v_{t}+g_{t+1} pt+1=ptlrvt+1p_{t+1}=p_{t}-lr * v_{t+1}

  • Sutskever version [others]

vt+1=uvt+lrgt+1v_{t+1}=u * v_{t}+lr*g_{t+1} pt+1=ptvt+1p_{t+1}=p_{t}-v_{t+1}

AdaGrad (Adaptive Gradient)

Adagrad 是一种自适应优化方法,是自适应的为各个参数分配不同的学习率。这个学习率的变化,会受到梯度的大小和迭代次数的 影响。梯度越大,学习率越小;梯度越小,学习率越大。缺点是训练后期,学习率过小,因为Adagrad累加之前所有的梯度平方作为分母。

RMSProp (root mean square prop)

RMSProp 使用指数衰减平均以丢弃遥远过去的历史,使其能够在找到凸碗状结构后快速收敛,它就像一个初始化于该碗状结构的AdaGrad算法实例。 RMSprop是对Adagrad的一种改进,采用均方根作为分母,可缓解Adagrad学习率下降较快的问题。

Adam (Adaptive Moment Estimation)

Adam 是一种自适应学习率的优化方法,Adam 利用梯度的一阶矩()估计和二阶矩()估计动态的调整学习率,结合了 Momentum 和 RMSprop,并进行了偏差修正。

Last updated

Was this helpful?