RMSProp vllbc 收录于 Categories 优化器 2025-07-12 约 107 字 预计阅读 1 分钟 次阅读 RMSProp 和 Adagrad 算法的最大区别就是在于更新累积梯度值 r 的时候 RMSProp 考虑加入了一个权重系数 ρ 。 它使用了一个梯度平方的滑动平均。其主要思路就是考虑历史的梯度,对于离得近的梯度重点考虑,而距离比较远的梯度则逐渐忽略。注意图中的是内积。 Please enable JavaScript to view the comments powered by Valine.