AdaGrad vllbc 收录于 Categories 优化器 2025-07-12 约 59 字 预计阅读 1 分钟 次阅读 AdaGrad 直接暴力累加平方梯度,这种做法的缺点就是累加的和会持续增长,会导致学习率变小最终变得无穷小,最后将无法获得额外信息。 Please enable JavaScript to view the comments powered by Valine.