SGD vllbc 收录于 优化器 2025-07-12 约 68 字 预计阅读 1 分钟 次阅读 作为机器学习的初学者必然会接触梯度下降算法以及 SGD,基本上形式如下: \[ \theta_t = \theta_{t-1} - \alpha \;g(\theta) \] 其中 \(\alpha\) 为学习率,\(g(\theta)\) 为梯度。 Please enable JavaScript to view the comments powered by Valine.