SGD

2025-07-12 约 68 字预计阅读 1 分钟次阅读

作为机器学习的初学者必然会接触梯度下降算法以及 SGD，基本上形式如下：

\[ \theta_t = \theta_{t-1} - \alpha \;g(\theta) \] 其中 \(\alpha\) 为学习率，\(g(\theta)\) 为梯度。