Group Sequence Policy Optimization
这篇论文的核心贡献是提出了一种名为 组序列策略优化 (Group Sequence Policy Optimization, GSPO) 的新型强化学习(RL)算法,旨在解决在训练大型语言模型(特别是混合专家模型, Mixture-of-Experts, MoE)时普遍存在的训练不稳定甚至模型崩溃的痛点。这不仅仅是一次微小的算法改进,而是一次对现有主流RL优化范式的根本性反思与重构,其核心思想是 “将优化的基本单元与奖励的基本单元对齐”。
在深入理解GSPO之前,我们需要了解它试图取代的先前方法,尤其是组相对策略优化 (Group Relative Policy Optimization, GRPO)。传统的RL算法,如经典的近端策略优化 (PPO),在应用于大模型时,通常需要一个独立的、与模型本身差不多大的“价值模型”(Value Model)来评估每个决策(即每个token)的好坏,这带来了巨大的计算和内存开销。为了解决这个问题,GRPO被提出,它巧妙地通过在同一查询(query)生成的多个回答(response)之间进行“相对比较”,从而绕开了价值模型。具体来说,它会比较一个回答的奖励(reward)与同组其他回答的平均奖励,从而计算出优势(advantage),并用这个优势来指导模型更新。
然而,Qwen团队发现,GRPO虽然思路巧妙,却存在一个致命的“设计缺陷”。正如论文在第3节“动机”中所述,GRPO的根基——重要性采样(importance sampling)被“误用”了。重要性采样是一种统计学技巧,目的是用一个分布(行为分布)的采样来估计另一个分布(目标分布)下的期望值。它的有效性依赖于对大量样本的平均。但GRPO却在词元级别 (token-level) 上应用了它。
In contrast, GRPO applies the importance weight … at each token position t. Since this weight is based on a single sample yi,t from each next-token distribution … it fails to perform the intended distribution-correction role. Instead, it introduces high-variance noise into the training gradients, which accumulates over long sequences and is exacerbated by the clipping mechanism.
换句话说,对于一个长序列中的每一个词元,GRPO都计算一个“重要性权重”,试图校正新旧策略的差异。但因为每个词元的生成只是“一次采样”,这种校正不仅无效,反而引入了巨大的、不稳定的噪声。当模型变得庞大、回答序列变长时,这种噪声会累积并被PPO家族算法中的“裁剪机制”(clipping mechanism)放大,最终导致训练过程“灾难性且不可逆转地崩溃”。
GSPO正是为了解决这个根本问题而设计的。它的核心创新点,如论文第4.1节所述,是将重要性采样的应用从“词元级别”提升到了“序列级别”
(sequence-level)。既然奖励是针对整个回答序列给出的,那么策略更新的校正也应该在整个序列的层面上进行。GSPO定义了一个基于整个序列似然度(sequence
likelihood)的重要性比率
s_i(θ)
(公式8),这个比率衡量的是新策略生成整个回答序列的概率与旧策略生成该序列概率的比值。
\[ s_i(\theta) = \left( \frac{\pi_\theta(y_i|x)}{\pi_{\theta_{\text{old}}}(y_i|x)} \right) ^ {\frac{1}{\mid y_{i}\mid}} \]
基于这个序列级别的重要性比率,GSPO对整个序列的优势函数
Â_i
进行裁剪(clipping)和优化(公式6)。这样做的好处是显而易见的:它从根本上避免了GRPO在词元级别引入的噪声累积问题。如论文的梯度分析部分(公式11
vs
公式13)所揭示的,GRPO对序列中每个词元的梯度赋予了不同的权重,而GSPO则对同一序列中的所有词元赋予了相同的权重,这个权重由整个序列的表现决定。这极大地增强了训练的稳定性。
论文通过一系列详实的实验证明了GSPO的优越性。最引人注目的莫过于图1展示的在AIME’24(数学)、LiveCodeBench(编程)等高难度任务上的训练曲线。GSPO不仅稳定地提升性能,而且在相同的计算资源下,其训练效率和最终性能都显著优于精心调优后的GRPO。
一个非常“反直觉”但又深刻的发现体现在图2中。GSPO在训练中裁剪掉的词元比例(Clipping Fraction)高达15%,而GRPO仅为0.13%,两者相差超过100倍。传统的观念认为,裁剪掉过多的样本意味着浪费数据,会降低训练效率。但GSPO的实验结果恰恰相反:“大规模的裁剪反而带来了更高的训练效率”。
This counter-intuitive finding — that clipping a much larger fraction of tokens leads to superior training efficiency — further indicates that GRPO’s token-level gradient estimates are inherently noisy and inefficient for sample exploitation. In contrast, GSPO’s sequence-level approach provides a more reliable and effective learning signal.
这雄辩地证明了GRPO的词元级梯度估计充满了噪声,而GSPO的序列级信号则更加可靠和有效。此外,论文还强调了GSPO在训练MoE模型时的巨大优势(第5.3节)。MoE模型在训练中存在“专家激活不一致”的问题,即梯度更新后,模型对同一个输入激活的专家组合会发生变化,这对于GRPO的词元级重要性权重是灾难性的。而GSPO只关心整个序列的似然度,对底层专家激活的变化不敏感,从而天然地解决了MoE模型的训练稳定性问题,甚至不再需要像“路由回放”(Routing Replay)这样复杂的额外技巧。
总而言之,GSPO通过一个看似简单却直击问题本质的改变——将优化单元从词元级提升至序列级——成功解决了大规模RL训练中的核心稳定性难题,为更大规模、更强能力的LLM(尤其是MoE架构)的持续发展铺平了道路,是LLM训练算法领域一个坚实而优雅的进步。
接下来,我将按照您提出的六个问题,逐一进行更详细的解读。
1. 论文的研究目标是什么? 想要解决什么实际问题?这个问题对于行业发展有什么重要意义?
- 研究目标:设计一种新的、更稳定、更高效的强化学习(RL)算法,用于大型语言模型的训练。
- 要解决的实际问题:
- 训练不稳定性:现有SOTA(State-of-the-Art)的RL算法,如GRPO,在训练超大规模语言模型(如拥有数百亿甚至更多参数的MoE模型)时,会遭遇严重的稳定性问题,频繁导致训练过程突然恶化,即“模型崩溃”。
- 效率瓶颈:GRPO算法因其内在的噪声问题,导致样本利用效率不高,需要更多的计算资源才能达到理想的性能。
- MoE模型训练难题:MoE模型在RL训练中存在独特的“专家激活波动性”问题,GRPO等传统方法难以应对,需要复杂的辅助策略(如Routing Replay)才能勉强收敛。
- 对行业发展的重要意义:
- 解锁更大规模的RL训练:稳定是规模化的前提。如果投入数千张GPU进行数周的RL训练,结果却因为算法不稳定而崩溃,这将是巨大的资源浪费。GSPO这样的稳定算法是推动LLM能力边界(例如在数学、编程等复杂推理任务上)的基石,使得更大规模的RL投资成为可能。
- 简化RL训练设施与流程:GSPO因为其内在的稳定性,特别是在MoE训练上,不再需要“路由回放”等复杂的“补丁”,这可以显著简化RL的训练代码和系统架构(RL Infrastructure),降低维护成本,提高研发效率。
- 推动MoE架构的普及:MoE被认为是未来扩展LLM能力的关键路径之一。GSPO解决了其在RL阶段的一个核心训练难题,将极大地促进MoE模型在更多场景下的应用和发展。
2. 论文提出了哪些新的思路、方法或模型?跟之前的方法相比有什么特点和优势?
- 核心新思路:“奖励与优化单元对齐” (Aligning the unit of optimization with the unit of reward)。这是整篇论文的哲学基石。既然奖励(如一个数学题是否做对)是基于整个生成序列来评估的,那么用于策略更新的重要性采样和裁剪等核心机制也应该在序列级别上进行,而不是在更细的词元级别上。
- 具体新方法:GSPO (Group Sequence Policy
Optimization) 算法。
- 与GRPO的对比与优势: | 特性 | GRPO
(之前的方法) | GSPO (新方法) |
优势 | | :— | :— | :— | :— | | 重要性比率
(Importance Ratio) |
词元级别:为每个token计算一个
w_i,t(θ)
| 序列级别:为整个sequence计算一个s_i(θ)
| 从根本上消除噪声累积,信号更可靠,更符合重要性采样的初衷。 | | 梯度加权 (Gradient Weighting) | 每个token的梯度由各自的权重加权 | 一个序列中所有token的梯度由相同的权重加权 | 训练更稳定,避免了因词元权重剧烈波动导致的梯度方向突变。 | | 裁剪操作 (Clipping) | 在词元级别对优势函数进行裁剪 | 在序列级别对优势函数进行裁剪 | 裁剪更有效,能够大胆地剔除整个“差”的序列,而不是在充满噪声的词元信号上小心翼翼。 | | 对MoE模型的适应性 | 差,需要“路由回放”等额外技巧来稳定 | 好,天然对专家激活波动不敏感 | 简化训练,释放MoE模型的全部潜力,无需额外开销和复杂性。 |
- 与GRPO的对比与优势: | 特性 | GRPO
(之前的方法) | GSPO (新方法) |
优势 | | :— | :— | :— | :— | | 重要性比率
(Importance Ratio) |
词元级别:为每个token计算一个
- 细节分析:
- 论文中的公式(8)是GSPO的关键。它不仅定义了序列级的重要性比率,还通过长度归一化(除以
|y_i|
)来降低序列长度带来的方差,使得不同长度序列的重要性比率可以在一个统一的数值范围内进行比较和裁剪,这是一个非常重要的工程实践。 - 论文提出的GSPO-token(公式14)是一个灵活的变体。它保留了GSPO的序列级裁剪稳定性,但允许在未来为序列中的不同词元分配不同的优势值(
Â_i,t
)。这为未来研究更精细化的奖励分配(credit assignment)留下了空间,例如在一个长的代码生成序列中,只奖励关键的算法实现部分。
- 论文中的公式(8)是GSPO的关键。它不仅定义了序列级的重要性比率,还通过长度归一化(除以
3. 论文通过什么实验来验证所提出方法的有效性?实验是如何设计的?实验数据和结果如何?
- 实验设计:
- 模型与任务:使用
Qwen3-30B-A3B-Base
模型进行冷启动微调,这是一个强大的MoE基础模型。 - 评测基准
(Benchmarks):选取了三个公认的、衡量模型复杂推理能力的高难度基准:
- AIME’24:一个数学竞赛数据集。
- LiveCodeBench:一个持续更新的编程能力评测集。
- CodeForces:一个编程竞赛平台,通过Elo等级分来评估模型性能。
- 对比基线 (Baseline):将GSPO与经过“精心调优”的GRPO进行直接对比,确保了比较的公平性。
- 模型与任务:使用
- 关键实验数据与结果:
- 性能与效率 (图1):
- 结果:在所有三个基准测试中,GSPO的训练曲线(蓝色)始终位于GRPO(红色)的上方,并且波动更小。这表明GSPO不仅性能更好,而且训练过程更稳定、收敛更快。
- 数据引用:例如在AIME’24上,GSPO在训练初期就迅速达到了75分左右的水平,而GRPO则在70分附近徘徊且波动较大。在CodeForces上,GSPO的Elo分数稳定在1900分以上,而GRPO则在1800-1900分之间大幅震荡。
- 裁剪分数 (图2):
- 结果:GSPO的平均裁剪比例是 0.15,而GRPO仅为 0.0013。
- 数据引用:这个结果的震撼之处在于,GSPO“扔掉”了多得多的数据,但学习效果却更好。这强有力地证明了其学习信号的质量远高于GRPO。
图2简化示意:GSPO与GRPO裁剪比例的巨大差异
- MoE训练的必要性 (图3):
- 结果:该图显示,对于MoE模型,使用GRPO算法时,如果不开启“路由回放”(w/o Routing Replay,橙色线),训练将很快崩溃。而开启后(紫色线)才能正常收敛。
- 数据引用:结合图1(GSPO未使用路由回放)可以得出结论:GSPO从根本上解决了GRPO在MoE训练中必须依赖额外技巧才能存活的问题。
- 性能与效率 (图1):
4. 结合大模型领域的当前学术理解,未来在该研究方向上还有哪些值得进一步探索的问题和挑战?这可能催生出什么新的技术和投资机会?
- 值得探索的问题和挑战:
- 精细化奖励分配 (Fine-grained Credit Assignment):GSPO-token虽然提供了理论框架,但如何设计有效的、非人工的机制来为长序列中的不同部分(如一个关键论证步骤、一个正确的函数调用)赋予不同的奖励值,是一个巨大的挑战。这需要结合模型的可解释性研究。
- 与DPO等非RL方法的融合:直接偏好优化(DPO)及其变体是另一条非常热门的对齐路线。GSPO的核心思想(序列级处理)能否与DPO类方法融合,创造出兼具DPO的稳定性和RL的探索能力的更强算法?
- 超越固定奖励模型:当前的RLHF依赖于一个预训练好的、固定的奖励模型。未来的研究可能会探索在RL过程中同时在线优化策略模型和奖励模型,GSPO的稳定性为这种更复杂的在线学习系统提供了可能。
- 探索更复杂的组策略:GSPO和GRPO都基于“组”的概念。如何更智能地构建这个“组”?例如,不仅仅是N个随机采样,而是包含一个“好”的样本、一个“坏”的样本、一个“有创意”的样本等,可能会提供更丰富的学习信号。
- 可能催生的新技术和投资机会:
- 新一代LLM训练平台:可以投资或开发为GSPO这类新范式优化的LLM训练/RL平台。这些平台可以主打“稳定性”、“对MoE友好”、“简化架构”等特性,吸引那些苦于RL训练不稳定的公司。
- 自动化奖励函数设计:围绕“精细化奖励分配”的技术可能催生出自动为复杂任务(如科学发现、法律文书撰写)设计奖励函数的初创公司,这是将LLM应用于更专业领域的关键。
- MoE模型即服务 (MoE-as-a-Service):随着GSPO等技术降低MoE的训练门槛,专门提供预训练和微调MoE模型的云服务将有巨大的市场机会,因为MoE在推理时具有成本优势。
5. 退一步,从批判的视角看,这篇论文还存在哪些不足及缺失?又有哪些需要进一步验证和存疑的?
- 存在的不足与缺失:
- 对比基线不够全面:论文的核心对比对象是GRPO。虽然这是最直接的对比,但缺少与学术界其他主流算法的比较,例如带学习价值函数的PPO或当前非常火热的DPO。虽然论文在引言中提到了PPO价值模型的挑战,但一个直接的、大规模的实验对比会更有说服力。
- 任务领域的局限性:实验主要集中在数学和编程这两个有明确正确答案(奖励信号清晰)的领域。GSPO在更开放、主观性更强的任务(如创意写作、情感对话、多轮交互)上的表现如何,尚待验证。在这些任务中,序列级别的奖励可能更模糊,GSPO的优势是否依然存在?
- 超参数敏感性分析缺失:论文提到GRPO经过了“精心调优”,但并未提供GSPO本身对关键超参数(如裁剪范围ε、学习率)的敏感性分析。一个鲁棒的算法应该在较宽的超参数范围内都能表现良好。
- GSPO-token未经实验验证:GSPO-token作为一个有潜力的变体被提出,但论文中并未包含任何相关的实验。其“更高的灵活性”目前仍停留在理论层面。
6. 我希望从这篇论文中找一些拿来即用的创新想法,我应该从这篇论文中重点学什么?有哪些启发?你认为我还需要补充了解哪些背景知识?
- 重点学习的创新思想与启发:
- 第一性原理思考:对齐优化与奖励单元。这是最核心、最可迁移的启发。在设计任何学习算法时,都要反思:你的反馈信号(reward/loss)是在哪个粒度上定义的?你的优化机制是否与这个粒度匹配?如果不匹配,就可能存在类似GRPO的“设计缺陷”。
- 视不稳定性为根本性问题的信号。当你的训练过程(特别是大规模训练)出现不稳定时,不要只满足于调整超参数、增加workaround。要敢于质疑算法最底层的假设,就像这篇论文质疑“词元级重要性采样”的合理性一样。
- 简单、稳定压倒一切。在规模化应用中,一个在理论上可能稍显“粗糙”但稳定、可靠的算法(GSPO),往往比一个理论上“精巧”但脆弱、充满隐患的算法(GRPO)更有价值。工程实现上的优雅和鲁棒性至关重要。
- 需要补充的背景知识:
- 强化学习基础与RLHF:深入理解强化学习的基本概念,如策略(Policy)、奖励(Reward)、价值函数(Value Function)、优势函数(Advantage Function)以及整个从人类偏好中进行强化学习(RLHF)的流程。
- PPO算法:必须详细了解PPO的目标函数,特别是重要性采样(Importance Sampling) 和 裁剪(Clipping) 机制为何被引入,以及它们的数学原理。这是理解GSPO创新的基础。
- 混合专家(MoE)模型:了解MoE的基本架构,特别是其稀疏激活和路由(Routing)机制。这样你才能理解论文中反复强调的“专家激活波动性”究竟是什么问题,以及为什么GSPO能解决它。
- DPO(Direct Preference Optimization):了解这一当前RLHF领域最热门的替代方案,可以帮助你更全面地评估GSPO的价值和局限性,并思考二者融合的可能性。