entropy(reasoning)

熵坍塌

UloRL:An Ultra-Long Output Reinforcement Learning Approach for Advancing Large Language Models’ Reasoning Abilities

UloRL的核心创新 动态掩码熟练掌握正向词元(Dynamic Masking of well-Mastered Positive Tokens, DMMPTs)。论文作者敏锐地指出,熵坍塌的根源并非“训练正样本”,而是“过度训练已经熟练掌握的正向词元(MPTs)”。MPTs指的是那些在正确答案中,且模型已经能以极高概率(如>99%)预测出来的词元。DMMPTs为此设计了一个“熵值恒温器”: 1. 设定一个理想的“目标熵值”。 2. 在训练时,如果模型的当前熵低于这个目标值,说明模型开始变得“僵化”了。此时,系统会自动“屏蔽”(mask)掉那些MPTs,不再对它们进行训练,迫使模型关注那些还未掌握好的部分。 3. 如果模型熵值高于或等于目标值,则正常进行训练。

ProRL:Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

利用熵

First Return, Entropy-Eliciting Explore

AGENTIC REINFORCED POLICY OPTIMIZATION

参考

小作坊的强化之路