Reading - 分类 - vllbc02's blogs

Reading

2025

BRiTE：Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning 07-16

Reinforcing General Reasoning without Verifiers 07-15

First Return, Entropy-Eliciting Explore 07-15

RLPR：EXTRAPOLATING RLVR TO GENERAL DOMAINS WITHOUT VERIFIERS 07-10

GENERALIST REWARD MODELS：FOUND INSIDE LARGE LANGUAGE MODELS 07-10

LAN-AND-ACT：Improving Planning of Agents for Long-Horizon Tasks 07-07

WebEvolver：Enhancing Web Agent Self-Improvement with Coevolving World Model 07-05

WEB AGENTS WITH WORLD MODELS ：LEARNING AND LEVERAGING ENVIRONMENT DYNAMICS IN WEB NAVIGATION 07-05

RLVR-World 06-16

2024

agent planning综述 12-20

1
2
3