1. World model:预测执行 action 后 state 的转换,从而选择最合适的 action,对 agent 的应用很重要。World model 也能对应我的第一个科研点,即意外事件,意外事件即世界状态的突然转变,如果有 world model ,可以通过执行正确的 action 来解决意外事件。
  2. Tool-use RL:通过强化学习增强模型调用工具的能力,deepresearch 属于一个细分的方向
  3. Reasoning 相关:熵、思维链压缩,都有可以做的东西