/images/avatar.png

vllbc

shortcode(置顶)

贴一下可以玩的shortcode。

音乐播放

播放列表

夏日口袋专辑:

播放单曲

最爱的一首(我是紬厨):

视频播放

bilibili

有多P可以选择集数

admonition

类型有:note、abstract、info、tip、success、question、warning、failure、danger、bug、example、quote。

技巧
一个 技巧 横幅

BRiTE:Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning

好的,非常荣幸能以领域专家的身份,与您一同深入探讨这篇富有洞见的论文《BRITE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning》。这篇论文确实触及了当前大模型领域一个核心且棘手的问题:如何让模型不仅能生成流畅的文本,更能进行可靠、严谨的逻辑推理。

MHA

Self-attention

首先介绍一下最主要的 self-attention,可以说是 self-attention 实现了上述的 token 之间交互的功能。

自注意力是模型的关键组成部分之一。注意和自注意之间的区别在于,自注意在相同性质的表示之间运行:例如,某个层中的所有编码器状态。

MQA

image.png

标准的 mha 中,KV heads 的数量和 Query heads 的数量相同,每一个 q head 对应一个独立的 kv head,但这样的开销比较大。 MQA (Multi Queries Attention): MQA 比较极端,只保留一个 KV Head,多个 Query Heads 共享相同的 KV Head。这相当于不同 Head 的 Attention 差异,全部都放在了 Query 上,需要模型仅从不同的 Query Heads 上就能够关注到输入 hidden states 不同方面的信息。这样做的好处是,极大地降低了 KV Cache 的需求,但是会导致模型效果有所下降。(层内共享)

PROCESS REINFORCEMENT THROUGH IMPLICIT REWARDS

论文深入解读

这篇名为《Process Reinforcement through Implicit Rewards》(通过隐式奖励进行过程强化) 的论文,由来自清华大学、上海人工智能实验室、UIUC 等顶尖机构的研究者共同完成,为大语言模型(LLM)的强化学习(RL)领域带来了一个极具价值和创新性的解决方案——PRIME 框架。其核心贡献在于,它成功地将过程监督 (Process Supervision) 的高效率与结果监督 (Outcome Supervision) 的低成本相结合,解决了在复杂推理任务(如数学和编程)中应用强化学习时面临的关键瓶颈。

Search-R1:Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

好的,作为大模型领域的学术专家,我非常乐于为您深入解读这篇具有重要意义的论文《SEARCH-R 1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning》。

这篇论文的核心,是探索如何让大型语言模型(LLM)学会像人类专家一样,在解决复杂问题时,主动、智能、且迭代地使用搜索引擎。它不仅仅是简单地把搜索结果“喂”给模型,而是通过强化学习(Reinforcement Learning, RL),训练模型形成一种内在的“研究”能力——知道什么时候需要信息,需要什么信息,以及如何整合这些信息来形成最终答案。

First Return, Entropy-Eliciting Explore

好的,作为大模型领域的学术专家,非常荣幸能与您一同深入探讨这篇富有启发性的论文——《First Return, Entropy-Eliciting Explore》。这篇由字节跳动、M-A-P 及曼彻斯特大学的研究者们共同完成的工作,直面了当前大模型在复杂推理任务中通过强化学习进行优化时的一个核心痛点。