/images/avatar.png

vllbc

shortcode(置顶)

贴一下可以玩的shortcode。 音乐播放 播放列表 播放单曲 视频播放 bilibili 有多P可以选择集数 youtube admonition 类型有:note、abstract、info、ti

llama系列

llama系列的主要差别在训练上下文长度、词表大小、训练token数、注意力机制以及对齐方法上,由于强化学习还没深入学习,因此跳过强化学习部

rwkv

线性Transformer \[V_i'=\frac{\sum_{j=1}^N sim(Q_i,K_j)V_j}{\sum_{j=1}^N sim(Q_i,K_j)}\] 注意下标i。 其中 \[sim(Q_{i},K_{j})=\phi(Q_{i},K_{j})\] 此时有: \[V_{i}^{\prime}=\frac{\phi(Q_{i})\sum_{j=1}^{i}\phi(K_{j})^{T}V_{j}}{\phi(Q_{i})\sum_{j=1}^{i}\phi(K_{j})^{T}}\] 注意可以将\(\phi(Q_{i})\)提出来。 原始Transformer的计算

rope

证明 核心思想就是找到一个转换,可以通过点积操作将位置信息注入,即: \[<f_q\left(x_m,m\right),f_k\left(x_n,n\right)>=g\left(x_m,x_n,m-n\right)\] 而通过复数的一些性质,找到了满足上述操作的转换: \[\begin{aligned} &f_{q}\left(\boldsymbol{x}_{m},m\right)=\left(\boldsymbol{W}_{q}\boldsymbol{x}_{m}\right)e^{im\theta} \\ &f_{k}\left(\boldsymbol{x}_{n},n\right)=\left(\boldsymbol{W}_{k}\boldsymbol{x}_{n}\right)e^{in\theta} \\ &g\left(\boldsymbol{x}_{m},\boldsymbol{x}_{n},m-n\right)=\mathrm{Re}\left[\left(\boldsymbol{W}_{q}\boldsymbol{x}_{m}\right)\left(\boldsymbol{W}_{k}\boldsymbol{x}_{n}\right)^{*}e^{i(m-n)\theta}\right] \end{aligned}\] 可以发现g

Data Engineering for Scaling Language Models to 128K Context

Data Engineering for Scaling Language Models to 128K Context 💡 Meta Data Title Data Engineering for Scaling Language Models to 128K Context Journal Authors Yao Fu; Rameswar Panda; Xinyao Niu; Xiang Yue; Hannaneh Hajishirzi; Yoon Kim; Hao Peng Pub. date 2024-02-15 期刊标签 DOI 10.48550/arXiv.2402.10171 附件 Fu et al_2024_Data Engineering for Scaling Language Models to 128K Context.pdf 📜 研究背景 & 基础 & 目

KV cache

KV cache LLM推理过程分为Prefill和Decode两个阶段,其中Prefill阶段会对Prompt中所有的token做并行计算,得到Prom

Transformer Feed-Forward Layers Are Key-Value Memories

Transformer Feed-Forward Layers Are Key-Value Memories 💡 Meta Data Title Transformer Feed-Forward Layers Are Key-Value Memories Journal Authors Mor Geva; Roei Schuster; Jonathan Berant; Omer Levy Pub. date 2021-09-05 期刊标签 DOI 10.48550/arXiv.2012.14913 附件 Geva et al_2021_Transformer Feed-Forward Layers Are Key-Value Memories.pdf 📜 研究背景 & 基础 & 目的 前馈层占据了 Transformer 模型参数的三分