标签 attention 下的文章 - 科学空间|Scientific Spaces

20 Jun

线性注意力简史：从模仿、创新到反哺

By 苏剑林 | 2025-06-20 | 119973位读者 | 引用

在中文圈，本站应该算是比较早关注线性Attention的了，在2020年写首篇相关博客《线性Attention的探索：Attention必须有个Softmax吗？》时，大家主要讨论的还是BERT相关的Softmax Attention。事后来看，在BERT时代考虑线性Attention并不是太明智，因为当时训练长度比较短，且模型主要还是Encoder，用线性Attention来做基本没有优势。对此，笔者也曾撰文《线性Transformer应该不是你要等的那个模型》表达这一观点。

直到ChatGPT的出世，倒逼大家都去做Decoder-only的生成式模型，这跟线性Attention的RNN形式高度契合。同时，追求更长的训练长度也使得Softmax Attention的二次复杂度瓶颈愈发明显。在这样的新背景下，线性Attention越来越体现出竞争力，甚至出现了“反哺”Softmax Attention的迹象。

点击阅读全文...

分类：信息时代标签：线性, RNN, 生成模型, attention 阅读全文 73 评论

4 May

Transformer升级之路：20、MLA好在哪里?（上）

By 苏剑林 | 2025-05-04 | 101408位读者 | 引用

自从DeepSeek爆火后，它所提的Attention变体MLA（Multi-head Latent Attention）也愈发受到关注。MLA通过巧妙的设计实现了MHA与MQA的自由切换，使得模型可以根据训练和推理的不同特性（Compute-Bound or Memory-Bound）选择最佳的形式，尽可能地达到效率最大化。

诚然，MLA很有效，但也有观点认为它不够优雅，所以寻找MLA替代品的努力一直存在，包括我们也有在尝试。然而，经过一段时间的实验，我们发现很多KV Cache相同甚至更大的Attention变体，最终效果都不如MLA。这不得不让我们开始反思：MLA的出色表现背后的关键原因究竟是什么？

接下来，本文将详细介绍笔者围绕这一问题的思考过程以及相关实验结果。

观察

MLA提出自DeepSeek-V2，本文假设读者已经熟悉MLA，至少了解之前的博客《缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA》所介绍的内容，因此MLA自身的细节将不会过多展开。

点击阅读全文...

分类：信息时代标签：优化, 语言模型, 生成模型, attention 阅读全文 51 评论

18 Apr

Transformer升级之路：19、第二类旋转位置编码

By 苏剑林 | 2025-04-18 | 63971位读者 | 引用

持续将“Transformer升级之路”系列关注到本篇的读者，想必都已经对旋转位置编码（RoPE）有所了解。简单来说，RoPE是施加在Attention的Query（$\boldsymbol{Q}$）和Key（$\boldsymbol{K}$）上的旋转变换，形式上属于绝对位置编码，但结合Attention的内积（Dot-Product）特性，能够自动实现相对位置的效果。

那么，RoPE可以加在Value（$\boldsymbol{V}$）上吗？看上去不可以，因为对$\boldsymbol{V}$旋转后就不是相对位置编码了。然而事情并没有那么绝对，本文就来讨论加在$\boldsymbol{V}$上RoPE，我们可以称之为“第二类旋转位置编码”。

基础回顾

我们将Dot-Product Attention分解为
\begin{equation}\boldsymbol{o}_i = \sum_j a_{i,j}\boldsymbol{v}_j,\qquad a_{i,j} = \frac{e^{s_{i,j}}}{\sum\limits_j e^{s_{i,j}}},\qquad s_{i,j} = \boldsymbol{q}_i^{\top}\boldsymbol{k}_j\end{equation}

点击阅读全文...

分类：数学研究标签：语言模型, attention, 位置编码, rope 阅读全文 43 评论

17 Jan

细水长flow之TARFLOW：流模型满血归来？

By 苏剑林 | 2025-01-17 | 76104位读者 | 引用

不知道还有没有读者对这个系列有印象？这个系列取名“细水长flow”，主要介绍flow模型的相关工作，起因是当年（2018年）OpenAI发布了一个新的流模型Glow，在以GAN为主流的当时来说着实让人惊艳了一番。但惊艳归惊艳，事实上在相当长的时间内，Glow及后期的一些改进在生成效果方面都是比不上GAN的，更不用说现在主流的扩散模型了。

不过局面可能要改变了，上个月的论文《Normalizing Flows are Capable Generative Models》提出了新的流模型TARFLOW，它在几乎在所有的生成任务效果上都逼近了当前SOTA，可谓是流模型的“满血”回归。

TARFLOW的生成效果

点击阅读全文...

分类：信息时代标签：流模型, flow, 生成模型, attention 阅读全文 23 评论

6 Sep

“闭门造车”之多模态思路浅谈（三）：位置编码

By 苏剑林 | 2024-09-06 | 134166位读者 | 引用

在前面的文章中，我们曾表达过这样的观点：多模态LLM相比纯文本LLM的主要差异在于，前者甚至还没有形成一个公认为标准的方法论。这里的方法论，不仅包括之前讨论的生成和训练策略，还包括一些基础架构的设计，比如本文要谈的“多模态位置编码”。

对于这个主题，我们之前在《Transformer升级之路：17、多模态位置编码的简单思考》就已经讨论过一遍，并且提出了一个方案（RoPE-Tie）。然而，当时笔者对这个问题的思考仅处于起步阶段，存在细节考虑不周全、认识不够到位等问题，所以站在现在的角度回看，当时所提的方案与完美答案还有明显的距离。

因此，本文我们将自上而下地再次梳理这个问题，并且给出一个自认为更加理想的结果。

多模位置

多模态模型居然连位置编码都没有形成共识，这一点可能会让很多读者意外，但事实上确实如此。对于文本LLM，目前主流的位置编码是RoPE（RoPE就不展开介绍了，假设读者已经熟知），更准确来说是RoPE-1D，因为原始设计只适用于1D序列。后来我们推导了RoPE-2D，这可以用于图像等2D序列，按照RoPE-2D的思路我们可以平行地推广到RoPE-3D，用于视频等3D序列。

点击阅读全文...

分类：信息时代标签：attention, 位置编码, 多模态阅读全文 46 评论

1 Sep

Decoder-only的LLM为什么需要位置编码？

By 苏剑林 | 2024-09-01 | 96518位读者 | 引用

众所周知，目前主流的LLM，都是基于Causal Attention的Decoder-only模型（对此我们在《为什么现在的LLM都是Decoder-only的架构？》也有过相关讨论），而对于Causal Attention，已经有不少工作表明它不需要额外的位置编码（简称NoPE）就可以取得非平凡的结果。然而，事实是主流的Decoder-only LLM都还是加上了额外的位置编码，比如RoPE、ALIBI等。

那么问题就来了：明明说了不加位置编码也可以，为什么主流的LLM反而都加上了呢？不是说“多一事不如少一事”吗？这篇文章我们从三个角度给出笔者的看法：

1、位置编码对于Attention的作用是什么？
2、NoPE的Causal Attention是怎么实现位置编码的？
3、NoPE实现的位置编码有什么不足？

点击阅读全文...

分类：信息时代,问题百科标签：语言模型, attention, 位置编码阅读全文 29 评论

29 May

Transformer升级之路：18、RoPE的底数选择原则

By 苏剑林 | 2024-05-29 | 188672位读者 | 引用

我们知道，在RoPE中频率的计算公式为$\theta_i = b^{-2i/d}$，底数$b$默认值为10000。目前Long Context的主流做法之一是，先在$b=10000$上用短文本预训练，然后调大$b$并在长文本微调，其出发点是《Transformer升级之路：10、RoPE是一种β进制编码》里介绍的NTK-RoPE，它本身有较好长度外推性，换用更大的$b$再微调相比不加改动的微调，起始损失更小，收敛也更快。该过程给人的感觉是：调大$b$完全是因为“先短后长”的训练策略，如果一直都用长文本训练似乎就没必要调大$b$了？

上周的论文《Base of RoPE Bounds Context Length》试图回答这个问题，它基于一个期望性质研究了$b$的下界，由此指出更大的训练长度本身就应该选择更大的底数，与训练策略无关。整个分析思路颇有启发性，接下来我们一起来品鉴一番。

点击阅读全文...

分类：信息时代标签：不等式, attention, 位置编码, rope 阅读全文 18 评论

13 May

缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA

By 苏剑林 | 2024-05-13 | 394791位读者 | 引用

前几天，幻方发布的DeepSeek-V2引起了大家的热烈讨论。首先，最让人哗然的是1块钱100万token的价格，普遍比现有的各种竞品API便宜了两个数量级，以至于有人调侃“这个价格哪怕它输出乱码，我也会认为这个乱码是一种艺术”；其次，从模型的技术报告看，如此便宜的价格背后的关键技术之一是它新提出的MLA（Multi-head Latent Attention），这是对GQA的改进，据说能比GQA更省更好，也引起了读者的广泛关注。

接下来，本文将跟大家一起梳理一下从MHA、MQA、GQA到MLA的演变历程，并着重介绍一下MLA的设计思路。

MHA

MHA（Multi-Head Attention），也就是多头注意力，是开山之作《Attention is all you need》所提出的一种Attention形式，可以说它是当前主流LLM的基础工作。在数学上，多头注意力MHA等价于多个独立的单头注意力的拼接，假设输入的（行）向量序列为$\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_l$，其中$\boldsymbol{x}_i\in\mathbb{R}^d$，那么MHA可以形式地记为

点击阅读全文...

分类：信息时代标签：优化, 语言模型, 生成模型, attention 阅读全文 170 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前33岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

线性注意力简史：从模仿、创新到反哺

Transformer升级之路：20、MLA好在哪里?（上）

观察

Transformer升级之路：19、第二类旋转位置编码

基础回顾

细水长flow之TARFLOW：流模型满血归来？

“闭门造车”之多模态思路浅谈（三）：位置编码

多模位置

Decoder-only的LLM为什么需要位置编码？

Transformer升级之路：18、RoPE的底数选择原则

缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA

MHA

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接