Decoder-only的LLM为什么需要位置编码?
By 苏剑林 | 2024-09-01 | 26764位读者 | 引用众所周知,目前主流的LLM,都是基于Causal Attention的Decoder-only模型(对此我们在《为什么现在的LLM都是Decoder-only的架构?》也有过相关讨论),而对于Causal Attention,已经有不少工作表明它不需要额外的位置编码(简称NoPE)就可以取得非平凡的结果。然而,事实是主流的Decoder-only LLM都还是加上了额外的位置编码,比如RoPE、ALIBI等。
那么问题就来了:明明说了不加位置编码也可以,为什么主流的LLM反而都加上了呢?不是说“多一事不如少一事”吗?这篇文章我们从三个角度给出笔者的看法:
1、位置编码对于Attention的作用是什么?
2、NoPE的Causal Attention是怎么实现位置编码的?
3、NoPE实现的位置编码有什么不足?
VQ的旋转技巧:梯度直通估计的一般推广
By 苏剑林 | 2024-10-24 | 11222位读者 | 引用随着多模态LLM的方兴未艾,VQ(Vector Quantization)的地位也“水涨船高”,它可以作为视觉乃至任意模态的Tokenizer,将多模态数据统一到自回归生成框架中。遗憾的是,自VQ-VAE首次提出VQ以来,其理论并没有显著进步,像编码表的坍缩或利用率低等问题至今仍亟待解决,取而代之的是FSQ等替代方案被提出,成为了VQ有力的“竞争对手”。
然而,FSQ并不能在任何场景下都替代VQ,所以VQ本身的改进依然是有价值的。近日笔者读到了《Restructuring Vector Quantization with the Rotation Trick》,它提出了一种旋转技巧,声称能改善VQ的一系列问题,本文就让我们一起来品鉴一下。
回顾
早在五年前的博文《VQ-VAE的简明介绍:量子化自编码器》中我们就介绍过了VQ-VAE,后来在《简单得令人尴尬的FSQ:“四舍五入”超越了VQ-VAE》介绍FSQ的时候,也再次仔细地温习了VQ-VAE,还不了解的读者可以先阅读这两篇文章。
VQ的又一技巧:给编码表加一个线性变换
By 苏剑林 | 2024-11-06 | 7589位读者 | 引用在《VQ的旋转技巧:梯度直通估计的一般推广》中,我们介绍了VQ(Vector Quantization)的Rotation Trick,它的思想是通过推广VQ的STE(Straight-Through Estimator)来为VQ设计更好的梯度,从而缓解VQ的编码表坍缩、编码表利用率低等问题。
无独有偶,昨天发布在arXiv上的论文《Addressing Representation Collapse in Vector Quantized Models with One Linear Layer》提出了改善VQ的另一个技巧:给编码表加一个线性变换。这个技巧单纯改变了编码表的参数化方式,不改变VQ背后的理论框架,但实测效果非常优异,称得上是简单有效的经典案例。
我的自主招生成绩公布了
By 苏剑林 | 2012-03-04 | 39272位读者 | 引用居然是他!奥巴马获得2009年诺贝尔和平奖!
By 苏剑林 | 2009-10-10 | 19406位读者 | 引用站长:因为10月8日就上学了,所以不能够及时上网查阅和更新文学奖和和平奖的消息。不过一直在用手机关注着,前天晚上7:00,就一直用手机关注着诺贝尔奖官方网站,最终发现德国人取得了文学奖。而昨天晚上,一个更加惊人的消息发出来了——2009年诺贝尔和平奖的得主竟然是Barack Obama!
太意外了!居然是我们熟悉的美国总统!世界各国也是这样的意外,然而,令人深思的应该是:颁布诺贝尔奖给奥巴马的主要原因,并非肯定奥巴马已经有的成就,应该是鼓励他带领美国为世界作出更大的贡献!由此观之,世界对这位美国总统的期望是十分大的!
中国网10月9日电 据路透社报道,10月9日美国总统贝拉克·奥巴马(Barack Obama )因为世界和平所做的工作,以及呼吁削减世界核武库而赢得2009年诺贝尔和平奖。
扬帆——在宇宙的海洋中航行
By 苏剑林 | 2010-10-24 | 21981位读者 | 引用【福岛核电站】“最坏情况”有多坏?
By 苏剑林 | 2011-03-20 | 24776位读者 | 引用路径积分系列:3.路径积分
By 苏剑林 | 2016-06-02 | 73953位读者 | 引用路径积分是量子力学的一种描述方法,源于物理学家费曼[5],它是一种泛函积分,它已经成为现代量子理论的主流形式. 近年来,研究人员对它的兴趣愈发增加,尤其是它在量子领域以外的应用,出现了一些著作,如[7]. 但在国内了解路径积分的人并不多,很多量子物理专业的学生可能并没有听说过路径积分.
从数学角度来看,路径积分是求偏微分方程的Green函数的一种方法. 我们知道,在偏微分方程的研究中,如果能够求出对应的Green函数,那么对偏微分方程的研究会大有帮助,而通常情况下Green函数并不容易求解. 但构建路径积分只需要无穷小时刻的Green函数,因此形式和概念上都相当简单.
本章并没有新的内容,只是做了一个尝试:从随机游走问题出发,给出路径积分的一个简明而直接的介绍,展示了如何将抛物型的偏微分方程问题转化为路径积分形式.
从点的概率到路径的概率
在上一章对随机游走的研究中,我们得出从$x_0$出发,$t$时间后,走到$x_n$处的概率密度为
$$\frac{1}{\sqrt{2\pi \alpha T}}\exp\left(-\frac{(x_n-x_0)^2}{2\alpha t}\right).\tag{22}$$
这是某时刻某点到另一个时刻另一点的概率,在数学上,我们称之为扩散方程$(21)$的传播子,或者Green函数.
最近评论