Google新作试图“复活”RNN:RNN能否再次辉煌?
By 苏剑林 | 2023-03-28 | 57082位读者 | 引用当前,像ChatGPT之类的LLM可谓是“风靡全球”。有读者留意到,几乎所有LLM都还是用最初的Multi-Head Scaled-Dot Attention,近年来大量的Efficient工作如线性Attention、FLASH等均未被采用。是它们版本效果太差,还是根本没有必要考虑效率?其实答案笔者在《线性Transformer应该不是你要等的那个模型》已经分析过了,只有序列长度明显超过hidden size时,标准Attention才呈现出二次复杂度,在此之前它还是接近线性的,它的速度比很多Efficient改进都快,而像GPT3用到了上万的hidden size,这意味着只要你的LLM不是面向数万长度的文本生成,那么用Efficient改进是没有必要的,很多时候速度没提上去,效果还降低了。
那么,真有数万甚至数十万长度的序列处理需求时,我们又该用什么模型呢?近日,Google的一篇论文《Resurrecting Recurrent Neural Networks for Long Sequences》重新优化了RNN模型,特别指出了RNN在处理超长序列场景下的优势。那么,RNN能否再次辉煌?
VQ的旋转技巧:梯度直通估计的一般推广
By 苏剑林 | 2024-10-24 | 11549位读者 | 引用随着多模态LLM的方兴未艾,VQ(Vector Quantization)的地位也“水涨船高”,它可以作为视觉乃至任意模态的Tokenizer,将多模态数据统一到自回归生成框架中。遗憾的是,自VQ-VAE首次提出VQ以来,其理论并没有显著进步,像编码表的坍缩或利用率低等问题至今仍亟待解决,取而代之的是FSQ等替代方案被提出,成为了VQ有力的“竞争对手”。
然而,FSQ并不能在任何场景下都替代VQ,所以VQ本身的改进依然是有价值的。近日笔者读到了《Restructuring Vector Quantization with the Rotation Trick》,它提出了一种旋转技巧,声称能改善VQ的一系列问题,本文就让我们一起来品鉴一下。
回顾
早在五年前的博文《VQ-VAE的简明介绍:量子化自编码器》中我们就介绍过了VQ-VAE,后来在《简单得令人尴尬的FSQ:“四舍五入”超越了VQ-VAE》介绍FSQ的时候,也再次仔细地温习了VQ-VAE,还不了解的读者可以先阅读这两篇文章。
Adam的epsilon如何影响学习率的Scaling Law?
By 苏剑林 | 2024-11-18 | 3023位读者 | 引用上一篇文章《当Batch Size增大时,学习率该如何随之变化?》我们从多个角度讨论了学习率与Batch Size之间的缩放规律,其中对于Adam优化器我们采用了SignSGD近似,这是分析Adam优化器常用的手段。那么一个很自然的问题就是:用SignSGD来近似Adam究竟有多科学呢?
我们知道,Adam优化器的更新量分母会带有一个$\epsilon$,初衷是预防除零错误,所以其值通常很接近于零,以至于我们做理论分析的时候通常选择忽略掉它。然而,当前LLM的训练尤其是低精度训练,我们往往会选择偏大的$\epsilon$,这导致在训练的中、后期$\epsilon$往往已经超过梯度平方大小,所以$\epsilon$的存在事实上已经不可忽略。
因此,这篇文章我们试图探索$\epsilon$如何影响Adam的学习率与Batch Size的Scaling Law,为相关问题提供一个参考的计算方案。
今天你食了吗?(广东云浮观测日偏食之旅)
By 苏剑林 | 2009-07-22 | 33896位读者 | 引用这样的世界之最你见过没有?
By 苏剑林 | 2009-07-28 | 20317位读者 | 引用写在2013年即将逝去之际
By 苏剑林 | 2013-12-31 | 24187位读者 | 引用2013年即将过去,而我的大二也即将过去一半了。这一学期广播台的事情忙了很多,数学物理的进展比想象中稍微缓了一些,主要的进步是在向量分析(场论)、路径积分和微分方程等方面。下学期开始分流了,我选择了非师,但事实上,我更喜欢师范类的课程,我选择非师的唯一原因是选择师范需要修教育学和心理学。幸好,我们创新班的自由度比较多,可以自由选择下学期的课程,我选择了六门数学课程:
1、常微分方程;
2、复变函数;
(这两门纯粹是凑学分的,我觉得他能讲的东西我都懂了,而我认为很重要的部分他不讲...)
3、数理统计;
(这门主要的想法是为路径积分以及统计力学奠基)
4、微分几何;
(主要是广义相对论的奠基,还有理论物理形式)
5、偏微分方程;
(第4、5都是大三的课程,我是去跟大三一起上的)
6、离散数学。
MathPlayer 2.2发布,大家升级啦!
By 苏剑林 | 2010-02-13 | 19332位读者 | 引用如果你已经安装了MathPlayer,就这里检查一下你的版本是否最新版:
http://www.dessci.com/en/products/mathplayer/check.htm
如果你还没有安装,欢迎你点击下面的链接下载安装:
http://www.dessci.com/en/products/mathplayer/download.htm
最近评论