28 Mar

Google新作试图“复活”RNN:RNN能否再次辉煌?

当前,像ChatGPT之类的LLM可谓是“风靡全球”。有读者留意到,几乎所有LLM都还是用最初的Multi-Head Scaled-Dot Attention,近年来大量的Efficient工作如线性AttentionFLASH等均未被采用。是它们版本效果太差,还是根本没有必要考虑效率?其实答案笔者在《线性Transformer应该不是你要等的那个模型》已经分析过了,只有序列长度明显超过hidden size时,标准Attention才呈现出二次复杂度,在此之前它还是接近线性的,它的速度比很多Efficient改进都快,而像GPT3用到了上万的hidden size,这意味着只要你的LLM不是面向数万长度的文本生成,那么用Efficient改进是没有必要的,很多时候速度没提上去,效果还降低了。

那么,真有数万甚至数十万长度的序列处理需求时,我们又该用什么模型呢?近日,Google的一篇论文《Resurrecting Recurrent Neural Networks for Long Sequences》重新优化了RNN模型,特别指出了RNN在处理超长序列场景下的优势。那么,RNN能否再次辉煌?

点击阅读全文...

24 Oct

VQ的旋转技巧:梯度直通估计的一般推广

随着多模态LLM的方兴未艾,VQ(Vector Quantization)的地位也“水涨船高”,它可以作为视觉乃至任意模态的Tokenizer,将多模态数据统一到自回归生成框架中。遗憾的是,自VQ-VAE首次提出VQ以来,其理论并没有显著进步,像编码表的坍缩或利用率低等问题至今仍亟待解决,取而代之的是FSQ等替代方案被提出,成为了VQ有力的“竞争对手”。

然而,FSQ并不能在任何场景下都替代VQ,所以VQ本身的改进依然是有价值的。近日笔者读到了《Restructuring Vector Quantization with the Rotation Trick》,它提出了一种旋转技巧,声称能改善VQ的一系列问题,本文就让我们一起来品鉴一下。

回顾

早在五年前的博文《VQ-VAE的简明介绍:量子化自编码器》中我们就介绍过了VQ-VAE,后来在《简单得令人尴尬的FSQ:“四舍五入”超越了VQ-VAE》介绍FSQ的时候,也再次仔细地温习了VQ-VAE,还不了解的读者可以先阅读这两篇文章。

点击阅读全文...

18 Nov

Adam的epsilon如何影响学习率的Scaling Law?

上一篇文章《当Batch Size增大时,学习率该如何随之变化?》我们从多个角度讨论了学习率与Batch Size之间的缩放规律,其中对于Adam优化器我们采用了SignSGD近似,这是分析Adam优化器常用的手段。那么一个很自然的问题就是:用SignSGD来近似Adam究竟有多科学呢?

我们知道,Adam优化器的更新量分母会带有一个$\epsilon$,初衷是预防除零错误,所以其值通常很接近于零,以至于我们做理论分析的时候通常选择忽略掉它。然而,当前LLM的训练尤其是低精度训练,我们往往会选择偏大的$\epsilon$,这导致在训练的中、后期$\epsilon$往往已经超过梯度平方大小,所以$\epsilon$的存在事实上已经不可忽略。

因此,这篇文章我们试图探索$\epsilon$如何影响Adam的学习率与Batch Size的Scaling Law,为相关问题提供一个参考的计算方案。

点击阅读全文...

22 Jul

今天你食了吗?(广东云浮观测日偏食之旅)

这事还得从昨天谈起...

07.21,日食的前一天,早上起来太阳都能够晒到窗户了。尽管天气预报今明两天会是多云,但看到此情景,还是满怀希望的。

到了晚上,我在楼顶中,躺在星空下,数着繁星点点,期待着明天的好天气。忽然同学打电话来,我顺便邀他过来一起观测(方圆几里就数我的设备比较先进而已)。感到饶有兴致,架起了我的望远镜,对准了木星...

07.22,终于到了这一天,早晨5:00闹钟就把我叫醒,本来还想在这个时候看看金星和火星的,但是睡意未消,懒洋洋的我还是回到了床上,ZZZ...

点击阅读全文...

28 Jul

这样的世界之最你见过没有?

1、说话最快的人︰1995年,加拿大人西恩·夏农用23.8秒背诵完《哈姆雷特》中“生还是死”的独白。

2、被单人拉行100英尺的最重汽车︰今年澳大利亚人德雷克·伯雅单人將30.68吨重的拖车拉行了30.5米。

3、跳浅水的最大高度︰今年一月,美国路易斯安那州的达尼·辛吉伯顿从8.9米的高度跳入30厘米深的水中。

4、憋气时间最长︰1959年,美国的濒B特·福斯特憋气13分零42.5秒。

5、全身与冰接触的最长时间︰今年一月,荷兰的威姆·霍夫在一个装满冰块的管子里呆了1小时零17分。

点击阅读全文...

31 Dec

写在2013年即将逝去之际

2013年即将过去,而我的大二也即将过去一半了。这一学期广播台的事情忙了很多,数学物理的进展比想象中稍微缓了一些,主要的进步是在向量分析(场论)、路径积分和微分方程等方面。下学期开始分流了,我选择了非师,但事实上,我更喜欢师范类的课程,我选择非师的唯一原因是选择师范需要修教育学和心理学。幸好,我们创新班的自由度比较多,可以自由选择下学期的课程,我选择了六门数学课程:

1、常微分方程;
2、复变函数;
(这两门纯粹是凑学分的,我觉得他能讲的东西我都懂了,而我认为很重要的部分他不讲...)
3、数理统计;
(这门主要的想法是为路径积分以及统计力学奠基)
4、微分几何;
(主要是广义相对论的奠基,还有理论物理形式)
5、偏微分方程;
(第4、5都是大三的课程,我是去跟大三一起上的)
6、离散数学。

点击阅读全文...

13 Feb

MathPlayer 2.2发布,大家升级啦!

如果你已经安装了MathPlayer,就这里检查一下你的版本是否最新版:
http://www.dessci.com/en/products/mathplayer/check.htm

如果你还没有安装,欢迎你点击下面的链接下载安装:
http://www.dessci.com/en/products/mathplayer/download.htm

点击阅读全文...

9 Jul

植物拯救了地球,阻止寒冷灭绝之灾!

笔者语录:现在温室效应愈演愈烈。不过,在千万年前,情况正好相反,二氧化碳含量的急剧下降,使地球越来越冷。而一个“救星”的出现挽救了地球!这个伟大的“救星”,就是我们随处可见的植物。现在,就让我们随着《新科学家》的脚步,去看看那远古的“救星”!

图片说明:原始森林。来自搜索引擎,图片有可能经过PS。

图片说明:原始森林。来自搜索引擎,图片有可能经过PS。

点击阅读全文...