10 Dec

Muon优化器赏析:从向量到矩阵的本质跨越

随着LLM时代的到来,学术界对于优化器的研究热情似乎有所减退。这主要是因为目前主流的AdamW已经能够满足大多数需求,而如果对优化器“大动干戈”,那么需要巨大的验证成本。因此,当前优化器的变化,多数都只是工业界根据自己的训练经验来对AdamW打的一些小补丁。

不过,最近推特上一个名为“Muon”的优化器颇为热闹,它声称比AdamW更为高效,且并不只是在Adam基础上的“小打小闹”,而是体现了关于向量与矩阵差异的一些值得深思的原理。本文让我们一起赏析一番。

Muon与AdamW效果对比(来源:推特@Yuchenj_UW)

Muon与AdamW效果对比(来源:推特@Yuchenj_UW)

点击阅读全文...

25 Dec

从谱范数梯度到新式权重衰减的思考

在文章《Muon优化器赏析:从向量到矩阵的本质跨越》中,我们介绍了一个名为“Muon”的新优化器,其中一个理解视角是作为谱范数正则下的最速梯度下降,这似乎揭示了矩阵参数的更本质的优化方向。众所周知,对于矩阵参数我们经常也会加权重衰减(Weight Decay),它可以理解为$F$范数平方的梯度,那么从Muon的视角看,通过谱范数平方的梯度来构建新的权重衰减,会不会能起到更好的效果呢?

那么问题来了,谱范数的梯度或者说导数长啥样呢?用它来设计的新权重衰减又是什么样的?接下来我们围绕这些问题展开。

基础回顾

谱范数(Spectral Norm),又称“$2$范数”,是最常用的矩阵范数之一,相比更简单的$F$范数(Frobenius Norm),它往往能揭示一些与矩阵乘法相关的更本质的信号,这是因为它定义上就跟矩阵乘法相关:对于矩阵参数$\boldsymbol{W}\in\mathbb{R}^{n\times m}$,它的谱范数定义为

点击阅读全文...

4 Mar

我的自主招生成绩公布了

北大这次也太不够朋友了,华约、卓越的成绩昨天就已经出来了,北大的今天才查到(不知道它是昨晚公布还是今天早上公布的),着急等待了一整天。千呼万唤,总算出来了。

很遗憾地告诉大家,就目前的情况来看,北大自招是没戏了。271的总分,很难被通过...

自主招生 成绩

自主招生 成绩

点击阅读全文...

10 Oct

居然是他!奥巴马获得2009年诺贝尔和平奖!

站长:因为10月8日就上学了,所以不能够及时上网查阅和更新文学奖和和平奖的消息。不过一直在用手机关注着,前天晚上7:00,就一直用手机关注着诺贝尔奖官方网站,最终发现德国人取得了文学奖。而昨天晚上,一个更加惊人的消息发出来了——2009年诺贝尔和平奖的得主竟然是Barack Obama!

太意外了!居然是我们熟悉的美国总统!世界各国也是这样的意外,然而,令人深思的应该是:颁布诺贝尔奖给奥巴马的主要原因,并非肯定奥巴马已经有的成就,应该是鼓励他带领美国为世界作出更大的贡献!由此观之,世界对这位美国总统的期望是十分大的!

中国网10月9日电 据路透社报道,10月9日美国总统贝拉克·奥巴马(Barack Obama )因为世界和平所做的工作,以及呼吁削减世界核武库而赢得2009年诺贝尔和平奖。

奥巴马获2009年诺贝尔和平奖

奥巴马获2009年诺贝尔和平奖

点击阅读全文...

24 Oct

扬帆——在宇宙的海洋中航行

以下内容来源于《天文爱好者》杂志2010年10期(作者庞统,责任编辑李良)。
作为消息通告和交流学习所用,请勿用于商业或其他非法用途
ikaros图片版权:ISAS / JAXA;其余来自互联网搜索得到。

2010年5月21曰,日本用H-2A火箭成功发射了耗资15亿曰元(合1600万美元)的“伊卡洛斯”太阳帆,以检验它是否能够利用太阳能实现加速飞行,从而拉开了研制和发射太阳帆式新型推进航天器高潮的序幕。2010年9月和年底,美国还将先后发射纳帆-D2和光帆-1太阳帆。

ikaros

ikaros

点击阅读全文...

20 Mar

【福岛核电站】“最坏情况”有多坏?

Fukushima

Fukushima

福岛核电站已经好久没给我们带来好消息了,各种稀奇古怪的故障一个接着一个,越来越多的人也在考虑“最坏情况”的可能了,这次的碘盐恐慌似乎就是被所谓的“最坏情况”吓出来的。那么最坏到底能有多坏呢?

完整的评估太过复杂,咱就从比较简单的,也是目前我们很多人最关心的问题说起:放射性物质的泄露对海水最大到底能有多大的影响。这里我们主要拿这个风头正紧的碘 131 来开刀。

点击阅读全文...

2 Jun

路径积分系列:3.路径积分

路径积分是量子力学的一种描述方法,源于物理学家费曼[5],它是一种泛函积分,它已经成为现代量子理论的主流形式. 近年来,研究人员对它的兴趣愈发增加,尤其是它在量子领域以外的应用,出现了一些著作,如[7]. 但在国内了解路径积分的人并不多,很多量子物理专业的学生可能并没有听说过路径积分.

从数学角度来看,路径积分是求偏微分方程的Green函数的一种方法. 我们知道,在偏微分方程的研究中,如果能够求出对应的Green函数,那么对偏微分方程的研究会大有帮助,而通常情况下Green函数并不容易求解. 但构建路径积分只需要无穷小时刻的Green函数,因此形式和概念上都相当简单.

本章并没有新的内容,只是做了一个尝试:从随机游走问题出发,给出路径积分的一个简明而直接的介绍,展示了如何将抛物型的偏微分方程问题转化为路径积分形式.

从点的概率到路径的概率

在上一章对随机游走的研究中,我们得出从$x_0$出发,$t$时间后,走到$x_n$处的概率密度为
$$\frac{1}{\sqrt{2\pi \alpha T}}\exp\left(-\frac{(x_n-x_0)^2}{2\alpha t}\right).\tag{22}$$
这是某时刻某点到另一个时刻另一点的概率,在数学上,我们称之为扩散方程$(21)$的传播子,或者Green函数.

点击阅读全文...

8 Jul

【个人翻译】变暖的地球对冷血动物来说过热?

翻译语录:
这是一篇关于气候变暖对变温动物的影响的文章。原文很长,来自“科学美国人”网站,本文有所删减。
在人类不断报道气候变化对人类所造成的影响的时候,自然界的其他生物也在受着气候的影响。也许,自然界的其他生物才是最大的受害者。无论如何,为了我们,为了自然,为了地球,为了后代,我们都应该自觉地去减少温室效应。只要人人都节约一点点,世界就会多一片绿色、一片蓝天!

点击阅读全文...