Muon优化器赏析:从向量到矩阵的本质跨越
By 苏剑林 | 2024-12-10 | 25691位读者 | 引用随着LLM时代的到来,学术界对于优化器的研究热情似乎有所减退。这主要是因为目前主流的AdamW已经能够满足大多数需求,而如果对优化器“大动干戈”,那么需要巨大的验证成本。因此,当前优化器的变化,多数都只是工业界根据自己的训练经验来对AdamW打的一些小补丁。
不过,最近推特上一个名为“Muon”的优化器颇为热闹,它声称比AdamW更为高效,且并不只是在Adam基础上的“小打小闹”,而是体现了关于向量与矩阵差异的一些值得深思的原理。本文让我们一起赏析一番。
从谱范数梯度到新式权重衰减的思考
By 苏剑林 | 2024-12-25 | 16177位读者 | 引用在文章《Muon优化器赏析:从向量到矩阵的本质跨越》中,我们介绍了一个名为“Muon”的新优化器,其中一个理解视角是作为谱范数正则下的最速梯度下降,这似乎揭示了矩阵参数的更本质的优化方向。众所周知,对于矩阵参数我们经常也会加权重衰减(Weight Decay),它可以理解为$F$范数平方的梯度,那么从Muon的视角看,通过谱范数平方的梯度来构建新的权重衰减,会不会能起到更好的效果呢?
那么问题来了,谱范数的梯度或者说导数长啥样呢?用它来设计的新权重衰减又是什么样的?接下来我们围绕这些问题展开。
基础回顾
谱范数(Spectral Norm),又称“$2$范数”,是最常用的矩阵范数之一,相比更简单的$F$范数(Frobenius Norm),它往往能揭示一些与矩阵乘法相关的更本质的信号,这是因为它定义上就跟矩阵乘法相关:对于矩阵参数$\boldsymbol{W}\in\mathbb{R}^{n\times m}$,它的谱范数定义为
我的自主招生成绩公布了
By 苏剑林 | 2012-03-04 | 41568位读者 | 引用居然是他!奥巴马获得2009年诺贝尔和平奖!
By 苏剑林 | 2009-10-10 | 20756位读者 | 引用站长:因为10月8日就上学了,所以不能够及时上网查阅和更新文学奖和和平奖的消息。不过一直在用手机关注着,前天晚上7:00,就一直用手机关注着诺贝尔奖官方网站,最终发现德国人取得了文学奖。而昨天晚上,一个更加惊人的消息发出来了——2009年诺贝尔和平奖的得主竟然是Barack Obama!
太意外了!居然是我们熟悉的美国总统!世界各国也是这样的意外,然而,令人深思的应该是:颁布诺贝尔奖给奥巴马的主要原因,并非肯定奥巴马已经有的成就,应该是鼓励他带领美国为世界作出更大的贡献!由此观之,世界对这位美国总统的期望是十分大的!
中国网10月9日电 据路透社报道,10月9日美国总统贝拉克·奥巴马(Barack Obama )因为世界和平所做的工作,以及呼吁削减世界核武库而赢得2009年诺贝尔和平奖。
扬帆——在宇宙的海洋中航行
By 苏剑林 | 2010-10-24 | 23220位读者 | 引用【福岛核电站】“最坏情况”有多坏?
By 苏剑林 | 2011-03-20 | 26287位读者 | 引用路径积分系列:3.路径积分
By 苏剑林 | 2016-06-02 | 77814位读者 | 引用路径积分是量子力学的一种描述方法,源于物理学家费曼[5],它是一种泛函积分,它已经成为现代量子理论的主流形式. 近年来,研究人员对它的兴趣愈发增加,尤其是它在量子领域以外的应用,出现了一些著作,如[7]. 但在国内了解路径积分的人并不多,很多量子物理专业的学生可能并没有听说过路径积分.
从数学角度来看,路径积分是求偏微分方程的Green函数的一种方法. 我们知道,在偏微分方程的研究中,如果能够求出对应的Green函数,那么对偏微分方程的研究会大有帮助,而通常情况下Green函数并不容易求解. 但构建路径积分只需要无穷小时刻的Green函数,因此形式和概念上都相当简单.
本章并没有新的内容,只是做了一个尝试:从随机游走问题出发,给出路径积分的一个简明而直接的介绍,展示了如何将抛物型的偏微分方程问题转化为路径积分形式.
从点的概率到路径的概率
在上一章对随机游走的研究中,我们得出从$x_0$出发,$t$时间后,走到$x_n$处的概率密度为
$$\frac{1}{\sqrt{2\pi \alpha T}}\exp\left(-\frac{(x_n-x_0)^2}{2\alpha t}\right).\tag{22}$$
这是某时刻某点到另一个时刻另一点的概率,在数学上,我们称之为扩散方程$(21)$的传播子,或者Green函数.
最近评论