包含关键字生成扩散模型的文章 - 科学空间|Scientific Spaces

10 Dec

Muon优化器赏析：从向量到矩阵的本质跨越

By 苏剑林 | 2024-12-10 | 25691位读者 | 引用

随着LLM时代的到来，学术界对于优化器的研究热情似乎有所减退。这主要是因为目前主流的AdamW已经能够满足大多数需求，而如果对优化器“大动干戈”，那么需要巨大的验证成本。因此，当前优化器的变化，多数都只是工业界根据自己的训练经验来对AdamW打的一些小补丁。

不过，最近推特上一个名为“Muon”的优化器颇为热闹，它声称比AdamW更为高效，且并不只是在Adam基础上的“小打小闹”，而是体现了关于向量与矩阵差异的一些值得深思的原理。本文让我们一起赏析一番。

Muon与AdamW效果对比（来源：推特@Yuchenj_UW）

点击阅读全文...

分类：数学研究,信息时代标签：矩阵, 优化, 梯度, 优化器阅读全文 22 评论

25 Dec

从谱范数梯度到新式权重衰减的思考

By 苏剑林 | 2024-12-25 | 16177位读者 | 引用

在文章《Muon优化器赏析：从向量到矩阵的本质跨越》中，我们介绍了一个名为“Muon”的新优化器，其中一个理解视角是作为谱范数正则下的最速梯度下降，这似乎揭示了矩阵参数的更本质的优化方向。众所周知，对于矩阵参数我们经常也会加权重衰减（Weight Decay），它可以理解为$F$范数平方的梯度，那么从Muon的视角看，通过谱范数平方的梯度来构建新的权重衰减，会不会能起到更好的效果呢？

那么问题来了，谱范数的梯度或者说导数长啥样呢？用它来设计的新权重衰减又是什么样的？接下来我们围绕这些问题展开。

基础回顾

谱范数（Spectral Norm），又称“$2$范数”，是最常用的矩阵范数之一，相比更简单的$F$范数（Frobenius Norm），它往往能揭示一些与矩阵乘法相关的更本质的信号，这是因为它定义上就跟矩阵乘法相关：对于矩阵参数$\boldsymbol{W}\in\mathbb{R}^{n\times m}$，它的谱范数定义为

点击阅读全文...

分类：数学研究,信息时代标签：矩阵, 优化, 梯度, 优化器阅读全文抢沙发

4 Mar

我的自主招生成绩公布了

By 苏剑林 | 2012-03-04 | 41568位读者 | 引用

北大这次也太不够朋友了，华约、卓越的成绩昨天就已经出来了，北大的今天才查到（不知道它是昨晚公布还是今天早上公布的），着急等待了一整天。千呼万唤，总算出来了。

很遗憾地告诉大家，就目前的情况来看，北大自招是没戏了。271的总分，很难被通过...

自主招生成绩

点击阅读全文...

分类：生活/情感标签：竞赛阅读全文 6 评论

10 Oct

站长：因为10月8日就上学了，所以不能够及时上网查阅和更新文学奖和和平奖的消息。不过一直在用手机关注着，前天晚上7:00，就一直用手机关注着诺贝尔奖官方网站，最终发现德国人取得了文学奖。而昨天晚上，一个更加惊人的消息发出来了——2009年诺贝尔和平奖的得主竟然是Barack Obama！

太意外了！居然是我们熟悉的美国总统！世界各国也是这样的意外，然而，令人深思的应该是：颁布诺贝尔奖给奥巴马的主要原因，并非肯定奥巴马已经有的成就，应该是鼓励他带领美国为世界作出更大的贡献！由此观之，世界对这位美国总统的期望是十分大的！

中国网10月9日电据路透社报道，10月9日美国总统贝拉克·奥巴马(Barack Obama )因为世界和平所做的工作，以及呼吁削减世界核武库而赢得2009年诺贝尔和平奖。

奥巴马获2009年诺贝尔和平奖

点击阅读全文...

分类：千奇百怪标签：诺贝尔奖专题阅读全文抢沙发

24 Oct

扬帆——在宇宙的海洋中航行

By 苏剑林 | 2010-10-24 | 23220位读者 | 引用

以下内容来源于《天文爱好者》杂志2010年10期（作者庞统，责任编辑李良）。
作为消息通告和交流学习所用，请勿用于商业或其他非法用途
ikaros图片版权：ISAS / JAXA；其余来自互联网搜索得到。

2010年5月21曰，日本用H-2A火箭成功发射了耗资15亿曰元（合1600万美元）的“伊卡洛斯”太阳帆，以检验它是否能够利用太阳能实现加速飞行，从而拉开了研制和发射太阳帆式新型推进航天器高潮的序幕。2010年9月和年底，美国还将先后发射纳帆-D2和光帆-1太阳帆。

ikaros

点击阅读全文...

分类：天文探索标签：探测器, 转载, 辐射, 航天, 太阳帆, 光压, 光子阅读全文抢沙发

20 Mar

【福岛核电站】“最坏情况”有多坏？

By 苏剑林 | 2011-03-20 | 26287位读者 | 引用

Fukushima

福岛核电站已经好久没给我们带来好消息了，各种稀奇古怪的故障一个接着一个，越来越多的人也在考虑“最坏情况”的可能了，这次的碘盐恐慌似乎就是被所谓的“最坏情况”吓出来的。那么最坏到底能有多坏呢？

完整的评估太过复杂，咱就从比较简单的，也是目前我们很多人最关心的问题说起：放射性物质的泄露对海水最大到底能有多大的影响。这里我们主要拿这个风头正紧的碘 131 来开刀。

点击阅读全文...

分类：千奇百怪标签：转载, 松鼠会, 核能, 放射性阅读全文 2 评论

2 Jun

路径积分系列：3.路径积分

By 苏剑林 | 2016-06-02 | 77814位读者 | 引用

路径积分是量子力学的一种描述方法，源于物理学家费曼[5]，它是一种泛函积分，它已经成为现代量子理论的主流形式. 近年来，研究人员对它的兴趣愈发增加，尤其是它在量子领域以外的应用，出现了一些著作，如[7]. 但在国内了解路径积分的人并不多，很多量子物理专业的学生可能并没有听说过路径积分.

从数学角度来看，路径积分是求偏微分方程的Green函数的一种方法. 我们知道，在偏微分方程的研究中，如果能够求出对应的Green函数，那么对偏微分方程的研究会大有帮助，而通常情况下Green函数并不容易求解. 但构建路径积分只需要无穷小时刻的Green函数，因此形式和概念上都相当简单.

本章并没有新的内容，只是做了一个尝试：从随机游走问题出发，给出路径积分的一个简明而直接的介绍，展示了如何将抛物型的偏微分方程问题转化为路径积分形式.

从点的概率到路径的概率

在上一章对随机游走的研究中，我们得出从$x_0$出发，$t$时间后，走到$x_n$处的概率密度为
$$\frac{1}{\sqrt{2\pi \alpha T}}\exp\left(-\frac{(x_n-x_0)^2}{2\alpha t}\right).\tag{22}$$
这是某时刻某点到另一个时刻另一点的概率，在数学上，我们称之为扩散方程$(21)$的传播子，或者Green函数.

点击阅读全文...

分类：数学研究标签：微分方程, 路径积分, 费曼阅读全文 8 评论

8 Jul

【个人翻译】变暖的地球对冷血动物来说过热？

By 苏剑林 | 2009-07-08 | 34367位读者 | 引用

翻译语录：
这是一篇关于气候变暖对变温动物的影响的文章。原文很长，来自“科学美国人”网站，本文有所删减。
在人类不断报道气候变化对人类所造成的影响的时候，自然界的其他生物也在受着气候的影响。也许，自然界的其他生物才是最大的受害者。无论如何，为了我们，为了自然，为了地球，为了后代，我们都应该自觉地去减少温室效应。只要人人都节约一点点，世界就会多一片绿色、一片蓝天！