标签优化器下的文章 - 科学空间|Scientific Spaces

26 Dec

让炼丹更科学一些（四）：新恒等式，新学习率

By 苏剑林 | 2025-12-26 | 5212位读者 | 引用

上篇文章《让炼丹更科学一些（三）：SGD的终点损失收敛》中我们成功将收敛结论从平均损失转化成终点损失，得到了$\mathcal{O}(\sqrt{\ln T/T})$的收敛速度。然而，仔细思考之下我们会发现这个结果其实不大符合直觉：按照经验，终点损失应该更接近最优值才对，平均损失的收敛速度都能做到$\mathcal{O}(1/\sqrt{T})$，怎么终点收敛速度反而更慢呢？

这个问题的最新进展是《Optimal Linear Decay Learning Rate Schedules and Further Refinements》，论文先推广了之前证明的关键恒等式，然后指出学习率调度对终点收敛的重要性，由此将终点损失的收敛加速至$\mathcal{O}(1/\sqrt{T})$。

新恒等式

原论文的结果很丰富，我们将分多篇文章介绍，这篇文章主要顺着上一篇的思路先做个初步介绍。为了将平均损失的收敛结论转换成终点损失，上一篇文章引入的关键恒等式是
\begin{equation}q_T = \frac{1}{T}\sum_{t=1}^T q_t + \sum_{k=1}^{T-1} \frac{1}{k(k+1)}\sum_{t=T-k}^T (q_t - q_{T-k})\end{equation}

点击阅读全文...

分类：数学研究标签：学习率, 优化器, sgd, 炼丹阅读全文 3 评论

16 Dec

让炼丹更科学一些（三）：SGD的终点损失收敛

By 苏剑林 | 2025-12-16 | 7128位读者 | 引用

目前我们已经有两篇文章讨论SGD的收敛性质，不过它们都只是损失值的收敛结果，所以它们只保证我们能找到最优的损失值，但不能保证找到最优值的所在位置$\boldsymbol{\theta}^*$，这是目前的结论跟实践之间的一个显著gap。直觉上，训练结束时的权重$\boldsymbol{\theta}_T$应该更接近理论最优的$\boldsymbol{\theta}^*$，我们也想知道理论上是否支撑这一点。

所以，这篇文章我们就将平均损失的收敛结果转化为终点损失的收敛结果，初步从理论上了解$\boldsymbol{\theta}_T$与$\boldsymbol{\theta}^*$差多远。

找出位置

我们从文章《让炼丹更科学一些（二）：将结论推广到无界域》出发，它的核心结果是不等式
\begin{equation}\sum_{t=1}^T \eta_t \mathbb{E}[L(\boldsymbol{\theta}_t) - L(\boldsymbol{\varphi})]\leq \frac{\Vert\boldsymbol{\theta}_1 - \boldsymbol{\varphi}\Vert^2}{2} + \frac{G^2}{2}\sum_{t=1}^T \eta_t^2\label{leq:avg-2-mid3}\end{equation}

点击阅读全文...

分类：数学研究标签：不等式, 优化器, sgd, 炼丹阅读全文 5 评论

12 Dec

让炼丹更科学一些（二）：将结论推广到无界域

By 苏剑林 | 2025-12-12 | 8500位读者 | 引用

两年前，笔者打算开一个“科学炼丹”专题，本想着系统整理一下优化器的经典理论结果，但写了第一篇《让炼丹更科学一些（一）：SGD的平均损失收敛》后，就一直搁置至今。主要原因在于，笔者总觉得这些经典优化结论所依赖的条件过于苛刻，跟实际应用相去甚远，尤其是进入LLM时代后，这些结论的参考价值似乎更加有限，所以就没什么动力继续写下去。

然而，近期在思考Scaling Law的相关问题时，笔者发现这些结论结果并非想象中那么“没用”，它可以为一些经验结果提供有益的理论洞见。因此，本文将重启该系列，继续推进这个专题文章的撰写，“偿还”之前欠下的“债务”。

结论回顾

记号方面我们沿用第一篇文章的，所以不再重复记号的介绍。第一篇文章的主要结论是：在适当的假设之下，SGD成立
\begin{equation}\frac{1}{T}\sum_{t=1}^T L(\boldsymbol{x}_t,\boldsymbol{\theta}_t) - \frac{1}{T}\sum_{t=1}^T L(\boldsymbol{x}_t,\boldsymbol{\theta}^*)\leq \frac{R^2}{2T\eta_T} + \frac{G^2}{2T}\sum_{t=1}^T\eta_t\label{leq:avg-1}\end{equation}

点击阅读全文...

分类：数学研究标签：不等式, 优化器, sgd, 炼丹阅读全文 3 评论

19 Nov

Muon优化器指南：快速上手与关键细节

By 苏剑林 | 2025-11-19 | 29340位读者 | 引用

这段时间，相信很多读者已经刷到过Muon优化器的相关消息。实际上，Muon的提出时间大致是去年的10月份，由 Keller Jordan 在推特上提出，距今也不过一年多一点。然而，就在这一年里，Muon已经经历了百亿、千亿乃至万亿参数模型的训练考验，足以表明它是一个相当有竞争力的优化器。

如今，Muon已经内置在Torch、Keras等训练框架中，就连Megatron这样的大型框架也逐渐开始支持，这意味它已经获得了业界的普遍认可。不过，对于仅熟悉Adam的读者来说，如何快速有效地切换到Muon，可能依然是一件让人困惑的事情。所以，本文试图给出一个快速上手教程。

简要介绍

Muon的正式提出者是 Keller Jordan ，目前任职于OpenAI。开头说了，Muon最早发表在推特上，而直到现在，作者也只是多写了篇博客《Muon: An optimizer for hidden layers in neural networks》而不是一篇Paper，作者的观点是“是否写成Paper，跟优化器是否有效，没有任何关系^[原文]”。

点击阅读全文...

分类：信息时代标签：矩阵, 优化, 优化器, muon 阅读全文 27 评论

17 Nov

AdamW的Weight RMS的渐近估计（下）

By 苏剑林 | 2025-11-17 | 13055位读者 | 引用

在博客《AdamW的Weight RMS的渐近估计（上）》中，我们推导了AdamW训练出来的模型权重的RMS渐近表达式。不过，那会我们假设了Weight Decay和学习率在整个训练过程中是固定的，这跟实际训练并不完全吻合，所以这篇文章我们将之前的结论推广成动态版。

所谓动态版，即允许Weight Decay和学习率都随着训练步数的增加而变化，比如经典的Cosine Decay、WSD（Warmup Stable Decay）等，从而让结论更为通用。

步骤之一

我们的出发点还是AdamW的定义：
\begin{equation}\text{Adam}\color{skyblue}{\text{W}}:=\left\{\begin{aligned}
&\boldsymbol{m}_t = \beta_1 \boldsymbol{m}_{t-1} + \left(1 - \beta_1\right) \boldsymbol{g}_t\\
&\boldsymbol{v}_t = \beta_2 \boldsymbol{v}_{t-1} + \left(1 - \beta_2\right) \boldsymbol{g}_t^2\\
&\hat{\boldsymbol{m}}_t = \boldsymbol{m}_t\left/\left(1 - \beta_1^t\right)\right.\\
&\hat{\boldsymbol{v}}_t = \boldsymbol{v}_t\left/\left(1 - \beta_2^t\right)\right.\\
&\boldsymbol{u}_t =\hat{\boldsymbol{m}}_t\left/\left(\sqrt{\hat{\boldsymbol{v}}_t} + \epsilon\right)\right.\\
&\boldsymbol{\theta}_t = \boldsymbol{\theta}_{t-1} - \eta_t (\boldsymbol{u}_t \color{skyblue}{ + \lambda_t \boldsymbol{\theta}_{t-1}})
\end{aligned}\right.\end{equation}

点击阅读全文...

分类：数学研究标签：微分方程, 估计, 梯度, 优化器, 平均场阅读全文抢沙发

3 Nov

流形上的最速下降：5. 对偶梯度下降

By 苏剑林 | 2025-11-03 | 20421位读者 | 引用

前四篇文章我们求解了几个具体的给参数加等式约束的最速下降问题，其中第三、四篇的问题没法找到解析解，所以笔者提出了相应的不动点迭代法。其中的其中，第三篇文章《流形上的最速下降：3. Muon + Stiefel》所研究的“Stiefel流形上的Muon”，问题提出自Jeremy Bernstein的《Orthogonal manifold》一文。

对于这个问题，Jeremy Bernstein最后也给出了一个自己的解法，笔者称之为“对偶梯度下降（Dual Gradient Descent）”，也颇为值得学习一番。

基本概念

Jeremy Bernstein的解法，最后发表在Thinking Machines Lab的博客《Modular Manifolds》中，是该实验室的第二篇博客，文章中将它称为“对偶上升（Dual Ascent）”，但笔者这里还是结合前四篇的内容，将其称为“对偶梯度下降”。

点击阅读全文...

分类：数学研究标签：矩阵, 优化器, muon, 约束, 最速下降阅读全文 4 评论

21 Oct

MuP之上：1. 好模型的三个特征

By 苏剑林 | 2025-10-21 | 23868位读者 | 引用

不知道大家有没有发现一个有趣的细节，Muon和MuP都是“Mu”开头，但两个“Mu”的原意完全不一样，前者是“MomentUm Orthogonalized by Newton-Schulz”，后者是“Maximal Update Parametrization”，可它们俩之间确实有着非常深刻的联系。也就是说，Muon和MuP有着截然不同的出发点，但最终都走向了相同的方向，甚至无意间取了相似的名字，似乎真应了那句“冥冥中自有安排”。

言归正传。总之，笔者在各种机缘巧合之下，刚好同时学习到了Muon和MuP，这大大加深了笔者对模型优化的理解，同时也让笔者开始思考关于模型优化更本质的原理。经过一段时间的试错，算是有些粗浅的收获，在此跟大家分享一下。

写在前面

按照提出时间的先后顺序，是先有MuP再有Muon，但笔者的学习顺序正好反过来，先学习了Muon然后再学习MuP，事后来看，这也不失为一个不错的学习顺序。

点击阅读全文...

分类：信息时代标签：优化, 优化器, 尺度定律, MuP 阅读全文 4 评论

1 Oct

AdamW的Weight RMS的渐近估计（上）

By 苏剑林 | 2025-10-01 | 24532位读者 | 引用

在《为什么Adam的Update RMS是0.2？》中，我们用平均场近似估计了Adam的Update RMS。不久后，读者 @EIFY 指出相同的结果已经出现在论文《Rotational Equilibrium: How Weight Decay Balances Learning Across Neural Networks》中。阅读后，笔者发现其中不仅包含了Update RMS的估计，还包含了Weight RMS的估计。

也就是说，AdamW训出来的模型，其权重的RMS是可以事先估计出来一个渐近结果的。大家会不会觉得这个结论有点意外？反正笔者第一次看到它是颇为意外的，直觉上权重模长是模型根据训练集自己学出来的，结果它告诉我这已经隐藏在优化器的超参中，可谓很反直觉了。

这篇文章我们还是用平均场近似方法，来复现对Weight RMS的渐近估计。

点击阅读全文...

分类：数学研究标签：估计, 梯度, 优化器, 平均场阅读全文 2 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前32岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

让炼丹更科学一些（四）：新恒等式，新学习率

新恒等式

让炼丹更科学一些（三）：SGD的终点损失收敛

找出位置

让炼丹更科学一些（二）：将结论推广到无界域

结论回顾

Muon优化器指南：快速上手与关键细节

简要介绍

AdamW的Weight RMS的渐近估计（下）

步骤之一

流形上的最速下降：5. 对偶梯度下降

基本概念

MuP之上：1. 好模型的三个特征

写在前面

AdamW的Weight RMS的渐近估计（上）

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接