标签 MuP 下的文章 - 科学空间|Scientific Spaces

2 Mar

MuP之上：3. 特殊情况特殊处理

By 苏剑林 | 2026-03-02 | 3180位读者 | 引用

经过那么多篇相关博客的介绍，想必很多读者都对Muon优化器并不陌生——即便不清楚理论细节，应该也留下了一个“专为矩阵参数定制的优化器”的印象。然而，这个说法并不全对——比如对于输入端的Embedding层和输出段的LM Head来说，它们的参数虽然也都是矩阵，但并不适合用Muon（参考《Muon优化器指南：快速上手与关键细节》）。

为什么它们要被“区别对待”呢？本文将沿用首篇提出的三个稳定性指标，探讨不同类型的层的初始化规律及其对应的最速下降方向，从而回答这个问题。

前情回顾

在第一篇文章《MuP之上：1. 好模型的三个特征》中，我们提出了三个稳定性指标

点击阅读全文...

分类：信息时代标签：不等式, 矩阵, 线性, 优化器, MuP 阅读全文 3 评论

15 Feb

MuP之上：2. 线性层与最速下降

By 苏剑林 | 2026-02-15 | 3313位读者 | 引用

在上一篇文章《MuP之上：1. 好模型的三个特征》中，我们提出了前向稳定性、依赖稳定性、更新稳定性这三个核心指标，并给出了相应的数学定义。同时，我们提出以它们是否满足$\Theta(1)$来刻画一个模型的好坏，这将作为我们后续分析和计算的理论基石。接下来，我们将会把它们跟最速下降思想结合，给每个参数定制“稳中求快”的更新规则。

\begin{align}
&\text{前向稳定性:}\quad\max_{\boldsymbol{x}} \Vert \boldsymbol{f}(\boldsymbol{x};\boldsymbol{\omega})\Vert_{RMS} = \Theta(1) \label{eq:c1} \\[5pt]
&\text{依赖稳定性:}\quad\max_{\boldsymbol{x}_1,\boldsymbol{x}_2} \Vert \boldsymbol{f}(\boldsymbol{x}_1;\boldsymbol{\omega}) - \boldsymbol{f}(\boldsymbol{x}_2;\boldsymbol{\omega})\Vert_{RMS} = \Theta(1) \label{eq:c2} \\[5pt]
&\text{更新稳定性:}\quad\max_{\boldsymbol{x}} \Vert \boldsymbol{f}(\boldsymbol{x};\boldsymbol{\omega} + \Delta\boldsymbol{\omega}) - \boldsymbol{f}(\boldsymbol{x};\boldsymbol{\omega})\Vert_{RMS} = \Theta(1) \label{eq:c3}
\end{align}

我们以线性层作为第一个例子，其结果对部分读者来说应该不陌生，它就是去年逐渐兴起的Muon优化器。当然，我们的目的并不是重新发现Muon，而是展示从第一性原理出发来设计模型和优化器的过程，为我们后续处理其他参数提供统一的方法论。

点击阅读全文...

分类：信息时代标签：矩阵, 线性, 优化器, muon, MuP 阅读全文 2 评论

21 Oct

MuP之上：1. 好模型的三个特征

By 苏剑林 | 2025-10-21 | 27212位读者 | 引用

不知道大家有没有发现一个有趣的细节，Muon和MuP都是“Mu”开头，但两个“Mu”的原意完全不一样，前者是“MomentUm Orthogonalized by Newton-Schulz”，后者是“Maximal Update Parametrization”，可它们俩之间确实有着非常深刻的联系。也就是说，Muon和MuP有着截然不同的出发点，但最终都走向了相同的方向，甚至无意间取了相似的名字，似乎真应了那句“冥冥中自有安排”。

言归正传。总之，笔者在各种机缘巧合之下，刚好同时学习到了Muon和MuP，这大大加深了笔者对模型优化的理解，同时也让笔者开始思考关于模型优化更本质的原理。经过一段时间的试错，算是有些粗浅的收获，在此跟大家分享一下。

写在前面

按照提出时间的先后顺序，是先有MuP再有Muon，但笔者的学习顺序正好反过来，先学习了Muon然后再学习MuP，事后来看，这也不失为一个不错的学习顺序。

点击阅读全文...

分类：信息时代标签：优化, 优化器, 尺度定律, MuP 阅读全文 4 评论

24 Mar

高阶MuP：更简明但更高明的谱条件缩放

By 苏剑林 | 2025-03-24 | 46062位读者 | 引用

在文章《初探MuP：超参数的跨模型尺度迁移规律》中，我们基于前向传播、反向传播、损失增量和特征变化的尺度不变性推导了MuP（Maximal Update Parametrization）。可能对于部分读者来说，这一过程还是显得有些繁琐，但实际上它比原始论文已经明显简化。要知道，我们是在单篇文章内相对完整地介绍的MuP，而MuP的论文实际上是作者Tensor Programs系列论文的第5篇！

不过好消息是，作者在后续的研究《A Spectral Condition for Feature Learning》中，发现了一种新的理解方式（下称“谱条件”），它比MuP的原始推导和笔者的推导都更加直观和简洁，但却能得到比MuP更丰富的结果，可谓MuP的高阶版本，简明且不失高明的代表作。

准备工作

顾名思义，谱条件（Spectral Condition）跟谱范数（Spectral Norm）相关，它的出发点是谱范数的一个基本不等式：
\begin{equation}\Vert\boldsymbol{x}\boldsymbol{W}\Vert_2\leq \Vert\boldsymbol{x}\Vert_2 \Vert\boldsymbol{W}\Vert_2\label{neq:spec-2}\end{equation}

点击阅读全文...

分类：数学研究标签：梯度, 优化器, 尺度定律, 谱范数, muon, MuP 阅读全文 24 评论

13 Mar

初探MuP：超参数的跨模型尺度迁移规律

By 苏剑林 | 2025-03-13 | 45474位读者 | 引用

众所周知，完整训练一次大型LLM的成本是昂贵的，这就决定了我们不可能直接在大型LLM上反复测试超参数。一个很自然的想法是希望可以在同结构的小模型上仔细搜索超参数，找到最优组合后直接迁移到大模型上。尽管这个想法很朴素，但要实现它并不平凡，它需要我们了解常见的超参数与模型尺度之间的缩放规律，而MuP正是这个想法的一个实践。

MuP，有时也写$\mu P$，全名是Maximal Update Parametrization，出自论文《Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer》，随着LLM训练的普及，它逐渐已经成为了科学炼丹的事实标配之一。

方法大意

在接入主题之前，必须先吐槽一下MuP原论文写得实在太过晦涩，并且结论的表达也不够清晰，平白增加了不少理解难度，所以接下来笔者尽量以一种（自认为）简明扼要的方式来复现MuP的结论。

点击阅读全文...

分类：数学研究标签：梯度, 学习率, 优化器, 尺度定律, MuP 阅读全文 13 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前33岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

MuP之上：3. 特殊情况特殊处理

前情回顾

MuP之上：2. 线性层与最速下降

MuP之上：1. 好模型的三个特征

写在前面

高阶MuP：更简明但更高明的谱条件缩放

准备工作

初探MuP：超参数的跨模型尺度迁移规律

方法大意

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接