21 Feb

MoE环游记：2、不患寡而患不均

By 苏剑林 | 2025-02-21 | 79086位读者 |

在上一篇文章《MoE环游记：1、从几何意义出发》中，我们介绍了MoE的一个几何诠释，旨在通过Dense模型的最佳逼近出发来推导和理解MoE。同时在文末我们也说了，给出MoE的计算公式仅仅是开始，训练一个实际有效的MoE模型还有很多细节补，比如本文要讨论的负载均衡（Load Balance）问题。

负载均衡，即“不患寡而患不均”，说白了就是让每个Expert都在干活，并且都在干尽可能一样多的活，避免某些Expert浪费算力。负载均衡既是充分利用训练算力的需求，也是尽可能发挥MoE大参数量潜力的需求。

需求分析 #

我们知道，MoE的基本形式是
\begin{equation}\boldsymbol{y} = \sum_{i\in \mathop{\text{argtop}}_k \boldsymbol{\rho}} \rho_i \boldsymbol{e}_i\end{equation}
对于传统MoE，$\boldsymbol{\rho}$是一个概率分布（Router），$\boldsymbol{e}_i=\boldsymbol{v}_i$，$\boldsymbol{v}_i$是一个小型FFN（Expert）的输出；而对于我们上一篇推导的几何MoE，$\boldsymbol{\rho}$没有归一化的要求，它预测的是Expert的模长，而$\boldsymbol{e}_i=\boldsymbol{v}_i/\Vert\boldsymbol{v}_i\Vert$预测的是Expert的方向。

不管哪种格式的MoE，实际表现都差不多，只是理解视角的不同。但要注意，虽然MoE的公式给人的感觉是“每遇到一个Token，就去找相应的Expert来计算”，但实际训练时其实是反过来的：先给每个Expert分配好相应的算力，然后将Token分配（Route）到所属的Expert中并行计算，这也就为什么负责打分的$\boldsymbol{\rho}$被称为Router。

这样一来，如果Expert的分配不均衡，就可能出现如下局面：某些Expert（Dead Expert）几乎一直闲置，浪费算力；某些Expert要处理的Token太多，根本忙不过来，只能Token Drop（即放弃处理部分Token）。从理论上来说，出现Dead Expert意味着MoE没有达到预期的参数量，即花了大参数量的显存，结果只训出来小参数量的效果。

所以，不管是从训练还是性能角度看，我们都希望保证Expert的负载均衡。

辅助损失 #

促进负载均衡的常规思路是添加与之相关的损失函数，我们通常称之为“Aux Loss（Auxiliary Loss）”，目前主流用的Aux Loss最早可以追溯到2020年的《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》。

介绍Aux Loss之前，我们需要先引入一些新概念。首先，我们已经提到对于一般的MoE来说，$\boldsymbol{\rho}$未必是概率分布，我们将归一化的$\boldsymbol{\rho}$记为$\boldsymbol{p}=[p_1,p_2,\cdots,p_n]$，以及它Top-$k$版为$\boldsymbol{f}=[f_1,f_2,\cdots,f_n]$，其中
\begin{equation}p_i = \frac{\rho_i}{\sum_{i=1}^n \rho_i},\qquad f_i = \left\{\begin{aligned}1/k, \quad i\in \mathop{\text{argtop}}\nolimits_k \boldsymbol{\rho} \\
0, \quad i\not\in \mathop{\text{argtop}}\nolimits_k \boldsymbol{\rho}\end{aligned}\right.\end{equation}
接着我们定义$\boldsymbol{P}=\mathbb{E}[\boldsymbol{p}],\boldsymbol{F}=\mathbb{E}[\boldsymbol{f}]$，这里的$\mathbb{E}$是指对所有样本的所有Token做平均。不难看出，$\boldsymbol{F}$就是Expert当前的负载分布，而$\boldsymbol{P}$则相当于$\boldsymbol{F}$的一个光滑近似。

有了这些记号，我们就可以写出Aux Loss为：
\begin{equation}\mathcal{L}_{\text{aux}} = \boldsymbol{F}\cdot \boldsymbol{P} = \sum_{i=1}^n F_i P_i\label{eq:aux-loss}\end{equation}
一般文献定义Aux Loss会多乘一个$n$，即它们的Aux Loss等于这里的$n \mathcal{L}_{\text{aux}}$。此外，有些大型MoE可能会按设备来算Aux Loss，以达到设备内的均衡，减少设备间的通信，这些就各自发挥了。但也有较新的实验显示，强行局部均衡极有可能影响模型最终效果。

直通估计 #

不知道大家有没有发现一个奇怪的现象：不管是最早出处、后续文献还是科普文章，总之笔者阅读过的资料中，对Aux Loss的引用都是不加证明的，似乎大家都公认上述Aux Loss能促进均衡是一件显然成立的事情。可真有这么显然易得吗？

反正笔者是没看出来，所以接下来笔者给出式$\eqref{eq:aux-loss}$的一种推导思路，由此思路我们还可以自定义其他形式的Aux Loss。首先，定义均匀分布$\boldsymbol{Q}=(1/n,1/n,\cdots,1/n)$，刚才我们说了$\boldsymbol{F}$就是当前负载分布，因此负载均衡等价于$\boldsymbol{F}=\boldsymbol{Q}$，那么下式就是一个比较直观的Aux Loss：
\begin{equation}\mathcal{L}_{\text{aux}} = \frac{1}{2}\Vert\boldsymbol{F} - \boldsymbol{Q}\Vert^2 = \frac{1}{2}\sum_{i=1}^n (F_i - 1/n)^2\label{eq:aux-loss-2}\end{equation}
问题是$\boldsymbol{F}$是由$\mathop{\text{argtop}}_k$出来的，这意味着上式并不是一个能直接用的可导目标。怎么解决这个问题呢？答案是STE（Straight-Through Estimator）技巧，分别设计前向传播和反向传播的函数。具体来说，$\boldsymbol{F}$不可导，$\boldsymbol{P}$作为它的光滑近似是可导的，那么我们在反向传播的时候将$\boldsymbol{F}$替换成$\boldsymbol{P}$就行了，即
\begin{equation}\mathcal{L}_{\text{aux}} = \frac{1}{2}\Vert \boldsymbol{P} + \text{sg}[\boldsymbol{F}-\boldsymbol{P}] - \boldsymbol{Q}\Vert^2 = \frac{1}{2}\sum_{i=1}^n (P_i + \text{sg}[F_i - P_i] - 1/n)^2\label{eq:aux-loss-3}\end{equation}
其中$\text{sg}[]$是stop gradient算子，特点是保持前向输出不变，但强制梯度为零。这样改动之后，$\mathcal{L}_{\text{aux}}$就是一个切实可行的Aux Loss了，我们可以试求一下它的梯度：
\begin{equation}\begin{aligned}
\nabla_{\boldsymbol{\theta}}\mathcal{L}_{\text{aux}} =&\, \frac{1}{2}\nabla_{\boldsymbol{\theta}}\sum_{i=1}^n (P_i + \text{sg}[F_i - P_i] - 1/n)^2 \\
=&\, \sum_{i=1}^n (P_i + \text{sg}[F_i - P_i] - 1/n) \nabla_{\boldsymbol{\theta}}(P_i + \text{sg}[F_i - P_i] - 1/n)\\
=&\, \sum_{i=1}^n (F_i - 1/n) \nabla_{\boldsymbol{\theta}}P_i = \nabla_{\boldsymbol{\theta}}\sum_{i=1}^n (F_i - 1/n) P_i\\
=&\, \nabla_{\boldsymbol{\theta}}\left(\sum_{i=1}^n F_i P_i\right)
\end{aligned}\end{equation}
这里$\boldsymbol{\theta}$是模型参数。最后的结果表明式$\eqref{eq:aux-loss-3}$的梯度等于式$\eqref{eq:aux-loss}$梯度，这意味着用式$\eqref{eq:aux-loss}$作为Aux Loss跟式$\eqref{eq:aux-loss-3}$在梯度上是等价的，所以就出现了式$\eqref{eq:aux-loss}$的Aux Loss。

然而，式$\eqref{eq:aux-loss}$只有等效梯度的意义，但没有Loss的意义，不算一个真正的Loss，比如当$\boldsymbol{F} = \boldsymbol{P}$时我们可以算出式$\eqref{eq:aux-loss}$等于$1/n$，但实际上我们可以构造出一个不等于$\boldsymbol{P}$的$\boldsymbol{F}$让它小于$1/n$，所以式$\eqref{eq:aux-loss}$并不是像正常的Loss一样越小越好，最小值也不是$\boldsymbol{F} = \boldsymbol{P}$时取到。

一般形式 #

上述推导实际上提供了构建Aux Loss的一般思路：首先基于$\boldsymbol{F}$构建符合要求的损失，然后在实现时将$\boldsymbol{F}$替换成$\boldsymbol{P} + \text{sg}[\boldsymbol{F}-\boldsymbol{P}]$。比如，我们知道最大熵也可以将分布推向均衡，因此也可以用熵的相反数来构建Aux Loss：
\begin{equation}\mathcal{L}_{\text{aux}} = \sum_{i=1}^n (P_i + \text{sg}[F_i - P_i])\log(P_i + \text{sg}[F_i - P_i])\end{equation}
上式就可以直接用作代码实现，当然如果我们追求简化，也可以类似地求梯度，结果将是
\begin{equation}\nabla_{\boldsymbol{\theta}}\mathcal{L}_{\text{aux}} = \nabla_{\boldsymbol{\theta}}\sum_{i=1}^n(P_i + \text{sg}[F_i - P_i]) \log(P_i + \text{sg}[F_i - P_i]) = \nabla_{\boldsymbol{\theta}}\sum_{i=1}^n P_i \log F_i\end{equation}
两次简化梯度的过程中，我们都用到了如下恒等式
\begin{equation}\sum_{i=1}^n \nabla_{\boldsymbol{\theta}}P_i = \nabla_{\boldsymbol{\theta}}\sum_{i=1}^n P_i = \nabla_{\boldsymbol{\theta}}1 = \boldsymbol{0}\end{equation}
这依赖于$\boldsymbol{P}$是一个概率分布，以及目标分布$\boldsymbol{Q}$是均匀分布的事实。而如果我们不追求简化后的等价结果，而是直接用$\boldsymbol{F}\to \boldsymbol{P} + \text{sg}[\boldsymbol{F}-\boldsymbol{P}]$形式的Aux Loss，那么可以不受这两个约束。

比如，$\boldsymbol{P}$作为$\boldsymbol{F}$光滑近似这一点，我们只用到了“$P_i$大$F_i$通常也大”的性质，所以用非归一化的$\mathbb{E}[\boldsymbol{\rho}]$作为$\boldsymbol{P}$通常也没问题，这一点在一些特殊场景（例如有正有负的$\boldsymbol{\rho}$）可能会比较关键，因为此时无法归一化为概率分布。又比如目标$\Vert\boldsymbol{F} - \boldsymbol{Q}\Vert^2$，显然能将$\boldsymbol{F}$推向任意我们想要的、不一定是均匀的目标分布$\boldsymbol{Q}$。

文章小结 #

本文介绍了MoE的负载均衡问题，并给出了一种构建Aux Loss的一般思路。除了Aux Loss外，促进负载均衡还有一些其他方案，我们下回再谈。

转载到请包括本文地址：https://kexue.fm/archives/10735

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Feb. 21, 2025). 《MoE环游记：2、不患寡而患不均》[Blog post]. Retrieved from https://kexue.fm/archives/10735

@online{kexuefm-10735,
        title={MoE环游记：2、不患寡而患不均},
        author={苏剑林},
        year={2025},
        month={Feb},
        url={\url{https://kexue.fm/archives/10735}},
}

分类：数学研究,信息时代标签：损失函数, 梯度, 稀疏, moe 41 评论

< 生成扩散模型漫谈（二十九）：用DDPM来离散编码 | Muon续集：为什么我们选择尝试Muon？ >

你也许还对下面的内容感兴趣

发表你的看法

actact

February 21st, 2025

式6的1/n好像在过程中与$F_i$不产生关联，且只要令Q之和为1或Q=0，梯度都是$2\nabla_{\boldsymbol{\theta}}\left(\sum_{i=1}^n F_i P_i\right) $。所以把F推向任意分布的梯度都是一样的、等价的？

回复评论

苏剑林发表于 February 22nd, 2025

那肯定不是。一般的$\nabla_{\boldsymbol{\theta}}\sum\limits_{i=1}^n P_i Q_i$并不是$\boldsymbol{0}$，而是$Q_i=1/n$时刚好有
$$\nabla_{\boldsymbol{\theta}}\sum_{i=1}^n P_i Q_i = \frac{1}{n}\nabla_{\boldsymbol{\theta}}\sum_{i=1}^n P_i = \frac{1}{n}\nabla_{\boldsymbol{\theta}}1 = \boldsymbol{0} $$

回复评论

毛毛哥

February 24th, 2025

请教一下苏神，可以这么理解吗？
Pi表示当前所有专家的负载分布，Fi表示是否选择该专家，选取其中k个专家，那么L_aux表示目前被选专家整体的一个负载之和。

回复评论

Kaze 发表于 February 25th, 2025

我感觉就像是让topK对应的专家的负载尽量小，就能达到负载均衡

回复评论

jorjiang 发表于 March 6th, 2025

topk对应专家的负载只和就是所有要处理的token数，即$bs\times seqlen$，是个常数，你怎么让他尽量小？

回复评论

苏剑林发表于 February 28th, 2025

不可以，$\boldsymbol{F}$才是当前专家的分配情况，$\boldsymbol{P}$是Router的打分情况。用考试来类比的话，$\boldsymbol{F}$是每一科的及格率，$\boldsymbol{P}$是每一科的平均分。

回复评论

RmZeta2718

February 25th, 2025

这个slide的第19页构造了一个反例，使得非均匀分布可以达到比均匀分布更小的$\mathcal L_\mathrm{aux}$。不知道苏老师如何看待这个现象。

https://www.cs.princeton.edu/courses/archive/fall22/cos597G/lectures/lec16.pdf

实际上可以证明，$\sum F_i^2,\sum P_i^2$ 在均匀分布下是最小的（由于$\sum F_i=\sum P_i=1$），显然上面的反例说明 $\sum F_iP_i$ 不一定在均匀分布下最小。为了可导，是不是优化 $\mathcal L_\mathrm{aux}=\sum P_i^2$ 是理论上最优的？

回复评论

Kuo 发表于 February 26th, 2025

我理解，这里不是要找到一个具有最小值的分布，而是$F$在特定分布设定下，推动$P$向$F$靠近，至于$F$怎么弄，看具体工程实现

回复评论

actact 发表于 February 26th, 2025

我觉得不一定要取最小值才能达到效果，而且优化器也很难确定是否是最小值还是极小值。再者，比如最简单的xy+(1-x)(1-y)，在x,y>=0的情况下无法求得最小值，但是满足均匀分布时，(x,y)=(0.5,0.5)是一个鞍点，梯度为0的点。
优化器可能陷入鞍点这一劣势可能可以缓解这一情况，（所以二阶优化器可能不适用这种loss）。
我初步试验了一下，L-BFGS似乎是会比SGD更不均匀一些。
至于你说的理论上最优的这个，只有$P_i$无$F_i$会不会漏掉一些信息？

回复评论

苏剑林发表于 February 28th, 2025

如果固定$\boldsymbol{F}$，最小化$\boldsymbol{F}\cdot\boldsymbol{P}$，那么最小值确实不一定在均匀分布中取到。因为$\boldsymbol{F}\cdot\boldsymbol{P}$并不是原始的Loss，它只是一个具有正确梯度的等价Loss，原始的Loss是我们这里的$\eqref{eq:aux-loss-3}$，它既有正确的梯度，又有正确的损失值，即它越小意味着越接近均匀分布。

更直观来说，$\boldsymbol{P}$变化的话，$\boldsymbol{F}$往往也会随之变化，所以理论上其实不存在“固定$\boldsymbol{F}$，最小化$\boldsymbol{F}\cdot\boldsymbol{P}$”的做法。只不过实操上来说，我们确实获取不到$\boldsymbol{F}$关于$\boldsymbol{P}$的精确关系（尤其是梯度），所以在单个train step里将$\boldsymbol{F}$当成常数。

回复评论

ziangwu 发表于 March 30th, 2025

关于这个问题，可能可以参考一下 https://arxiv.org/pdf/1701.06538，其中提到 ''While this loss function can ensure equal importance, experts may still receive very different numbers of examples. For example, one expert may receive a few examples with large weights, and another may receive many examples with small weights.''只是控制$P$是不够的，我们本质上是希望$F$是均匀的，$P$均匀仍存在$F$不均匀的风险。

回复评论

happynear 发表于 April 9th, 2025

只有F和P的大小排序一致的时候，才会有$\sum F_i P_i$在均匀分布下最小的结论，如果排序不一致，比如0.9*0.1+0.1*0.9远小于0.5，这个slide就是构造了一个特例让F和P排序不一致。
但因为F是P取topk算出来的，所以大概率排序一致，而且即使不一致，梯度方向也是对的，所以并不会对优化带来什么问题。

回复评论

我

February 26th, 2025

（6）中最后一步为什么省略了后面那个$\frac{1}{n}$项，不是应该是$2\nabla_\theta\sum_{i=1}^{n}F_iP_i - 2\nabla_\theta\sum_{i=1}^{n}\frac{P_i}{n}$?

回复评论

我发表于 February 26th, 2025

知道了p加起来=1

回复评论

苏剑林发表于 February 28th, 2025

是的

回复评论

Kuo

February 26th, 2025

豁然开朗，竟然可以由 STE 推导。
直观理解，$-P\cdot F$ 是 cross-entropy 的近似，优化 $P$ 向既定分配方案 $F$ 逼近, 当 $F$ 为均匀负载分布时得最大熵

回复评论

苏剑林发表于 February 28th, 2025

最小化的是$\boldsymbol{F}\cdot\boldsymbol{P}$而不是$-\boldsymbol{F}\cdot\boldsymbol{P}$哦

回复评论

kuo 发表于 March 2nd, 2025

嗯，是简单类比熵，所以加了一个负号，$H(P, F) = H(F) + DK(P, F)$。训练初期，$F$ 动态变化，目标却是明确的：负载均匀，朝熵增方向进化。最大化 cross-entropy 可以看成是不断抬高$H(F)$的最小值，而另一方面$DK(P,F)$在训练中一般会控制在一定范围。水涨船高，最后促成$F$均匀分布。不知道这样理解对不对？

回复评论

苏剑林发表于 March 5th, 2025

抱歉真不大清楚对不对，因为你这里每个记号的含义我都猜不出（苦笑）

回复评论

Chester 发表于 April 9th, 2025

我来翻译一下，但这个评论确实抽象。
他的意思应该是说 P 和 F 之间的交叉熵 = F 的熵 + 它俩的相对熵，因为 F 是由 P 分配出来的，所以我们会期望 P 是 F 的平滑近似，相对熵会在训练过程中保持在一个比较低的水平；所以优化交叉熵主要是在优化 F 的熵。
而交叉熵 $-F \log P = -F \log (1 + (P-1)) \approx -F*(P-1)= - F*P$（这个约等号有点离谱；最后一个等号是因为 $\sum F=1$ 常数项消掉了），所以【最小化 aux loss $F*P$】就等价于【最大化 $-F*P$】约等于【最大化交叉熵】约等于【最大化 F 的熵】。而 F 的最大熵就在各项等概率时取得，所以优化 aux loss 的效果就是让 F 变成均匀分布。

回复评论

苏剑林发表于 April 13th, 2025

哦，那倒不用这么麻烦，直接用Rényi熵（参考 https://kexue.fm/archives/9595 ）就行了。

回复评论

yyh

March 4th, 2025

苏老师您好，请问这个辅助损失是直接加到最后的交叉熵作为总的损失吗？我看了您之前衡量稀疏度的文章，那么这个l1/l2也是可以同理加到那个交叉熵来达到稀疏目的吗？我看有的文章好像这么做过，但是不是特别明白。主要是用在llm上的话，那么多权重矩阵真能有用吗。而且这个l1/l2我也不是很清楚可不可导，不是说一范数不可导吗？

回复评论

苏剑林发表于 March 6th, 2025

1、Aux Loss是加到LM Loss上面去（当然需要乘以一个权重）；

2、L1/L2是可以用来作为稀疏的正则项，但你想加在哪里？这里还想没地方需要稀疏？

3、L1只在一点处不可导，大多数情况下还是可以作为正常损失使用的。

回复评论

yyh 发表于 March 6th, 2025

就是所有全连接的矩阵展平后的这个范数项也可以直接加到LM Loss上然后达到稀疏化的目的吗，像这个aux loss一样？虽然这么做我感觉有点奇怪。

回复评论

苏剑林发表于 March 6th, 2025

这里的Aux Loss目的是均衡而不是稀疏，我不大确定你希望哪里出现稀疏，“所有全连接的矩阵展平后的这个范数项”这里不大理解。

回复评论

yyh 发表于 March 6th, 2025

我知道这个aux是为了负载均衡，我是希望所有的权重矩阵出现稀疏。我的意思是，像这个在LM loss上加aux loss的方式一样，把每一个权重矩阵的l1/l2都乘一个系数加到LM loss上。

回复评论

yyh 发表于 March 7th, 2025

看了您的新文章，我对这个问题又有了更深入的理解，谢谢！

回复评论

苏剑林发表于 March 8th, 2025

哦哦，那就是跟负载均衡无关了。单纯为了权重的稀疏化，那没有问题啊，可以尝试一下这样做。

回复评论

doggy

March 15th, 2025

请问 aux loss $\boldsymbol{F} \cdot \boldsymbol{P}$ 为什么是可导的？

回复评论

苏剑林发表于 March 16th, 2025

$\boldsymbol{P}$是可导的

回复评论

Chaofa Yuan

April 5th, 2025

这个损失函数的推导太好了，一开始总是在想为什么 $\sum_{i}^nF_iP_i$ 是 Auxloss

回复评论

JJN

April 26th, 2025

感谢作者的推导！不过一直有一个问题，负载均衡真的是一个好的目标吗？会不会实际上有一些expert天然就应该处理更多的任务，有一些expert天然应该负责更少的任务呢？

回复评论

苏剑林发表于 April 27th, 2025

好问题，下一篇文章可能会讨论这个问题

回复评论

heng

May 18th, 2025

苏老师好, 请教一下, 我如果直接P的分布去拟合Q的均匀分布作为损失函数,忽略F, 相比来说会有什么问题吗

回复评论

苏剑林发表于 May 28th, 2025

会不均衡。因为$\boldsymbol{P}=\boldsymbol{Q}$不意味着$\boldsymbol{F}=\boldsymbol{Q}$。

回复评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

MoE环游记：2、不患寡而患不均

需求分析 #

辅助损失 #

直通估计 #

一般形式 #

文章小结 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接