MoE环游记:2、不患寡而患不均
By 苏剑林 | 2025-02-21 | 12881位读者 | 引用在上一篇文章《MoE环游记:1、从几何意义出发》中,我们介绍了MoE的一个几何诠释,旨在通过Dense模型的最佳逼近出发来推导和理解MoE。同时在文末我们也说了,给出MoE的计算公式仅仅是开始,训练一个实际有效的MoE模型还有很多细节补,比如本文要讨论的负载均衡(Load Balance)问题。
负载均衡,即“不患寡而患不均”,说白了就是让每个Expert都在干活,并且都在干尽可能一样多的活,避免某些Expert浪费算力。负载均衡既是充分利用训练算力的需求,也是尽可能发挥MoE大参数量潜力的需求。
需求分析
我们知道,MoE的基本形式是
\begin{equation}\boldsymbol{y} = \sum_{i\in \mathop{\text{argtop}}_k \boldsymbol{\rho}} \rho_i \boldsymbol{e}_i\end{equation}
Lion/Tiger优化器训练下的Embedding异常和对策
By 苏剑林 | 2023-08-28 | 35465位读者 | 引用打从在《Tiger:一个“抠”到极致的优化器》提出了Tiger优化器之后,Tiger就一直成为了我训练模型的“标配”优化器。最近笔者已经尝试将Tiger用到了70亿参数模型的预训练之中,前期效果看上来尚可,初步说明Tiger也是能Scale Up的。不过,在查看训练好的模型权重时,笔者发现Embedding出现了一些异常值,有些Embedding的分量达到了$\pm 100$的级别。
经过分析,笔者发现类似现象并不会在Adam中出现,这是Tiger或者Lion这种带符号函数$\text{sign}$的优化器特有的问题,对此文末提供了两种参考解决方案。本文将记录笔者的分析过程,供大家参考。
现象
接下来,我们的分析都以Tiger优化器为例,但分析过程和结论同样适用于Lion。
丘成桐摘得沃尔夫奖——获数学界终身成就肯定
By 苏剑林 | 2010-02-27 | 30059位读者 | 引用1月31日晚,华裔数学家丘成桐收到以色列教育部部长兼沃尔夫基金会理事长Gideon Sa’ar亲笔签名的信,通知他获得了2010年的沃尔夫数学奖,原因是他“在几何分析方面的贡献已对几何和物理的许多领域产生深远而引人瞩目的影响”。
1978年开始颁发的沃尔夫奖每年评选一次,分别奖励在农业、化学、数学、医药、物理以及艺术领域中取得突出成绩的人士。其中沃尔夫数学奖影响很大。
今年的颁奖典礼定于5月13日在耶路撒冷举行,丘成桐将与美国数学家丹尼斯·沙利文分享10万美元的数学奖奖金。这是丘成桐继菲尔茨奖后,再次获得国际最顶尖的数学大奖。菲尔茨奖和沃尔夫奖双奖得主,迄今只有13位。
从牛顿力学角度研究宇宙学
By 苏剑林 | 2010-06-17 | 52529位读者 | 引用不少天文爱好者对宇宙学这方面的内容“听而生畏”,觉得没有爱因斯坦的广义相对论等复杂理论基础是不可理解的。的确,这种观点没有错,当前的宇宙学对宇宙的精确描述,的确是建立在广义相对论和量子力学等理论的基础之上的。BoJone也只是在书上略略浏览,根本谈不上有什么了解。但是,对于一般的天文爱好者来说,只要对牛顿力学和微积分有一定的了解,就可以对我们的宇宙有一个大概的描述,也能够得出很多令人惊喜的结论。相信进行了这项工作之后,很多爱好者都会改观:原来宇宙学也并不是那么难...并且能够得出这样的一个结论:广义相对论虽然对牛顿引力理论进行了彻底的改革,但是从数学的角度来讲,它仅仅对牛顿力学进行了修正。
旋转的弹簧将如何伸长?
By 苏剑林 | 2010-07-30 | 102785位读者 | 引用为什么是抛物线?——聚光面研究
By 苏剑林 | 2010-11-07 | 95423位读者 | 引用沐浴问题——调控水温
By 苏剑林 | 2011-03-08 | 26653位读者 | 引用载入正题之前,不妨闲扯一下BoJone的家...
BoJone在一些文章中已经提到过,我是一个来自农村的孩子,目前我的家也在农村。虽然生活并不能说“贫困”,家中也添置了不少电器,不过一直没有购置的就是洗衣机和热水器。洗衣机嘛,我觉得衣服自己动手洗是很好的,至少不让自己偷懒。至于热水器,因为家在农村,所以能够比较方便地弄到一些柴草,而且稻谷收割完后的桔梗也可以当燃料用,平时烧菜一般都用烧柴草,因此热水器实在没有多大必要。(很遗憾,沼气池没有能够在这里普及起来,大家可不要责怪我排放温室气体哦...^_^)
既然没有热水器,那只能人工烧水了。往往是烧好一大锅水,洗澡时盛一盆子,然后加水降温,接着就可以洗白白了。本文的问题正是来源于调水温。当水很热时,为了加快降温,我们往往“双管齐下”:一边向盆子注入冷水,一般从盆子放出热水。于是就有了一个问题:水的温度与时间成什么关系?
从对称角度看代数方程
By 苏剑林 | 2011-04-29 | 27604位读者 | 引用这些日子来,BoJone迷上了两个东西:最小作用量和对称。这两个“东西”在物理学中几乎占据着最重要的地位,前边已经说过,通过最小作用量原理能够构建起当代整个物理学的框架,体现着自然界的“经济头脑”;后者则是守恒的体现,也对应着自然界的“美感”。本文主要是从最简单的层面谈谈对称。
对称的东西很重要,很美。当然,这里所指的是数学上的对称。数学上有很多问题都可以列出对称的式子,而且由于其对称性,因此求解过程一般比不对称的式子简单不少。据说,当代最前沿的物理学框架都是用群论描述的(包括广义相对论),而群论正是用来研究对称的有力工具,可见,对称和对称的方法在实际中有着广泛的应用。(当然本文不讨论群论,关键是BoJone也不懂群论...^_^)
我们先来看二次方程,根据韦达定理,二次方程都可以表达成下面的形式:
$$\begin{aligned}x_1+x_2=a \\ x_1 x_2=b\end{aligned}$$
这是一个多对称的形式!这里的对称体现在将$x_1,x_2$互相替换后方程形式依然不变。如果我们设$x_1=y_1+y_2,x_2=y_1-y_2$,就可以变成
$$2y_1=a,y_1^2-y_2^2=b$$
这样很快就求出$y_1,y_2$了,继而能够求出方程的两个根。
最近评论