29 Mar

为什么Pre Norm的效果不如Post Norm？

By 苏剑林 | 2022-03-29 | 202066位读者 |

Pre Norm与Post Norm之间的对比是一个“老生常谈”的话题了，本博客就多次讨论过这个问题，比如文章《浅谈Transformer的初始化、参数化与标准化》、《模型优化漫谈：BERT的初始标准差为什么是0.02？》等。目前比较明确的结论是：同一设置之下，Pre Norm结构往往更容易训练，但最终效果通常不如Post Norm。Pre Norm更容易训练好理解，因为它的恒等路径更突出，但为什么它效果反而没那么好呢？

笔者之前也一直没有好的答案，直到前些时间在知乎上看到 @唐翔昊的一个回复后才“恍然大悟”，原来这个问题竟然有一个非常直观的理解！本文让我们一起来学习一下。

基本结论 #

Pre Norm和Post Norm的式子分别如下：
\begin{align}
\text{Pre Norm: } \quad \boldsymbol{x}_{t+1} = \boldsymbol{x}_t + F_t(\text{Norm}(\boldsymbol{x}_t))\\
\text{Post Norm: }\quad \boldsymbol{x}_{t+1} = \text{Norm}(\boldsymbol{x}_t + F_t(\boldsymbol{x}_t))
\end{align}
在Transformer中，这里的$\text{Norm}$主要指Layer Normalization，但在一般的模型中，它也可以是Batch Normalization、Instance Normalization等，相关结论本质上是通用的。

在笔者找到的资料中，显示Post Norm优于Pre Norm的工作有两篇，一篇是《Understanding the Difficulty of Training Transformers》，一篇是《RealFormer: Transformer Likes Residual Attention》。另外，笔者自己也做过对比实验，显示Post Norm的结构迁移性能更加好，也就是说在Pretraining中，Pre Norm和Post Norm都能做到大致相同的结果，但是Post Norm的Finetune效果明显更好。

可能读者会反问《On Layer Normalization in the Transformer Architecture》不是显示Pre Norm要好于Post Norm吗？这是不是矛盾了？其实这篇文章比较的是在完全相同的训练设置下Pre Norm的效果要优于Post Norm，这只能显示出Pre Norm更容易训练，因为Post Norm要达到自己的最优效果，不能用跟Pre Norm一样的训练配置（比如Pre Norm可以不加Warmup但Post Norm通常要加），所以结论并不矛盾。

直观理解 #

为什么Pre Norm的效果不如Post Norm？知乎上 @唐翔昊给出的答案是：Pre Norm的深度有“水分”！也就是说，一个$L$层的Pre Norm模型，其实际等效层数不如$L$层的Post Norm模型，而层数少了导致效果变差了。

具体怎么理解呢？很简单，对于Pre Norm模型我们迭代得到：
\begin{equation}\begin{aligned}
\boldsymbol{x}_{t+1} =&\,\boldsymbol{x}_t + F_t(\text{Norm}(\boldsymbol{x}_t)) \\
=&\, \boldsymbol{x}_{t-1} + F_{t-1}(\text{Norm}(\boldsymbol{x}_{t-1})) + F_t(\text{Norm}(\boldsymbol{x}_t)) \\
=&\, \cdots \\
=&\, \boldsymbol{x}_0 + F_0 (\text{Norm}(\boldsymbol{x}_0)) + \cdots + F_{t-1}(\text{Norm}(\boldsymbol{x}_{t-1})) + F_t(\text{Norm}(\boldsymbol{x}_t))
\end{aligned}\end{equation}
其中每一项都是同一量级的，那么有$\boldsymbol{x}_{t+1}=\mathcal{O}(t+1)$，也就是说第$t+1$层跟第$t$层的差别就相当于$t+1$与$t$的差别，当$t$较大时，两者的相对差别是很小的，因此
\begin{equation}\begin{aligned}
&\,F_t(\text{Norm}(\boldsymbol{x}_t)) + F_{t+1}(\text{Norm}(\boldsymbol{x}_{t+1})) \\
\approx&\,F_t(\text{Norm}(\boldsymbol{x}_t)) + F_{t+1}(\text{Norm}(\boldsymbol{x}_t)) \\
=&\, \begin{pmatrix} 1 & 1\end{pmatrix}\begin{pmatrix} F_t \\ F_{t+1}\end{pmatrix}(\text{Norm}(\boldsymbol{x}_t))
\end{aligned}\end{equation}
这个意思是说，当$t$比较大时，$\boldsymbol{x}_t,\boldsymbol{x}_{t+1}$相差较小，所以$F_{t+1}(\text{Norm}(\boldsymbol{x}_{t+1}))$与$F_{t+1}(\text{Norm}(\boldsymbol{x}_t))$很接近，因此原本一个$t$层的模型与$t+1$层和，近似等效于一个更宽的$t$层模型，所以在Pre Norm中多层叠加的结果更多是增加宽度而不是深度，层数越多，这个层就越“虚”。

说白了，Pre Norm结构无形地增加了模型的宽度而降低了模型的深度，而我们知道深度通常比宽度更重要，所以是无形之中的降低深度导致最终效果变差了。而Post Norm刚刚相反，在《浅谈Transformer的初始化、参数化与标准化》中我们就分析过，它每Norm一次就削弱一次恒等分支的权重，所以Post Norm反而是更突出残差分支的，因此Post Norm中的层数更加“足秤”，一旦训练好之后效果更优。

文章小结 #

本文主要分享了“为什么Pre Norm的效果不如Post Norm”的一个直观理解。

转载到请包括本文地址：https://kexue.fm/archives/9009

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Mar. 29, 2022). 《为什么Pre Norm的效果不如Post Norm？》[Blog post]. Retrieved from https://kexue.fm/archives/9009

@online{kexuefm-9009,
        title={为什么Pre Norm的效果不如Post Norm？},
        author={苏剑林},
        year={2022},
        month={Mar},
        url={\url{https://kexue.fm/archives/9009}},
}

分类：信息时代标签：优化, 梯度, attention 56 评论

< RoFormerV2：自然语言理解的极限探索 | 听说Attention与Softmax更配哦～ >

你也许还对下面的内容感兴趣

发表你的看法

March 29th, 2022

苏神好，感谢分享~ 本人也凑巧在知乎上刷到过这个回答，有恍然大悟之感。

有个问题想讨论一下，当今千亿、万亿级的参数模型一般是Pre-Norm还是Post-Norm呢？(他们是有采用trick来让Post-Norm训练成功还是用了Pre-Norm)。CV、NLP、多模态大规模预训练在这方面有所不同嘛？（ViT系列大模型似乎流行Pre-Norm?）

回复评论

苏剑林发表于 March 30th, 2022

当前主流大模型更倾向于模型的尺寸（可能更吸引眼球）以及更容易训练，另外在DeepNet之前也没有找到特别漂亮的训练Post Norm模型的技巧，所以主流的大模型都是以“大+Pre Norm”居多。

但其实事后来看，很多百亿甚至千亿的模型，其实都处于“欠训练”状态，也就是当前训练数据或者训练步数都还没能达到大模型的最优点，因此主流大模型的结果其实对Post Norm还是Pre Norm好这个问题并没有参考价值～

回复评论

XS 发表于 March 30th, 2022

感谢苏神耐心回答！受益匪浅~

回复评论

March 29th, 2022

bert不都是post norm嘛

回复评论

苏剑林发表于 March 30th, 2022

BERT的含义比较广。

如果你说的是Google开源的BERT，那确实全都是Post Norm；但有些人也倾向于将BERT视为“Transformer+MLM+NSP”，所以不管是Post Norm还是Pre Norm，只要同时用MLM和NSP预训练的都叫做BERT；有些人也倾向于只要用MLM作为主要预训练任务的都叫BERT（不管辅助任务是NSP还是SOP等）。

回复评论

王五

March 31st, 2022

多年前kaiming he那篇Idendity Mapping里preact-resblock却是更好的，那篇文章的结论可是做了较为充分的对比实验后得出来的。请问苏神，不考虑具体模块差异的话，preact-resblock实质也是把网络深度变浅了，为何表现就没那么糟糕呢？

回复评论

苏剑林发表于 April 1st, 2022

你说的是resnetv1和resnetv2的区别吧，这个我也有所耳闻。

我没细看它的对比实验究竟是怎么进行的，但如果是“严格控制变量对比”，那实际上是不公平的对比，因为同一超参设置下Post Norm大概率是不如Pre Norm的，但这不能说明Post Norm结构不如Pre Norm，只是因为Post Norm更难训练，需要更精细调整训练策略。

另一方面，五年前的对比实验，对于Post Norm的训练想必也没有像DeepNet这样的技术可以用，因此模型深度上去之后，Post Norm变得更为难以训练，因此效果就更不理想了。

最后，还有一种可能是：本文的观点在于Post Norm更突出模型深度，从而使得效果更好。但问题是原始任务是不是需要这个深度呢？如果它不需要，那么更深就未必效果更好了。

回复评论

羡鱼发表于 January 31st, 2023

苏神，有可能是因为activation和normalization所起的作用不同吗？kaiming的文章里主要讨论的是pre-activation与post-activation，而这里讨论的是pre-norm与post-norm，有些地方道理是相通的，但应该也有些由activation和norm之间的区别带来的差异吧？

回复评论

苏剑林发表于 February 1st, 2023

个人觉得activation也算是某种意义上的norm（当然可能有些勉强）。总的来说，即便考虑activation和norm的差异，@苏剑林|comment-18838所说的大部分原因也是成立的，即当时的post效果更差，也有可能是没训练好的原因。

回复评论

alann

April 22nd, 2022

请问如果要加入dropout的话，preln和postln加dropout的位置一样吗？还是有其他什么讲究？

回复评论

苏剑林发表于 April 22nd, 2022

这个我没研究，都是参考已有的结构来的。

回复评论

安德

April 26th, 2022

《On Layer Normalization in the Transformer Architecture》这篇文章的结论是移除了warm up阶段之后的pre-norm效果好于post-norm。

回复评论

苏剑林发表于 April 27th, 2022

如果Post Norm不做Warmup，又不像Deepnet那样做好适当的初始化，那么不如Pre Norm是很自然的事，但这不是什么公平比较，因此不在考虑范围内。

架构的公平比较，应该是在同样的语料和设备之下，大家用各自的方法训练到各自的最优才比较，严格的控制变量都不算公平比较。

回复评论

welldone

October 17th, 2022

苏神请教一下：
pre-norm:x+f(norm(x))
post-norm:norm(x+f(x))
当多层连续使用时，为啥我感觉除了首、尾是否有Norm有差异，中间的过程一模一样呢。如果post-norm的原始数据被norm一下，pre-norm最后一层之后被norm一下这俩就一模一样了吧。。

回复评论

苏剑林发表于 October 17th, 2022

假如只有两层。

Pre Norm：
$$\begin{aligned}x_1 =&\, x_0 + F(N(x_0)) \\
x_2 =&\, x_1 + F(N(x_1)) = x_0 + F(N(x_0)) + F(N(x_1))\end{aligned}$$
依你，最后一层加上$N$，结果是
$$N(x_0 + F(N(x_0)) + F(N(x_1)))$$

Post Norm：依你，对输入加上$N$
$$\begin{aligned}x_1 =&\, N(N(x_0) + F(N(x_0))) \\
x_2 =&\, N(x_1 + F(N(x_1))) = N(N(N(x_0) + F(N(x_0))) + F(N(x_1)))\end{aligned}$$

你这么有信心，它们两个是恒等式？除去最后一个$N$，它们分别是
$$x_0 + F(N(x_0)) + F(N(x_1))$$
和
$$N(N(x_0) + F(N(x_0))) + F(N(x_1))$$
已经有显著差异了。如果是三层、四层的，差异更大，何来“一模一样”？

我就算加上更宽松的条件$x_0 = N(x_0)$，那么两者也是$x_0 + F(x_0) + F(N(x_1))$和$N(x_0 + F(x_0)) + F(N(x_1))$的区别，能保证$x_0 + F(x_0)$恒等于$N(x_0 + F(x_0))$？

多动手试试，不要看了几下就下结论。

回复评论

welldone 发表于 October 17th, 2022

您说的是对的，是我想差了，不好意思。

回复评论

maple

October 26th, 2022

苏神你好，我有一点没太理解，文中写道“而Post Norm刚刚相反，在《浅谈Transformer的初始化、参数化与标准化》中我们就分析过，它每Norm一次就削弱一次恒等分支的权重，所以Post Norm反而是更突出残差分支的”。但在那篇文章里写的是“这我们可以称为Post Norm结构，...但事实上已经严重削弱了残差本身”，这是否有冲突呢？

回复评论

苏剑林发表于 October 26th, 2022

这里想表达的是同一个意思，那篇文章说的“严重削弱了残差本身”的“残差本身”想指的是恒等分支。不过为了防止误解，我已经修改了那篇文章的表述了。感谢指出。

回复评论

hazdzz

May 8th, 2023

或許可以考慮雙殘差連接（https://arxiv.org/abs/2304.14802）

回复评论

苏剑林发表于 May 8th, 2023

看到了，很简单的融合，测了一下确实也是有效的。

回复评论

hazdzz

May 9th, 2023

既然 Pre Norm 會加寬 Neural Network，對於一個 L 層（L 足夠大）的由 Pre Norm 所主導的 Neural Network，何不直接用 Neural Tangent Kernel 取而代之？

回复评论

苏剑林发表于 May 9th, 2023

比赛中我见过有用NTK的，但是一般场景很少见。

回复评论

11层

June 26th, 2023

https://arxiv.org/abs/2210.06423
Deepnet的后续工作, 进一步提出了subLN以及对应的初始化参数. 是否可以和deepnet结合起来使用, 把deepnet里面的beta换成subLN里面的gamma?

回复评论

苏剑林发表于 June 27th, 2023

这个架构我好像有印象，但没跟进，谢谢推荐。

回复评论

苏剑林发表于 June 27th, 2023

看了看，好像就是多一个LN？当时好像感觉不大优雅，所以放弃了。

回复评论

取消回复

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

为什么Pre Norm的效果不如Post Norm？

基本结论 #

直观理解 #

相关工作 #

文章小结 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接