包含关键字细水长flow 的文章 - 科学空间|Scientific Spaces

2 Apr

通过梯度近似寻找Normalization的替代品

By 苏剑林 | 2025-04-02 | 1183位读者 | 引用

不知道大家有没有留意到前段时间的《Transformers without Normalization》？这篇论文试图将Transformer模型中的Normalization层用一个Element-wise的运算DyT替代，以期能提高速度并保持效果。这种基础架构的主题本身自带一点吸引力，加之Kaiming He和Yann LeCun两位大佬挂名，所以这篇论文发布之时就引起了不少围观，评价也是有褒有贬。

无独有偶，上周的一篇新论文《The Mathematical Relationship Between Layer Normalization and Dynamic Activation Functions》从梯度分析和微分方程的视角解读了DyT，并提出了新的替代品。个人感觉这个理解角度非常本质，遂学习和分享一波。

写在前面

DyT全称是Dynamic Tanh，它通过如下运算来替代Normalization层：
\begin{equation}\mathop{\text{DyT}}(\boldsymbol{x}) = \boldsymbol{\gamma} \odot \tanh(\alpha \boldsymbol{x}) + \boldsymbol{\beta}\end{equation}

点击阅读全文...

分类：数学研究标签：函数, 分析, 梯度, 光滑阅读全文抢沙发

«
1
...
76
77
78
79

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前32岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

热门标签

随机文章

最近评论

苏剑林: 是这个意思，不是数学上严格的绝对低秩，而是某几个奇异值占主导的近似低秩。
苏剑林: 是我们用激活函数来实现满足特定值域的$T(x)$，你有其他实现方式也可以。
苏剑林: 如果在PC浏览器中打印，可以先将浏览器窗口调整到适合大小，然后刷新页面，这时候的公式就会按照你...
苏剑林: 欢迎自荐！粗扫了一下，Dynamic选择方面似乎没什么启发性（当然也没啥问题），主要是感觉会不...
苏剑林: 我先问一下“原始输入”和“输入的embedding”有什么区别呢？这个现象可以参考一下 htt...
苏剑林: 你仔细看一下本文，它就不是用梯度下降更新的，它是额外“手搓”的梯度，手写的更新规则来更新。
苏剑林: 哪里混用？
苏剑林: 直觉上（没有实测）Randomized SVD的精度不如Newton-schulz迭代
苏剑林: 谢谢建议，我学习一下。主要是我自己没用zotero，开发起来可能会比较慢
ding: 不如说attention矩阵特征值分布的区别，若是三角阵，它的特征值就是所有对角线上的值，期望...