包含关键字《自然极值》系列的文章 - 科学空间|Scientific Spaces

29 Dec

SquarePlus：可能是运算最简单的ReLU光滑近似

By 苏剑林 | 2021-12-29 | 35998位读者 | 引用

ReLU函数，也就是$\max(x,0)$，是最常见的激活函数之一，然而它在$x=0$处的不可导通常也被视为一个“槽点”。为此，有诸多的光滑近似被提出，比如SoftPlus、GeLU、Swish等，不过这些光滑近似无一例外地至少都使用了指数运算$e^x$（SoftPlus还用到了对数），从“精打细算”的角度来看，计算量还是不小的（虽然当前在GPU加速之下，我们很少去感知这点计算量了）。最近有一篇论文《Squareplus: A Softplus-Like Algebraic Rectifier》提了一个更简单的近似，称为SquarePlus，我们也来讨论讨论。

需要事先指出的是，笔者是不建议大家花太多时间在激活函数的选择和设计上的，所以虽然分享了这篇论文，但主要是提供一个参考结果，并充当一道练习题来给大家“练练手”。

定义

SquarePlus的形式很简单，只用到了加、乘、除和开方：
\begin{equation}\text{SquarePlus}(x)=\frac{x+\sqrt{x^2+b}}{2}\end{equation}

点击阅读全文...

分类：数学研究标签：函数, 近似, 分析阅读全文 4 评论

25 Jan

Efficient GlobalPointer：少点参数，多点效果

By 苏剑林 | 2022-01-25 | 108686位读者 | 引用

在《GlobalPointer：用统一的方式处理嵌套和非嵌套NER》中，我们提出了名为“GlobalPointer”的token-pair识别模块，当它用于NER时，能统一处理嵌套和非嵌套任务，并在非嵌套场景有着比CRF更快的速度和不逊色于CRF的效果。换言之，就目前的实验结果来看，至少在NER场景，我们可以放心地将CRF替换为GlobalPointer，而不用担心效果和速度上的损失。

在这篇文章中，我们提出GlobalPointer的一个改进版——Efficient GlobalPointer，它主要针对原GlobalPointer参数利用率不高的问题进行改进，明显降低了GlobalPointer的参数量。更有趣的是，多个任务的实验结果显示，参数量更少的Efficient GlobalPointer反而还取得更好的效果。

大量的参数

这里简单回顾一下GlobalPointer，详细介绍则请读者阅读《GlobalPointer：用统一的方式处理嵌套和非嵌套NER》。简单来说，GlobalPointer是基于内积的token-pair识别模块，它可以用于NER场景，因为对于NER来说我们只需要把每一类实体的“(首, 尾)”这样的token-pair识别出来就行了。

点击阅读全文...

分类：信息时代标签：模型, NLP, NER 阅读全文 62 评论

30 Jan

GPLinker：基于GlobalPointer的实体关系联合抽取

By 苏剑林 | 2022-01-30 | 110587位读者 | 引用

在将近三年前的百度“2019语言与智能技术竞赛”（下称LIC2019）中，笔者提出了一个新的关系抽取模型（参考《基于DGCNN和概率图的轻量级信息抽取模型》），后被进一步发表和命名为“CasRel”，算是当时关系抽取的SOTA。然而，CasRel提出时笔者其实也是首次接触该领域，所以现在看来CasRel仍有诸多不完善之处，笔者后面也有想过要进一步完善它，但也没想到特别好的设计。

后来，笔者提出了GlobalPointer以及近日的Efficient GlobalPointer，感觉有足够的“材料”来构建新的关系抽取模型了。于是笔者从概率图思想出发，参考了CasRel之后的一些SOTA设计，最终得到了一版类似TPLinker的模型。

基础思路

关系抽取乍看之下是三元组$(s,p,o)$（即subject, predicate, object)的抽取，但落到具体实现上，它实际是“五元组”$(s_h,s_t,p,o_h,o_t)$的抽取，其中$s_h,s_t$分别是$s$的首、尾位置，而$o_h,o_t$则分别是$o$的首、尾位置。

点击阅读全文...

分类：信息时代标签：NLP, 信息抽取, NER 阅读全文 52 评论

3 Mar

指数梯度下降 + 元学习 = 自适应学习率

By 苏剑林 | 2022-03-03 | 26303位读者 | 引用

前两天刷到了Google的一篇论文《Step-size Adaptation Using Exponentiated Gradient Updates》，在其中学到了一些新的概念，所以在此记录分享一下。主要的内容有两个，一是非负优化的指数梯度下降，二是基于元学习思想的学习率调整算法，两者都颇有意思，有兴趣的读者也可以了解一下。

指数梯度下降

梯度下降大家可能听说得多了，指的是对于无约束函数$\mathcal{L}(\boldsymbol{\theta})$的最小化，我们用如下格式进行更新：
\begin{equation}\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \eta\nabla_{\boldsymbol{\theta}}\mathcal{L}(\boldsymbol{\theta}_t)\end{equation}
其中$\eta$是学习率。然而很多任务并非总是无约束的，对于最简单的非负约束，我们可以改为如下格式更新：
\begin{equation}\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t \odot \exp\left(- \eta\nabla_{\boldsymbol{\theta}}\mathcal{L}(\boldsymbol{\theta}_t)\right)\label{eq:egd}\end{equation}
这里的$\odot$是逐位对应相乘（Hadamard积）。容易看到，只要初始化的$\boldsymbol{\theta}_0$是非负的，那么在整个更新过程中$\boldsymbol{\theta}_t$都会保持非负，这就是用于非负约束优化的“指数梯度下降”。

点击阅读全文...

分类：数学研究标签：优化, 梯度, 优化器阅读全文 9 评论

11 Mar

门控注意力单元（GAU）还需要Warmup吗？

By 苏剑林 | 2022-03-11 | 38752位读者 | 引用

在文章《训练1000层的Transformer究竟有什么困难？》发布之后，很快就有读者问到如果将其用到《FLASH：可能是近来最有意思的高效Transformer设计》中的“门控注意力单元（GAU）”，那结果是怎样的？跟标准Transformer的结果有何不同？本文就来讨论这个问题。

先说结论

事实上，GAU是非常容易训练的模型，哪怕我们不加调整地直接使用“Post Norm + Xavier初始化”，也能轻松训练个几十层的GAU，并且还不用Warmup。所以关于标准Transformer的很多训练技巧，到了GAU这里可能就无用武之地了...

为什么GAU能做到这些？很简单，因为在默认设置之下，理论上$\text{GAU}(\boldsymbol{x}_l)$相比$\boldsymbol{x}_l$几乎小了两个数量级，所以
\begin{equation}\boldsymbol{x}_{l+1} = \text{LN}(\boldsymbol{x}_l + \text{GAU}(\boldsymbol{x}_l))\approx \boldsymbol{x}_l\end{equation}

点击阅读全文...

分类：信息时代标签：模型, 优化, attention 阅读全文 13 评论

29 Mar

为什么Pre Norm的效果不如Post Norm？

By 苏剑林 | 2022-03-29 | 80155位读者 | 引用

Pre Norm与Post Norm之间的对比是一个“老生常谈”的话题了，本博客就多次讨论过这个问题，比如文章《浅谈Transformer的初始化、参数化与标准化》、《模型优化漫谈：BERT的初始标准差为什么是0.02？》等。目前比较明确的结论是：同一设置之下，Pre Norm结构往往更容易训练，但最终效果通常不如Post Norm。Pre Norm更容易训练好理解，因为它的恒等路径更突出，但为什么它效果反而没那么好呢？

笔者之前也一直没有好的答案，直到前些时间在知乎上看到 @唐翔昊的一个回复后才“恍然大悟”，原来这个问题竟然有一个非常直观的理解！本文让我们一起来学习一下。

点击阅读全文...

分类：信息时代标签：优化, 梯度, attention 阅读全文 44 评论

7 Apr

听说Attention与Softmax更配哦～

By 苏剑林 | 2022-04-07 | 62835位读者 | 引用

不知道大家留意到一个细节没有，就是当前NLP主流的预训练模式都是在一个固定长度（比如512）上进行，然后直接将预训练好的模型用于不同长度的任务中。大家似乎也没有对这种模式有过怀疑，仿佛模型可以自动泛化到不同长度是一个“理所应当”的能力。

当然，笔者此前同样也没有过类似的质疑，直到前几天笔者做了Base版的GAU实验后才发现GAU的长度泛化能力并不如想象中好。经过进一步分析后，笔者才明白原来这种长度泛化的能力并不是“理所当然”的......

模型回顾

在《FLASH：可能是近来最有意思的高效Transformer设计》中，我们介绍了“门控注意力单元GAU”，它是一种融合了GLU和Attention的新设计。

除了效果，GAU在设计上给我们带来的冲击主要有两点：一是它显示了单头注意力未必就逊色于多头注意力，这奠定了它“快”、“省”的地位；二是它是显示了注意力未必需要Softmax归一化，可以换成简单的$\text{relu}^2$除以序列长度：
\begin{equation}\boldsymbol{A}=\frac{1}{n}\text{relu}^2\left(\frac{\mathcal{Q}(\boldsymbol{Z})\mathcal{K}(\boldsymbol{Z})^{\top}}{\sqrt{s}}\right)=\frac{1}{ns}\text{relu}^2\left(\mathcal{Q}(\boldsymbol{Z})\mathcal{K}(\boldsymbol{Z})^{\top}\right)\end{equation}

点击阅读全文...

分类：信息时代标签：熵, 语言模型, attention, 预训练阅读全文 43 评论

7 May

多标签“Softmax+交叉熵”的软标签版本

By 苏剑林 | 2022-05-07 | 42327位读者 | 引用

（注：本文的相关内容已整理成论文《ZLPR: A Novel Loss for Multi-label Classification》，如需引用可以直接引用英文论文，谢谢。）

在《将“Softmax+交叉熵”推广到多标签分类问题》中，我们提出了一个用于多标签分类的损失函数：
\begin{equation}\log \left(1 + \sum\limits_{i\in\Omega_{neg}} e^{s_i}\right) + \log \left(1 + \sum\limits_{j\in\Omega_{pos}} e^{-s_j}\right)\label{eq:original}\end{equation}
这个损失函数有着单标签分类中“Softmax+交叉熵”的优点，即便在正负类不平衡的依然能够有效工作。但从这个损失函数的形式我们可以看到，它只适用于“硬标签”，这就意味着label smoothing、mixup等技巧就没法用了。本文则尝试解决这个问题，提出上述损失函数的一个软标签版本。

巧妙联系

多标签分类的经典方案就是转化为多个二分类问题，即每个类别用sigmoid函数$\sigma(x)=1/(1+e^{-x})$激活，然后各自用二分类交叉熵损失。当正负类别极其不平衡时，这种做法的表现通常会比较糟糕，而相比之下损失$\eqref{eq:original}$通常是一个更优的选择。

点击阅读全文...

分类：信息时代标签：优化, 损失函数, 光滑阅读全文 18 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

SquarePlus：可能是运算最简单的ReLU光滑近似

定义

Efficient GlobalPointer：少点参数，多点效果

大量的参数

GPLinker：基于GlobalPointer的实体关系联合抽取

基础思路

指数梯度下降 + 元学习 = 自适应学习率

指数梯度下降

门控注意力单元（GAU）还需要Warmup吗？

先说结论

为什么Pre Norm的效果不如Post Norm？

听说Attention与Softmax更配哦～

模型回顾

多标签“Softmax+交叉熵”的软标签版本

巧妙联系

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接