包含关键字从动力学角度看优化算法的文章

9 Dec

变分自编码器（八）：估计样本概率密度

By 苏剑林 | 2021-12-09 | 68908位读者 | 引用

在本系列的前面几篇文章中，我们已经从多个角度来理解了VAE，一般来说，用VAE是为了得到一个生成模型，或者是做更好的编码模型，这都是VAE的常规用途。但除了这些常规应用外，还有一些“小众需求”，比如用来估计$x$的概率密度，这在做压缩的时候通常会用到。

本文就从估计概率密度的角度来了解和推导一下VAE模型。

两个问题

所谓估计概率密度，就是在已知样本$x_1,x_2,\cdots,x_N\sim \tilde{p}(x)$的情况下，用一个待定的概率密度簇$q_{\theta}(x)$去拟合这批样本，拟合的目标一般是最小化负对数似然：
\begin{equation}\mathbb{E}_{x\sim \tilde{p}(x)}[-\log q_{\theta}(x)] = -\frac{1}{N}\sum_{i=1}^N \log q_{\theta}(x_i)\label{eq:mle}\end{equation}

点击阅读全文...

分类：信息时代标签：概率, 变分, vae, 生成模型阅读全文 24 评论

17 Dec

Seq2Seq+前缀树：检索任务新范式（以KgCLUE为例）

By 苏剑林 | 2021-12-17 | 69717位读者 | 引用

两年前，在《万能的seq2seq：基于seq2seq的阅读理解问答》和《“非自回归”也不差：基于MLM的阅读理解问答》中，我们在尝试过分别利用“Seq2Seq+前缀树”和“MLM+前缀树”的方式做抽取式阅读理解任务，并获得了不错的结果。而在去年的ICLR2021上，Facebook的论文《Autoregressive Entity Retrieval》同样利用“Seq2Seq+前缀树”的组合，在实体链接和文档检索上做到了效果与效率的“双赢”。

事实上，“Seq2Seq+前缀树”的组合理论上可以用到任意检索型任务中，堪称是检索任务的“新范式”。本文将再次回顾“Seq2Seq+前缀树”的思路，并用它来实现最近推出的KgCLUE知识图谱问答榜单的一个baseline。

本文baseline模型示意图

点击阅读全文...

分类：信息时代标签：代码, 语义, keras, 相似度阅读全文 17 评论

29 Dec

SquarePlus：可能是运算最简单的ReLU光滑近似

By 苏剑林 | 2021-12-29 | 41491位读者 | 引用

ReLU函数，也就是$\max(x,0)$，是最常见的激活函数之一，然而它在$x=0$处的不可导通常也被视为一个“槽点”。为此，有诸多的光滑近似被提出，比如SoftPlus、GeLU、Swish等，不过这些光滑近似无一例外地至少都使用了指数运算$e^x$（SoftPlus还用到了对数），从“精打细算”的角度来看，计算量还是不小的（虽然当前在GPU加速之下，我们很少去感知这点计算量了）。最近有一篇论文《Squareplus: A Softplus-Like Algebraic Rectifier》提了一个更简单的近似，称为SquarePlus，我们也来讨论讨论。

需要事先指出的是，笔者是不建议大家花太多时间在激活函数的选择和设计上的，所以虽然分享了这篇论文，但主要是提供一个参考结果，并充当一道练习题来给大家“练练手”。

定义

SquarePlus的形式很简单，只用到了加、乘、除和开方：
\begin{equation}\text{SquarePlus}(x)=\frac{x+\sqrt{x^2+b}}{2}\end{equation}

点击阅读全文...

分类：数学研究标签：函数, 近似, 分析阅读全文 4 评论

25 Jan

Efficient GlobalPointer：少点参数，多点效果

By 苏剑林 | 2022-01-25 | 131374位读者 | 引用

在《GlobalPointer：用统一的方式处理嵌套和非嵌套NER》中，我们提出了名为“GlobalPointer”的token-pair识别模块，当它用于NER时，能统一处理嵌套和非嵌套任务，并在非嵌套场景有着比CRF更快的速度和不逊色于CRF的效果。换言之，就目前的实验结果来看，至少在NER场景，我们可以放心地将CRF替换为GlobalPointer，而不用担心效果和速度上的损失。

在这篇文章中，我们提出GlobalPointer的一个改进版——Efficient GlobalPointer，它主要针对原GlobalPointer参数利用率不高的问题进行改进，明显降低了GlobalPointer的参数量。更有趣的是，多个任务的实验结果显示，参数量更少的Efficient GlobalPointer反而还取得更好的效果。

大量的参数

这里简单回顾一下GlobalPointer，详细介绍则请读者阅读《GlobalPointer：用统一的方式处理嵌套和非嵌套NER》。简单来说，GlobalPointer是基于内积的token-pair识别模块，它可以用于NER场景，因为对于NER来说我们只需要把每一类实体的“(首, 尾)”这样的token-pair识别出来就行了。

点击阅读全文...

分类：信息时代标签：模型, NLP, NER 阅读全文 63 评论

30 Jan

GPLinker：基于GlobalPointer的实体关系联合抽取

By 苏剑林 | 2022-01-30 | 127091位读者 | 引用

在将近三年前的百度“2019语言与智能技术竞赛”（下称LIC2019）中，笔者提出了一个新的关系抽取模型（参考《基于DGCNN和概率图的轻量级信息抽取模型》），后被进一步发表和命名为“CasRel”，算是当时关系抽取的SOTA。然而，CasRel提出时笔者其实也是首次接触该领域，所以现在看来CasRel仍有诸多不完善之处，笔者后面也有想过要进一步完善它，但也没想到特别好的设计。

后来，笔者提出了GlobalPointer以及近日的Efficient GlobalPointer，感觉有足够的“材料”来构建新的关系抽取模型了。于是笔者从概率图思想出发，参考了CasRel之后的一些SOTA设计，最终得到了一版类似TPLinker的模型。

基础思路

关系抽取乍看之下是三元组$(s,p,o)$（即subject, predicate, object)的抽取，但落到具体实现上，它实际是“五元组”$(s_h,s_t,p,o_h,o_t)$的抽取，其中$s_h,s_t$分别是$s$的首、尾位置，而$o_h,o_t$则分别是$o$的首、尾位置。

点击阅读全文...

分类：信息时代标签：NLP, 信息抽取, NER 阅读全文 52 评论

11 Mar

门控注意力单元（GAU）还需要Warmup吗？

By 苏剑林 | 2022-03-11 | 48427位读者 | 引用

在文章《训练1000层的Transformer究竟有什么困难？》发布之后，很快就有读者问到如果将其用到《FLASH：可能是近来最有意思的高效Transformer设计》中的“门控注意力单元（GAU）”，那结果是怎样的？跟标准Transformer的结果有何不同？本文就来讨论这个问题。

先说结论

事实上，GAU是非常容易训练的模型，哪怕我们不加调整地直接使用“Post Norm + Xavier初始化”，也能轻松训练个几十层的GAU，并且还不用Warmup。所以关于标准Transformer的很多训练技巧，到了GAU这里可能就无用武之地了...

为什么GAU能做到这些？很简单，因为在默认设置之下，理论上$\text{GAU}(\boldsymbol{x}_l)$相比$\boldsymbol{x}_l$几乎小了两个数量级，所以
\begin{equation}\boldsymbol{x}_{l+1} = \text{LN}(\boldsymbol{x}_l + \text{GAU}(\boldsymbol{x}_l))\approx \boldsymbol{x}_l\end{equation}

点击阅读全文...

分类：信息时代标签：模型, 优化, attention 阅读全文 13 评论

19 Mar

为什么需要残差？一个来自DeepNet的视角

By 苏剑林 | 2022-03-19 | 65890位读者 | 引用

在《训练1000层的Transformer究竟有什么困难？》中我们介绍了微软提出的能训练1000层Transformer的DeepNet技术。而对于DeepNet，读者一般也有两种反应，一是为此感到惊叹而点赞，另一则是觉得新瓶装旧酒没意思。出现后一种反应的读者，往往是因为DeepNet所提出的两个改进点——增大恒等路径权重和降低残差分支初始化——实在过于稀松平常，并且其他工作也出现过类似的结论，因此很难有什么新鲜感。

诚然，单从结论来看，DeepNet实在算不上多有意思，但笔者觉得，DeepNet的过程远比结论更为重要，它有意思的地方在于提供了一个简明有效的梯度量级分析思路，并可以用于分析很多相关问题，比如本文要讨论的“为什么需要残差”，它就可以给出一个比较贴近本质的答案。

增量爆炸

为什么需要残差？答案是有了残差才更好训练深层模型，这里的深层可能是百层、千层甚至万层。那么问题就变成了为什么没有残差就不容易训练深层模型呢？

点击阅读全文...

分类：信息时代标签：模型, 优化, 深度学习, 梯度阅读全文 24 评论

21 Mar

RoFormerV2：自然语言理解的极限探索

By 苏剑林 | 2022-03-21 | 64114位读者 | 引用

大概在1年前，我们提出了旋转位置编码（RoPE），并发布了对应的预训练模型RoFormer。随着时间的推移，RoFormer非常幸运地得到了越来越多的关注和认可，比如EleutherAI新发布的60亿和200亿参数的GPT模型中就用上了RoPE位置编码，Google新提出的FLASH模型论文中则明确指出了RoPE对Transformer效果有明显的提升作用。

与此同时，我们也一直在尝试继续加强RoFormer模型，试图让RoFormer的性能“更上一层楼”。经过近半年的努力，我们自认为取得了还不错的成果，因此将其作为“RoFormerV2”正式发布：

Github：https://github.com/ZhuiyiTechnology/roformer-v2

点击阅读全文...

分类：信息时代标签：语言模型, 预训练阅读全文 23 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

变分自编码器（八）：估计样本概率密度

两个问题

Seq2Seq+前缀树：检索任务新范式（以KgCLUE为例）

SquarePlus：可能是运算最简单的ReLU光滑近似

定义

Efficient GlobalPointer：少点参数，多点效果

大量的参数

GPLinker：基于GlobalPointer的实体关系联合抽取

基础思路

门控注意力单元（GAU）还需要Warmup吗？

先说结论

为什么需要残差？一个来自DeepNet的视角

增量爆炸

RoFormerV2：自然语言理解的极限探索

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接