包含关键字 klimet sa de cv 的文章 - 科学空间|Scientific Spaces

22 Jan

【搜出来的文本】⋅（三）基于BERT的文本采样

By 苏剑林 | 2021-01-22 | 95637位读者 | 引用

从这一篇开始，我们就将前面所介绍的采样算法应用到具体的文本生成例子中。而作为第一个例子，我们将介绍如何利用BERT来进行文本随机采样。所谓文本随机采样，就是从模型中随机地产生一些自然语言句子出来，通常的观点是这种随机采样是GPT2、GPT3这种单向自回归语言模型专有的功能，而像BERT这样的双向掩码语言模型（MLM）是做不到的。

事实真的如此吗？当然不是。利用BERT的MLM模型其实也可以完成文本采样，事实上它就是上一篇文章所介绍的Gibbs采样。这一事实首先由论文《BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model》明确指出。论文的标题也颇为有趣：“BERT也有嘴巴，所以它得说点什么。”现在就让我们看看BERT究竟能说出什么来～

点击阅读全文...

分类：信息时代标签：文本生成, 采样, 离散优化, MCMC 阅读全文 32 评论

16 Feb

Nyströmformer：基于矩阵分解的线性化Attention方案

By 苏剑林 | 2021-02-16 | 50230位读者 | 引用

标准Attention的$\mathcal{O}(n^2)$复杂度可真是让研究人员头大。前段时间我们在博文《Performer：用随机投影将Attention的复杂度线性化》中介绍了Google的Performer模型，它通过随机投影的方式将标准Attention转化为线性Attention。无独有偶，前些天Arxiv上放出了AAAI 2021的一篇论文《Nyströmformer: A Nyström-Based Algorithm for Approximating Self-Attention》，里边又提出了一种从另一个角度把标准Attention线性化的方案。

Nyströmformer结构示意图

该方案写的是Nyström-Based，顾名思义是利用了Nyström方法来近似标准Attention的。但是坦白说，在看到这篇论文之前，笔者也完全没听说过Nyström方法，而纵观整篇论文，里边也全是笔者一眼看上去感觉很茫然的矩阵分解推导，理解起来颇为困难。不过有趣的是，尽管作者的推导很复杂，但笔者发现最终的结果可以通过一个相对来说更简明的方式来理解，遂将笔者对Nyströmformer的理解整理在此，供大家参考。

点击阅读全文...

分类：信息时代标签：矩阵, 语言模型, attention 阅读全文 9 评论

25 Feb

【搜出来的文本】⋅（四）通过增、删、改来用词造句

By 苏剑林 | 2021-02-25 | 51903位读者 | 引用

“用词造句”是小学阶段帮助我们理解和运用词语的一个经典任务，从自然语言处理的角度来看，它是一个句子扩写或者句子补全任务，它其实要求我们具有不定向地进行文本生成的能力。然而，当前主流的语言模型都是单方向生成的（多数是正向的，即从左往右，少数是反向的，即从右往左），但用词造句任务中所给的若干个词未必一定出现在句首或者句末，这导致无法直接用语言模型来完成造句任务。

本文我们将介绍论文《CGMH: Constrained Sentence Generation by Metropolis-Hastings Sampling》，它使用MCMC采样使得单向语言模型也可以做到不定向生成，通过增、删、改操作模拟了人的写作润色过程，从而能无监督地完成用词造句等多种文本生成任务。

问题设置

无监督地进行文本采样，那么直接可以由语言模型来完成，而我们同样要做的，是往这个采样过程中加入一些信号$\boldsymbol{c}$，使得它能生成我们期望的一些文本。在本系列第一篇文章《【搜出来的文本】⋅（一）从文本生成到搜索采样》的“明确目标”一节中，我们就介绍了本系列的指导思想：把我们要寻找的目标量化地写下来，然后最大化它或者从中采样。

点击阅读全文...

分类：信息时代标签：文本生成, 采样, 离散优化, MCMC 阅读全文 14 评论

15 Mar

WGAN的成功，可能跟Wasserstein距离没啥关系

By 苏剑林 | 2021-03-15 | 58754位读者 | 引用

WGAN，即Wasserstein GAN，算是GAN史上一个比较重要的理论突破结果，它将GAN中两个概率分布的度量从f散度改为了Wasserstein距离，从而使得WGAN的训练过程更加稳定，而且生成质量通常也更好。Wasserstein距离跟最优传输相关，属于Integral Probability Metric（IPM）的一种，这类概率度量通常有着更优良的理论性质，因此WGAN的出现也吸引了很多人从最优传输和IPMs的角度来理解和研究GAN模型。

然而，最近Arxiv上的论文《Wasserstein GANs Work Because They Fail (to Approximate the Wasserstein Distance)》则指出，尽管WGAN是从Wasserstein GAN推导出来的，但是现在成功的WGAN并没有很好地近似Wasserstein距离，相反如果我们对Wasserstein距离做更好的近似，效果反而会变差。事实上，笔者一直以来也有这个疑惑，即Wasserstein距离本身并没有体现出它能提升GAN效果的必然性，该论文的结论则肯定了该疑惑，所以GAN能成功的原因依然很迷～

点击阅读全文...

分类：信息时代标签：优化, GAN, 生成模型阅读全文 14 评论

3 Apr

P-tuning：自动构建模版，释放语言模型潜能

By 苏剑林 | 2021-04-03 | 161038位读者 | 引用

在之前的文章《必须要GPT3吗？不，BERT的MLM模型也能小样本学习》中，我们介绍了一种名为Pattern-Exploiting Training（PET）的方法，它通过人工构建的模版与BERT的MLM模型结合，能够起到非常好的零样本、小样本乃至半监督学习效果，而且该思路比较优雅漂亮，因为它将预训练任务和下游任务统一起来了。然而，人工构建这样的模版有时候也是比较困难的，而且不同的模版效果差别也很大，如果能够通过少量样本来自动构建模版，也是非常有价值的。

P-tuning直接使用[unused]来构建模版，不关心模版的自然语言性

最近Arxiv上的论文《GPT Understands, Too》提出了名为P-tuning的方法，成功地实现了模版的自动构建。不仅如此，借助P-tuning，GPT在SuperGLUE上的成绩首次超过了同等级别的BERT模型，这颠覆了一直以来“GPT不擅长NLU”的结论，也是该论文命名的缘由。

点击阅读全文...

分类：信息时代标签：语言模型, NLP 阅读全文 64 评论

10 May

Transformer升级之路：4、二维位置的旋转式位置编码

By 苏剑林 | 2021-05-10 | 121887位读者 | 引用

在之前的文章《Transformer升级之路：2、博采众长的旋转式位置编码》中我们提出了旋转式位置编码RoPE以及对应的Transformer模型RoFormer。由于笔者主要研究的领域还是NLP，所以本来这个事情对于笔者来说已经完了。但是最近一段时间，Transformer模型在视觉领域也大火，各种Vision Transformer（ViT）层出不穷，于是就有了问题：二维情形的RoPE应该是怎样的呢？

咋看上去，这个似乎应该只是一维情形的简单推广，但其中涉及到的推导和理解却远比我们想象中复杂，本文就对此做一个分析，从而深化我们对RoPE的理解。

二维RoPE

什么是二维位置？对应的二维RoPE又是怎样的？它的难度在哪里？在这一节中，我们先简单介绍二维位置，然后直接给出二维RoPE的结果和推导思路，在随后的几节中，我们再详细给出推导过程。

点击阅读全文...

分类：数学研究,信息时代标签：复数, 矩阵, attention, 位置编码, rope 阅读全文 51 评论

17 May

变分自编码器（七）：球面上的VAE（vMF-VAE）

By 苏剑林 | 2021-05-17 | 149017位读者 | 引用

在《变分自编码器（五）：VAE + BN = 更好的VAE》中，我们讲到了NLP中训练VAE时常见的KL散度消失现象，并且提到了通过BN来使得KL散度项有一个正的下界，从而保证KL散度项不会消失。事实上，早在2018年的时候，就有类似思想的工作就被提出了，它们是通过在VAE中改用新的先验分布和后验分布，来使得KL散度项有一个正的下界。

该思路出现在2018年的两篇相近的论文中，分别是《Hyperspherical Variational Auto-Encoders》和《Spherical Latent Spaces for Stable Variational Autoencoders》，它们都是用定义在超球面的von Mises–Fisher（vMF）分布来构建先后验分布。某种程度上来说，该分布比我们常用的高斯分布还更简单和有趣～

KL散度消失

我们知道，VAE的训练目标是
\begin{equation}\mathcal{L} = \mathbb{E}_{x\sim \tilde{p}(x)} \Big[\mathbb{E}_{z\sim p(z|x)}\big[-\log q(x|z)\big]+KL\big(p(z|x)\big\Vert q(z)\big)\Big]
\end{equation}

点击阅读全文...

分类：信息时代标签：变分, 无监督, vae, 生成模型阅读全文 58 评论

10 Oct

用狄拉克函数来构造非光滑函数的光滑近似

By 苏剑林 | 2021-10-10 | 82425位读者 | 引用

在机器学习中，我们经常会碰到不光滑的函数，但我们的优化方法通常是基于梯度的，这意味着光滑的模型可能更利于优化（梯度是连续的），所以就有了寻找非光滑函数的光滑近似的需求。事实上，本博客已经多次讨论过相关主题，比如《寻求一个光滑的最大值函数》、《函数光滑化杂谈：不可导函数的可导逼近》等，但以往的讨论在方法上并没有什么通用性。

不过，笔者从最近的一篇论文《SAU: Smooth activation function using convolution with approximate identities》学习到了一种比较通用的思路：用狄拉克函数来构造光滑近似。通用到什么程度呢？理论上有可数个间断点的函数都可以用它来构造光滑近似！个人感觉还是非常有意思的。

点击阅读全文...

分类：数学研究标签：函数, 近似, 分析, 光滑阅读全文 22 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

【搜出来的文本】⋅（三）基于BERT的文本采样

Nyströmformer：基于矩阵分解的线性化Attention方案

【搜出来的文本】⋅（四）通过增、删、改来用词造句

问题设置

WGAN的成功，可能跟Wasserstein距离没啥关系

P-tuning：自动构建模版，释放语言模型潜能

Transformer升级之路：4、二维位置的旋转式位置编码

二维RoPE

变分自编码器（七）：球面上的VAE（vMF-VAE）

KL散度消失

用狄拉克函数来构造非光滑函数的光滑近似

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接