包含关键字 klimet sa de cv 的文章 - 科学空间|Scientific Spaces

24 May

也来盘点一些最近的非Transformer工作

By 苏剑林 | 2021-05-24 | 63420位读者 | 引用

大家最近应该多多少少都被各种MLP相关的工作“席卷眼球”了。以Google为主的多个研究机构“奇招频出”，试图从多个维度“打击”Transformer模型，其中势头最猛的就是号称是纯MLP的一系列模型了，让人似乎有种“MLP is all you need”时代到来的感觉。

这一顿顿让人眼花缭乱的操作背后，究竟是大道至简下的“返璞归真”，还是江郎才尽后的“冷饭重炒”？让我们也来跟着这股热潮，一起盘点一些最近的相关工作。

五月人倍忙

怪事天天有，五月特别多。这个月以来，各大机构似乎相约好了一样，各种非Transformer的工作纷纷亮相，仿佛“忽如一夜春风来，千树万树梨花开”。单就笔者在Arxiv上刷到的相关论文，就已经多达七篇（一个月还没过完，七篇方向极其一致的论文），涵盖了NLP和CV等多个任务，真的让人应接不暇：

点击阅读全文...

分类：信息时代标签：模型, 优化, 语言模型, attention 阅读全文 17 评论

17 Jun

对比学习可以使用梯度累积吗？

By 苏剑林 | 2021-06-17 | 63884位读者 | 引用

在之前的文章《用时间换取效果：Keras梯度累积优化器》中，我们介绍过“梯度累积”，它是在有限显存下实现大batch_size效果的一种技巧。一般来说，梯度累积适用的是loss是独立同分布的场景，换言之每个样本单独计算loss，然后总loss是所有单个loss的平均或求和。然而，并不是所有任务都满足这个条件的，比如最近比较热门的对比学习，每个样本的loss还跟其他样本有关。

那么，在对比学习场景，我们还可以使用梯度累积来达到大batch_size的效果吗？本文就来分析这个问题。

简介

一般情况下，对比学习的loss可以写为
\begin{equation}\mathcal{L}=-\sum_{i,j=1}^b t_{i,j}\log p_{i,j} = -\sum_{i,j=1}^b t_{i,j}\log \frac{e^{s_{i,j}}}{\sum\limits_j e^{s_{i,j}}}=-\sum_{i,j=1}^b t_{i,j}s_{i,j} + \sum_{i=1}^b \log\sum_{j=1}^b e^{s_{i,j}}\label{eq:loss}\end{equation}
这里的$b$是batch_size；$t_{i,j}$是事先给定的标签，满足$t_{i,j}=t_{j,i}$，它是一个one hot矩阵，每一列只有一个1，其余都为0；而$s_{i,j}$是样本$i$和样本$j$的相似度，满足$s_{i,j}=s_{j,i}$，一般情况下还有个温度参数，这里假设温度参数已经整合到$s_{i,j}$中，从而简化记号。模型参数存在于$s_{i,j}$中，假设为$\theta$。

点击阅读全文...

分类：数学研究,信息时代标签：模型, 优化, 梯度阅读全文 22 评论

29 Jun

UniVAE：基于Transformer的单模型、多尺度的VAE模型

By 苏剑林 | 2021-06-29 | 76707位读者 | 引用

大家都知道，Transformer的$\mathcal{O}(n^2)$复杂度是它的“硬伤”之一。不过凡事有弊亦有利，$\mathcal{O}(n^2)$的复杂度也为Transformer带来很大的折腾空间，我们可以灵活地定制不同的attention mask，来设计出不同用途的Transformer模型来，比如UniLM、K-BERT等。

本文介绍笔者构思的一个能用于文本的UniVAE模型，它沿用类似UniLM的思路，将VAE做到了一个Transformer模型里边，并且还具备多尺度特性～

UniAE式Attention关联示意图

点击阅读全文...

分类：信息时代标签：变分, 无监督, vae, attention 阅读全文 27 评论

9 Aug

线性Transformer应该不是你要等的那个模型

By 苏剑林 | 2021-08-09 | 106816位读者 | 引用

在本博客中，我们已经多次讨论过线性Attention的相关内容。介绍线性Attention的逻辑大体上都是：标准Attention具有$\mathcal{O}(n^2)$的平方复杂度，是其主要的“硬伤”之一，于是我们$\mathcal{O}(n)$复杂度的改进模型，也就是线性Attention。有些读者看到线性Attention的介绍后，就一直很期待我们发布基于线性Attention的预训练模型，以缓解他们被BERT的算力消耗所折腾的“死去活来”之苦。

然而，本文要说的是：抱有这种念头的读者可能要失望了，标准Attention到线性Attention的转换应该远远达不到你的预期，而BERT那么慢的原因也并不是因为标准Attention的平方复杂度。

BERT之反思

按照直观理解，平方复杂度换成线性复杂度不应该要“突飞猛进”才对嘛？怎么反而“远远达不到预期”？出现这个疑惑的主要原因，是我们一直以来都没有仔细评估一下常规的Transformer模型（如BERT）的整体计算量。

点击阅读全文...

分类：信息时代标签：模型, 矩阵, attention 阅读全文 40 评论

26 Jul

FlatNCE：小批次对比学习效果差的原因竟是浮点误差？

By 苏剑林 | 2021-07-26 | 47799位读者 | 引用

自SimCLR在视觉无监督学习大放异彩以来，对比学习逐渐在CV乃至NLP中流行了起来，相关研究和工作越来越多。标准的对比学习的一个广为人知的缺点是需要比较大的batch_size（SimCLR在batch_size=4096时效果最佳），小batch_size的时候效果会明显降低，为此，后续工作的改进方向之一就是降低对大batch_size的依赖。那么，一个很自然的问题是：标准的对比学习在小batch_size时效果差的原因究竟是什么呢？

近日，一篇名为《Simpler, Faster, Stronger: Breaking The log-K Curse On Contrastive Learners With FlatNCE》对此问题作出了回答：因为浮点误差。看起来真的很让人难以置信，但论文的分析确实颇有道理，并且所提出的改进FlatNCE确实也工作得更好，让人不得不信服。

细微之处

接下来，笔者将按照自己的理解和记号来介绍原论文的主要内容。对比学习（Contrastive Learning）就不帮大家详细复习了，大体上来说，对于某个样本$x$，我们需要构建$K$个配对样本$y_1,y_2,\cdots,y_K$，其中$y_t$是正样本而其余都是负样本，然后分别给每个样本对$(x, y_i)$打分，分别记为$s_1,s_2,\cdots,s_K$，对比学习希望拉大正负样本对的得分差，通常直接用交叉熵作为损失：
\begin{equation}-\log \frac{e^{s_t}}{\sum\limits_i e^{s_i}} = \log \left(\sum_i e^{s_i}\right) - s_t = \log \left(1 + \sum_{i\neq t} e^{s_i - s_t}\right)\end{equation}

点击阅读全文...

分类：信息时代标签：优化, 损失函数, 对比学习阅读全文 8 评论

15 Nov

WGAN新方案：通过梯度归一化来实现L约束

By 苏剑林 | 2021-11-15 | 57478位读者 | 引用

当前，WGAN主流的实现方式包括参数裁剪（Weight Clipping）、谱归一化（Spectral Normalization）、梯度惩罚（Gradient Penalty），本来则来介绍一种新的实现方案：梯度归一化（Gradient Normalization），该方案出自两篇有意思的论文，分别是《Gradient Normalization for Generative Adversarial Networks》和《GraN-GAN: Piecewise Gradient Normalization for Generative Adversarial Networks》。

有意思在什么地方呢？从标题可以看到，这两篇论文应该是高度重合的，甚至应该是同一作者的。但事实上，这是两篇不同团队的、大致是同一时期的论文，一篇中了ICCV，一篇中了WACV，它们基于同样的假设推出了几乎一样的解决方案，内容重合度之高让我一直以为是同一篇论文。果然是巧合无处不在啊～

点击阅读全文...

分类：信息时代标签：无监督, GAN, 生成模型阅读全文 14 评论

25 Feb

FLASH：可能是近来最有意思的高效Transformer设计

By 苏剑林 | 2022-02-25 | 189292位读者 | 引用

高效Transformer，泛指所有概率Transformer效率的工作，笔者算是关注得比较早了，最早的博客可以追溯到2019年的《为节约而生：从标准Attention到稀疏Attention》，当时做这块的工作很少。后来，这类工作逐渐多了，笔者也跟进了一些，比如线性Attention、Performer、Nyströmformer，甚至自己也做了一些探索，比如之前的“Transformer升级之路”。再后来，相关工作越来越多，但大多都很无趣，所以笔者就没怎么关注了。

本文模型脉络图

大抵是“久旱逢甘霖”的感觉，最近终于出现了一个比较有意思的高效Transformer工作——来自Google的《Transformer Quality in Linear Time》，经过细读之后，笔者认为论文里边真算得上是“惊喜满满”了～

点击阅读全文...

分类：信息时代标签：语言模型, 生成模型, attention 阅读全文 85 评论

9 Mar

训练1000层的Transformer究竟有什么困难？

By 苏剑林 | 2022-03-09 | 81779位读者 | 引用

众所周知，现在的Transformer越做越大，但这个“大”通常是“宽”而不是“深”，像GPT-3虽然参数有上千亿，但也只是一个96层的Transformer模型，与我们能想象的深度相差甚远。是什么限制了Transformer往“深”发展呢？可能有的读者认为是算力，但“宽而浅”的模型所需的算力不会比“窄而深”的模型少多少，所以算力并非主要限制，归根结底还是Transformer固有的训练困难。一般的观点是，深模型的训练困难源于梯度消失或者梯度爆炸，然而实践显示，哪怕通过各种手段改良了梯度，深模型依然不容易训练。

近来的一些工作（如Admin）指出，深模型训练的根本困难在于“增量爆炸”，即模型越深对输出的扰动就越大。上周的论文《DeepNet: Scaling Transformers to 1,000 Layers》则沿着这个思路进行尺度分析，根据分析结果调整了模型的归一化和初始化方案，最终成功训练出了1000层的Transformer模型。整个分析过程颇有参考价值，我们不妨来学习一下。

增量爆炸

原论文的完整分析比较长，而且有些假设或者描述细酌之下是不够合理的。所以在本文的分享中，笔者会尽量修正这些问题，试图以一个更合理的方式来得到类似结果。

点击阅读全文...

分类：数学研究,信息时代标签：优化, 梯度, attention 阅读全文 35 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

也来盘点一些最近的非Transformer工作

五月人倍忙

对比学习可以使用梯度累积吗？

简介

UniVAE：基于Transformer的单模型、多尺度的VAE模型

线性Transformer应该不是你要等的那个模型

BERT之反思

FlatNCE：小批次对比学习效果差的原因竟是浮点误差？

细微之处

WGAN新方案：通过梯度归一化来实现L约束

FLASH：可能是近来最有意思的高效Transformer设计

训练1000层的Transformer究竟有什么困难？

增量爆炸

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接