包含关键字 Transformer升级之路的文章 - 科学空间|Scientific Spaces

27 Jul

今天升级了Blog（欢迎大家来“顶”！）

By 苏剑林 | 2009-07-27 | 72843位读者 | 引用

今天把Blog程序版本升级到了PJBlog3 v3.2.7.300，乃目前最新版本。。欢迎大家来“顶”文章！

点击阅读全文...

分类：生活/情感标签：网站阅读全文 1 评论

19 Jan

宇宙驿站服务器升级完毕

By 苏剑林 | 2014-01-19 | 33959位读者 | 引用

这一周科学空间时断时续的，原因是原来的服务器两个内存条坏了，内存不够用。

后来天文台决定给我们换一台服务器，这两天主要在转移数据，从而不能访问。

目前，基本上已经转移好了，服务器升级工作基本完成。新服务器的升级，CPU从原来的8核升级为48核，内存从16GB升级为64GB。再次感谢国家天文台宇宙驿站给予我们的服务^_^感谢各位技术人员的努力，让我们一起把中文科普事业做得更好~

分类：生活/情感标签：天文台, 网站, 服务器阅读全文 3 评论

5 Dec

万能的seq2seq：基于seq2seq的阅读理解问答

By 苏剑林 | 2019-12-05 | 96963位读者 | 引用

今天给bert4keras新增加了一个例子：阅读理解式问答（task_reading_comprehension_by_seq2seq.py），语料跟之前一样，都是用WebQA和SogouQA，最终的得分在0.77左右（单模型，没精调）。

用seq2seq做阅读理解的模型图示

方法简述

由于这次主要目的是给bert4keras增加demo，因此效率就不是主要关心的目标了。这次的目标主要是通用性和易用性，所以用了最万能的方案——seq2seq来实现做阅读理解。

用seq2seq做的话，基本不用怎么关心模型设计，只要把篇章和问题拼接起来，然后预测答案就行了。此外，seq2seq的方案还自然地包括了判断篇章有无答案的方法，以及自然地导出一种多篇章投票的思路。总而言之，不考虑效率的话，seq2seq做阅读理解是一种相当优雅的方案。

这次实现seq2seq还是用UNILM的方案，如果还不了解的读者，可以先阅读《从语言模型到Seq2Seq：Transformer如戏，全靠Mask》了解相应内容。

点击阅读全文...

分类：信息时代标签：问答, 语言模型, 文本生成阅读全文 21 评论

14 Dec

基于Conditional Layer Normalization的条件文本生成

By 苏剑林 | 2019-12-14 | 128118位读者 | 引用

从文章《从语言模型到Seq2Seq：Transformer如戏，全靠Mask》中我们可以知道，只要配合适当的Attention Mask，Bert（或者其他Transformer模型）就可以用来做无条件生成（Language Model）和序列翻译（Seq2Seq）任务。

可如果是有条件生成呢？比如控制文本的类别，按类别随机生成文本，也就是Conditional Language Model；又比如传入一副图像，来生成一段相关的文本描述，也就是Image Caption。

今天介绍一个有意思的LSTM变种：ON-LSTM，其中“ON”的全称是“Ordered Neurons”，即有序神经元，换句话说这种LSTM内部的神经元是经过特定排序的，从而能够表达更丰富的信息。ON-LSTM来自文章《Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks》，顾名思义，将神经元经过特定排序是为了将层级结构（树结构）整合到LSTM中去，从而允许LSTM能自动学习到层级结构信息。这篇论文还有另一个身份：ICLR 2019的两篇最佳论文之一，这表明在神经网络中融合层级结构（而不是纯粹简单地全向链接）是很多学者共同感兴趣的课题。

ON-LSTM运算流程示意图。主要是将分段函数用cumax光滑化变成可导。

笔者留意到ON-LSTM是因为机器之心的介绍，里边提到它除了提高了语言模型的效果之外，甚至还可以无监督地学习到句子的句法结构！正是这一点特性深深吸引了我，而它最近获得ICLR 2019最佳论文的认可，更是坚定了我要弄懂它的决心。认真研读、推导了差不多一星期之后，终于有点眉目了，遂写下此文。

在正式介绍ON-LSTM之后，我忍不住要先吐槽一下这篇文章实在是写得太差了，将一个明明很生动形象的设计，讲得异常晦涩难懂，其中的核心是 $\tilde{f}_t$ 和 $\tilde{i}_t$ 的定义，文中几乎没有任何铺垫就贴了出来，也没有多少诠释，开始的读了好几次仍然像天书一样...总之，文章写法实在不敢恭维～

点击阅读全文...

分类：信息时代标签：模型, 深度学习, 无监督, NLP 阅读全文 78 评论

27 Jul

为节约而生：从标准Attention到稀疏Attention

By 苏剑林 | 2019-07-27 | 150114位读者 | 引用

attention, please!

如今NLP领域，Attention大行其道，当然也不止NLP，在CV领域Attention也占有一席之地（Non Local、SAGAN等）。在18年初《〈Attention is All You Need〉浅读（简介+代码）》一文中，我们就已经讨论过Attention机制，Attention的核心在于 $\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}$ 三个向量序列的交互和融合，其中 $\boldsymbol{Q},\boldsymbol{K}$ 的交互给出了两两向量之间的某种相关度（权重），而最后的输出序列则是把 $\boldsymbol{V}$ 按照权重求和得到的。

显然，众多NLP&CV的成果已经充分肯定了Attention的有效性。本文我们将会介绍Attention的一些变体，这些变体的共同特点是——“为节约而生”——既节约时间，也节约显存。

背景简述

《Attention is All You Need》一文讨论的我们称之为“乘性Attention”，目前用得比较广泛的也就是这种Attention：
$\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}) = softmax\left(\frac{\boldsymbol{Q}\boldsymbol{K}^{\top}}{\sqrt{d_k}}\right)\boldsymbol{V}\end{equation}$

点击阅读全文...

分类：信息时代标签：模型, 稀疏, attention 阅读全文 33 评论

26 Dec

“非自回归”也不差：基于MLM的阅读理解问答

By 苏剑林 | 2019-12-26 | 92078位读者 | 引用

前段时间写了《万能的seq2seq：基于seq2seq的阅读理解问答》，探索了以最通用的seq2seq的方式来做阅读理解式问答，并且取得相当不错的成绩（单模型0.77，超过参加比赛时精调的最佳模型）。这篇文章我们继续做这个任务，不过换一个思路，直接基于MLM模型来做，最终成绩基本一致，但能提高预测速度。

用MLM做阅读理解的模型图示（其中[M]表示[MASK]标记）

点击阅读全文...

分类：信息时代标签：问答, 语言模型, 生成模型, 文本生成阅读全文 23 评论

8 Jul

用时间换取效果：Keras梯度累积优化器

By 苏剑林 | 2019-07-08 | 87216位读者 | 引用

现在Keras中你也可以用小的batch size实现大batch size的效果了——只要你愿意花 $n$ 倍的时间，可以达到 $n$ 倍batch size的效果，而不需要增加显存。

Github地址：https://github.com/bojone/accum_optimizer_for_keras

扯淡

在一两年之前，做NLP任务都不用怎么担心OOM问题，因为相比CV领域的模型，其实大多数NLP模型都是很浅的，极少会显存不足。幸运或者不幸的是，Bert出世了，然后火了。Bert及其后来者们（GPT-2、XLNET等）都是以足够庞大的Transformer模型为基础，通过足够多的语料预训练模型，然后通过fine tune的方式来完成特定的NLP任务。

点击阅读全文...

分类：信息时代标签：keras, 梯度, 优化器阅读全文 24 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

今天升级了Blog（欢迎大家来“顶”！）

宇宙驿站服务器升级完毕

万能的seq2seq：基于seq2seq的阅读理解问答

方法简述

基于Conditional Layer Normalization的条件文本生成

相关工作

ON-LSTM：用有序神经元表达层次结构

为节约而生：从标准Attention到稀疏Attention

背景简述

“非自回归”也不差：基于MLM的阅读理解问答

用时间换取效果：Keras梯度累积优化器

扯淡

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接