包含关键字生成扩散模型的文章 - 科学空间|Scientific Spaces

11 Nov

JoSE：球面上的词向量和句向量

By 苏剑林 | 2019-11-11 | 73104位读者 | 引用

这篇文章介绍一个发表在NeurIPS 2019的做词向量和句向量的模型JoSE（Joint Spherical Embedding），论文名字是《Spherical Text Embedding》。JoSE模型思想上和方法上传承自Doc2Vec，评测结果更加漂亮，但写作有点故弄玄虚之感。不过笔者决定写这篇文章，是因为觉得里边的某些分析过程有点意思，可能会对一般的优化问题都有些参考价值。

优化目标

在思想上，这篇文章基本上跟Doc2Vec是一致的：为了训练句向量，把句子用一个id表示，然后把它也当作一个词，跟句内所有的词都共现，最后训练一个Skip Gram模型，训练的方式都是基于负采样的。跟Doc2Vec不一样的是，JoSE将全体向量的模长都归一化了（也就是只考虑单位球面上的向量），然后训练目标没有用交叉熵，而是用hinge loss：
\begin{equation}\max(0, m - \cos(\boldsymbol{u}, \boldsymbol{v}) - \cos(\boldsymbol{u}, \boldsymbol{d}) + \cos(\boldsymbol{u}', \boldsymbol{v}) + \cos(\boldsymbol{u}', \boldsymbol{d})\label{eq:loss}\end{equation}

点击阅读全文...

分类：信息时代标签：几何, 自然语言处理, 词向量, NLP 阅读全文 20 评论

3 Jan

用bert4keras做三元组抽取

By 苏剑林 | 2020-01-03 | 274891位读者 | 引用

在开发bert4keras的时候就承诺过，会逐渐将之前用keras-bert实现的例子逐渐迁移到bert4keras来，而那里其中一个例子便是三元组抽取的任务。现在bert4keras的例子已经颇为丰富了，但还没有序列标注和信息抽取相关的任务，而三元组抽取正好是这样的一个任务，因此就补充上去了。

基于Bert的三元组抽取模型结构示意图

点击阅读全文...

分类：信息时代标签：语言模型, 信息抽取阅读全文 117 评论

18 Jun

当Bert遇上Keras：这可能是Bert最简单的打开姿势

By 苏剑林 | 2019-06-18 | 449319位读者 | 引用

Bert是什么，估计也不用笔者来诸多介绍了。虽然笔者不是很喜欢Bert，但不得不说，Bert确实在NLP界引起了一阵轩然大波。现在不管是中文还是英文，关于Bert的科普和解读已经满天飞了，隐隐已经超过了当年Word2Vec刚出来的势头了。有意思的是，Bert是Google搞出来的，当年的word2vec也是Google搞出来的，不管你用哪个，都是在跟着Google大佬的屁股跑啊～

Bert刚出来不久，就有读者建议我写个解读，但我终究还是没有写。一来，Bert的解读已经不少了，二来其实Bert也就是基于Attention的搞出来的大规模语料预训练的模型，本身在技术上不算什么创新，而关于Google的Attention我已经写过解读了，所以就提不起劲来写了。

Bert的预训练和微调（图片来自Bert的原论文）

总的来说，我个人对Bert一直也没啥兴趣，直到上个月末在做信息抽取比赛时，才首次尝试了Bert。因为后来想到，即使不感兴趣，终究也是得学会它，毕竟用不用是一回事，会不会又是另一回事。再加上在Keras中使用（fine tune）Bert，似乎还没有什么文章介绍，所以就分享一下自己的使用经验。

点击阅读全文...

分类：信息时代标签：语言模型, 比赛, 信息抽取, attention 阅读全文 168 评论

25 Nov

6个派生优化器的简单介绍及其实现

By 苏剑林 | 2019-11-25 | 55112位读者 | 引用

优化器可能是深度学习最“玄学”的一个模块之一了：有时候换一个优化器就能带来明显的提升，有时候别人说提升很多的优化器用到自己的任务上却一丁点用都没有，理论性质好的优化器不一定工作得很好，纯粹拍脑袋而来的优化器也未必就差了。但不管怎样，优化器终究也为热爱“深度炼丹”的同学提供了多一个选择。

近几年来，关于优化器的工作似乎也在慢慢增多，很多论文都提出了对常用优化器（尤其是Adam）的大大小小的改进。本文就汇总一些优化器工作或技巧，并统一给出了代码实现，供读者有需调用。

基本形式

所谓“派生”，就是指相关的技巧都是建立在已有的优化器上的，任意一个已有的优化器都可以用上这些技巧，从而变成一个新的优化器。

已有的优化器的基本形式为：
\begin{equation}\begin{aligned}\boldsymbol{g}_t =&\, \nabla_{\boldsymbol{\theta}} L\\
\boldsymbol{h}_t =&\, f(\boldsymbol{g}_{\leq t})\\
\boldsymbol{\theta}_{t+1} =&\, \boldsymbol{\theta}_t - \gamma \boldsymbol{h}_t
\end{aligned}\end{equation}
其中$\boldsymbol{g}_t$即梯度，而$\boldsymbol{g}_{\leq t}$指的是截止到当前步的所有梯度信息，它们经过某种运算$f$（比如累积动量、累积二阶矩校正学习率等）后得到$\boldsymbol{h}_t$，然后由$\boldsymbol{h}_t$来更新参数，这里的$\gamma$就是指学习率。

点击阅读全文...

分类：信息时代标签：python, keras, 优化器阅读全文 10 评论

27 Aug

自己实现了一个bert4keras

By 苏剑林 | 2019-08-27 | 188586位读者 | 引用

分享个人实现的bert4keras：

https://github.com/bojone/bert4keras

这是笔者重新实现的keras版的bert，致力于用尽可能清爽的代码来实现keras下调用bert。

说明

目前已经基本实现bert，并且能成功加载官方权重，经验证模型输出跟keras-bert一致，大家可以放心使用。

本项目的初衷是为了修改、定制上的方便，所以可能会频繁更新。

因此欢迎star，但不建议fork，因为你fork下来的版本可能很快就过期了。

点击阅读全文...

分类：信息时代标签：语言模型, NLP, keras, attention 阅读全文 48 评论

8 Jul

用时间换取效果：Keras梯度累积优化器

By 苏剑林 | 2019-07-08 | 84313位读者 | 引用

现在Keras中你也可以用小的batch size实现大batch size的效果了——只要你愿意花$n$倍的时间，可以达到$n$倍batch size的效果，而不需要增加显存。

Github地址：https://github.com/bojone/accum_optimizer_for_keras

扯淡

在一两年之前，做NLP任务都不用怎么担心OOM问题，因为相比CV领域的模型，其实大多数NLP模型都是很浅的，极少会显存不足。幸运或者不幸的是，Bert出世了，然后火了。Bert及其后来者们（GPT-2、XLNET等）都是以足够庞大的Transformer模型为基础，通过足够多的语料预训练模型，然后通过fine tune的方式来完成特定的NLP任务。

点击阅读全文...

分类：信息时代标签：keras, 梯度, 优化器阅读全文 24 评论

30 Jul

Keras实现两个优化器：Lookahead和LazyOptimizer

By 苏剑林 | 2019-07-30 | 48923位读者 | 引用

最近用Keras实现了两个优化器，也算是有点实现技巧，遂放在一起写篇文章简介一下（如果只有一个的话我就不写了）。这两个优化器的名字都挺有意思的，一个是look ahead（往前看？），一个是lazy（偷懒？），难道是两个完全不同的优化思路么？非也非也～只能说发明者们起名字太有创意了。

Lookahead

首先登场的是Lookahead优化器，它源于论文《Lookahead Optimizer: k steps forward, 1 step back》，是最近才提出来的优化器，有意思的是大牛Hinton和Adam的作者之一Jimmy Ba也出现在了论文作者列表当中，有这两个大神加持，这个优化器的出现便吸引了不少目光。

点击阅读全文...

分类：信息时代标签：keras, 优化器阅读全文 7 评论

13 Apr

突破瓶颈，打造更强大的Transformer

By 苏剑林 | 2020-04-13 | 137260位读者 | 引用

自《Attention is All You Need》一文发布后，基于Multi-Head Attention的Transformer模型开始流行起来，而去年发布的BERT模型更是将Transformer模型的热度推上了又一个高峰。当然，技术的探索是无止境的，改进的工作也相继涌现：有改进预训练任务的，比如XLNET的PLM、ALBERT的SOP等；有改进归一化的，比如Post-Norm向Pre-Norm的改变，以及T5中去掉了Layer Norm里边的beta参数等；也有改进模型结构的，比如Transformer-XL等；有改进训练方式的，比如ALBERT的参数共享等；...

以上的这些改动，都是在Attention外部进行改动的，也就是说它们都默认了Attention的合理性，没有对Attention本身进行改动。而本文我们则介绍关于两个新结果：它们针对Multi-Head Attention中可能存在建模瓶颈，提出了不同的方案来改进Multi-Head Attention。两篇论文都来自Google，并且做了相当充分的实验，因此结果应该是相当有说服力的了。

再小也不能小key_size

第一个结果来自文章《Low-Rank Bottleneck in Multi-head Attention Models》，它明确地指出了Multi-Head Attention里边的表达能力瓶颈，并提出通过增大key_size的方法来缓解这个瓶颈。

点击阅读全文...

分类：信息时代标签：概率, 深度学习, attention 阅读全文 57 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

JoSE：球面上的词向量和句向量

优化目标

用bert4keras做三元组抽取

当Bert遇上Keras：这可能是Bert最简单的打开姿势

6个派生优化器的简单介绍及其实现

基本形式

自己实现了一个bert4keras

说明

用时间换取效果：Keras梯度累积优化器

扯淡

Keras实现两个优化器：Lookahead和LazyOptimizer

Lookahead

突破瓶颈，打造更强大的Transformer

再小也不能小key_size

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接