包含关键字 2024-2580335 的文章 - 科学空间|Scientific Spaces

18 Jun

当Bert遇上Keras：这可能是Bert最简单的打开姿势

By 苏剑林 | 2019-06-18 | 419451位读者 | 引用

Bert是什么，估计也不用笔者来诸多介绍了。虽然笔者不是很喜欢Bert，但不得不说，Bert确实在NLP界引起了一阵轩然大波。现在不管是中文还是英文，关于Bert的科普和解读已经满天飞了，隐隐已经超过了当年Word2Vec刚出来的势头了。有意思的是，Bert是Google搞出来的，当年的word2vec也是Google搞出来的，不管你用哪个，都是在跟着Google大佬的屁股跑啊～

Bert刚出来不久，就有读者建议我写个解读，但我终究还是没有写。一来，Bert的解读已经不少了，二来其实Bert也就是基于Attention的搞出来的大规模语料预训练的模型，本身在技术上不算什么创新，而关于Google的Attention我已经写过解读了，所以就提不起劲来写了。

Bert的预训练和微调（图片来自Bert的原论文）

总的来说，我个人对Bert一直也没啥兴趣，直到上个月末在做信息抽取比赛时，才首次尝试了Bert。因为后来想到，即使不感兴趣，终究也是得学会它，毕竟用不用是一回事，会不会又是另一回事。再加上在Keras中使用（fine tune）Bert，似乎还没有什么文章介绍，所以就分享一下自己的使用经验。

点击阅读全文...

分类：信息时代标签：语言模型, 比赛, 信息抽取, attention 阅读全文 168 评论

26 Dec

“非自回归”也不差：基于MLM的阅读理解问答

By 苏剑林 | 2019-12-26 | 82852位读者 | 引用

前段时间写了《万能的seq2seq：基于seq2seq的阅读理解问答》，探索了以最通用的seq2seq的方式来做阅读理解式问答，并且取得相当不错的成绩（单模型0.77，超过参加比赛时精调的最佳模型）。这篇文章我们继续做这个任务，不过换一个思路，直接基于MLM模型来做，最终成绩基本一致，但能提高预测速度。

用MLM做阅读理解的模型图示（其中[M]表示[MASK]标记）

点击阅读全文...

分类：信息时代标签：问答, 语言模型, 生成模型, 文本生成阅读全文 23 评论

29 Sep

“让Keras更酷一些！”：层与模型的重用技巧

By 苏剑林 | 2019-09-29 | 106656位读者 | 引用

今天我们继续来深挖Keras，再次体验Keras那无与伦比的优雅设计。这一次我们的焦点是“重用”，主要是层与模型的重复使用。

所谓重用，一般就是奔着两个目标去：一是为了共享权重，也就是说要两个层不仅作用一样，还要共享权重，同步更新；二是避免重写代码，比如我们已经搭建好了一个模型，然后我们想拆解这个模型，构建一些子模型等。

基础

事实上，Keras已经为我们考虑好了很多，所以很多情况下，掌握好基本用法，就已经能满足我们很多需求了。

层的重用

层的重用是最简单的，将层初始化好，存起来，然后反复调用即可：

x_in = Input(shape=(784,))
x = x_in

layer = Dense(784, activation='relu') # 初始化一个层，并存起来

x = layer(x) # 第一次调用
x = layer(x) # 再次调用
x = layer(x) # 再次调用

点击阅读全文...

分类：信息时代标签：模型, keras 阅读全文 21 评论

25 Nov

6个派生优化器的简单介绍及其实现

By 苏剑林 | 2019-11-25 | 51764位读者 | 引用

优化器可能是深度学习最“玄学”的一个模块之一了：有时候换一个优化器就能带来明显的提升，有时候别人说提升很多的优化器用到自己的任务上却一丁点用都没有，理论性质好的优化器不一定工作得很好，纯粹拍脑袋而来的优化器也未必就差了。但不管怎样，优化器终究也为热爱“深度炼丹”的同学提供了多一个选择。

近几年来，关于优化器的工作似乎也在慢慢增多，很多论文都提出了对常用优化器（尤其是Adam）的大大小小的改进。本文就汇总一些优化器工作或技巧，并统一给出了代码实现，供读者有需调用。

基本形式

所谓“派生”，就是指相关的技巧都是建立在已有的优化器上的，任意一个已有的优化器都可以用上这些技巧，从而变成一个新的优化器。

已有的优化器的基本形式为：
\begin{equation}\begin{aligned}\boldsymbol{g}_t =&\, \nabla_{\boldsymbol{\theta}} L\\
\boldsymbol{h}_t =&\, f(\boldsymbol{g}_{\leq t})\\
\boldsymbol{\theta}_{t+1} =&\, \boldsymbol{\theta}_t - \gamma \boldsymbol{h}_t
\end{aligned}\end{equation}
其中$\boldsymbol{g}_t$即梯度，而$\boldsymbol{g}_{\leq t}$指的是截止到当前步的所有梯度信息，它们经过某种运算$f$（比如累积动量、累积二阶矩校正学习率等）后得到$\boldsymbol{h}_t$，然后由$\boldsymbol{h}_t$来更新参数，这里的$\gamma$就是指学习率。

点击阅读全文...

分类：信息时代标签：python, keras, 优化器阅读全文 10 评论

27 Aug

自己实现了一个bert4keras

By 苏剑林 | 2019-08-27 | 176412位读者 | 引用

分享个人实现的bert4keras：

https://github.com/bojone/bert4keras

这是笔者重新实现的keras版的bert，致力于用尽可能清爽的代码来实现keras下调用bert。

说明

目前已经基本实现bert，并且能成功加载官方权重，经验证模型输出跟keras-bert一致，大家可以放心使用。

本项目的初衷是为了修改、定制上的方便，所以可能会频繁更新。

因此欢迎star，但不建议fork，因为你fork下来的版本可能很快就过期了。

点击阅读全文...

分类：信息时代标签：语言模型, NLP, keras, attention 阅读全文 48 评论

29 Jun

基于Bert的NL2SQL模型：一个简明的Baseline

By 苏剑林 | 2019-06-29 | 139853位读者 | 引用

在之前的文章《当Bert遇上Keras：这可能是Bert最简单的打开姿势》中，我们介绍了基于微调Bert的三个NLP例子，算是体验了一把Bert的强大和Keras的便捷。而在这篇文章中，我们再添一个例子：基于Bert的NL2SQL模型。

NL2SQL的NL也就是Natural Language，所以NL2SQL的意思就是“自然语言转SQL语句”，近年来也颇多研究，它算是人工智能领域中比较实用的一个任务。而笔者做这个模型的契机，则是今年我司举办的首届“中文NL2SQL挑战赛”：

首届中文NL2SQL挑战赛，使用金融以及通用领域的表格数据作为数据源，提供在此基础上标注的自然语言与SQL语句的匹配对，希望选手可以利用数据训练出可以准确转换自然语言到SQL的模型。

这个NL2SQL比赛算是今年比较大型的NLP赛事了，赛前投入了颇多人力物力进行宣传推广，比赛的奖金也颇丰富，唯一的问题是NL2SQL本身算是偏冷门的研究领域，所以注定不会太火爆，为此主办方也放出了一个Baseline，基于Pytorch写的，希望能降低大家的入门难度。

抱着“Baseline怎么能少得了Keras版”的心态，我抽时间自己用Keras做了做这个比赛，为了简化模型并且提升效果也加载了预训练的Bert模型，最终形成此文。

点击阅读全文...

分类：信息时代标签：语言模型, 比赛, sql, attention 阅读全文 45 评论

6 Jul

你跳绳的时候，想过绳子的形状曲线是怎样的吗？

By 苏剑林 | 2019-07-06 | 49344位读者 | 引用

前几天，好几个数学/物理群都在转发李永乐老师发在他微博里的一道题：

绳子固定在杆上旋转的曲线问题

想起好久没有做数学物理题了，所以我也思考了一下，也搜了一些资料，在此与大家分享一下。

用时间换取效果：Keras梯度累积优化器

By 苏剑林 | 2019-07-08 | 79218位读者 | 引用

现在Keras中你也可以用小的batch size实现大batch size的效果了——只要你愿意花$n$倍的时间，可以达到$n$倍batch size的效果，而不需要增加显存。

Github地址：https://github.com/bojone/accum_optimizer_for_keras

扯淡

在一两年之前，做NLP任务都不用怎么担心OOM问题，因为相比CV领域的模型，其实大多数NLP模型都是很浅的，极少会显存不足。幸运或者不幸的是，Bert出世了，然后火了。Bert及其后来者们（GPT-2、XLNET等）都是以足够庞大的Transformer模型为基础，通过足够多的语料预训练模型，然后通过fine tune的方式来完成特定的NLP任务。

点击阅读全文...

分类：信息时代标签：keras, 梯度, 优化器阅读全文 24 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

当Bert遇上Keras：这可能是Bert最简单的打开姿势

“非自回归”也不差：基于MLM的阅读理解问答

“让Keras更酷一些！”：层与模型的重用技巧

基础

层的重用

6个派生优化器的简单介绍及其实现

基本形式

自己实现了一个bert4keras

说明

基于Bert的NL2SQL模型：一个简明的Baseline

你跳绳的时候，想过绳子的形状曲线是怎样的吗？

相关内容

用时间换取效果：Keras梯度累积优化器

扯淡

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接