包含关键字让Keras更酷一些的文章 - 科学空间|Scientific Spaces

2 May

基于Conv1D的光谱分类模型（一维序列分类）

By 苏剑林 | 2018-05-02 | 123608位读者 | 引用

前段时间天池出了个天文数据挖掘竞赛——LAMOST光谱分类（将对应的光谱识别为4类中的一类），虽然没有奖金，但还是觉得挺有意思，所以就报名参加了。做了一段时间，成绩自我感觉还可以，然而最后我却忘记了（或者说根本就没留意到）初赛最后两天还有一步是提交新的测试集结果，然后就没有然后了，留下了一个未竟的模型，可谓“出师未捷身先死”，还是被自己弄死的～

天文数据挖掘大赛——天体光谱智能分类

后来跟其他参赛选手讨论了一下，发现其实我的这个模型还是不错的。当时我记得初赛第一名的成绩是0.83+，而我当时的成绩是0.82+，排名大概是第4、5左右，而且据说很多分数在0.8+的队伍都已经使用了融合模型，而我这0.82+的成绩仅仅是单模型的结果～在平时的群聊中发现也有不少朋友在做一维序列分类模型，而光谱分类本质上也就是一个一维的序列分类，所以分享一下模型，估计对相关朋友会有一定的参考价值。

模型

事实上也不是什么特别的模型，就是普通的一维卷积加残差，对于熟悉图像处理的朋友，这实在是再普通不过的结构了。

点击阅读全文...

分类：天文探索,信息时代标签：模型, 天文, 光谱阅读全文 27 评论

29 Jul

基于GRU和AM-Softmax的句子相似度模型

By 苏剑林 | 2018-07-29 | 351594位读者 | 引用

搞计算机视觉的朋友会知道，AM-Softmax是人脸识别中的成果。所以这篇文章就是借鉴人脸识别的做法来做句子相似度模型，顺便介绍在Keras下各种margin loss的写法。

背景

细想之下会发现，句子相似度与人脸识别有很多的相似之处～

已有的做法

在我搜索到的资料中，深度学习做句子相似度模型，就只有两种做法：一是输入一对句子，然后输出一个0/1标签代表相似程度，也就是视为一个二分类问题，比如《Learning Text Similarity with Siamese Recurrent Networks》中的模型是这样的

将句子相似度视为二分类模型

包括今年拍拍贷的“魔镜杯”，也是这种格式。另外一种做法是输入一个三元组“（句子A，跟A相似的句子，跟A不相似的句子）”，然后用triplet loss的做法解决，比如文章《Applying Deep Learning To Answer Selection: A Study And An Open Task》中的做法。

这两种做法其实也可以看成是一种，本质上是一样的，只不过loss和训练方法有所差别。但是，这两种方法却都有一个很严重的问题：负样本采样严重不足，导致效果提升非常慢。

点击阅读全文...

分类：信息时代标签：语义, 损失函数, 相似度阅读全文 94 评论

7 Nov

WGAN-div：一个默默无闻的WGAN填坑者

By 苏剑林 | 2018-11-07 | 164576位读者 | 引用

今天我们来谈一下Wasserstein散度，简称“W散度”。注意，这跟Wasserstein距离（Wasserstein distance，简称“W距离”，又叫Wasserstein度量、Wasserstein metric）是不同的两个东西。

本文源于论文《Wasserstein Divergence for GANs》，论文中提出了称为WGAN-div的GAN训练方案。这是一篇我很是欣赏却默默无闻的paper，我只是找文献时偶然碰到了它。不管英文还是中文界，它似乎都没有流行起来，但是我感觉它是一个相当漂亮的结果。

WGAN-div的部分样本（2w iter）

如果读者需要入门一下WGAN的相关知识，不妨请阅读拙作《互怼的艺术：从零直达WGAN-GP》。

WGAN

我们知道原始的GAN（SGAN）会有可能存在梯度消失的问题，因此WGAN横空出世了。

W距离

WGAN引入了最优传输里边的W距离来度量两个分布的距离：
\begin{equation}W_c[\tilde{p}(x), q(x)] = \inf_{\gamma\in \Pi(\tilde{p}(x), q(x))} \mathbb{E}_{(x,y)\sim \gamma}[c(x,y)] \end{equation}
这里的$\tilde{p}(x)$是真实样本的分布，$q(x)$是伪造分布，$c(x,y)$是传输成本，论文中用的是$c(x,y)=\Vert x-y\Vert$；而$\gamma\in \Pi(\tilde{p}(x), q(x))$的意思是说：$\gamma$是任意关于$x, y$的二元分布，其边缘分布则为$\tilde{p}(x)$和$q(y)$。直观来看，$\gamma$描述了一个运输方案，而$c(x,y)$则是运输成本，$W_c[\tilde{p}(x), q(x)]$就是说要找到成本最低的那个运输方案所对应的成本作为分布度量。

点击阅读全文...

分类：信息时代标签：GAN, 生成模型, 度量阅读全文 50 评论

19 Apr

从DCGAN到SELF-MOD：GAN的模型架构发展一览

By 苏剑林 | 2019-04-19 | 84420位读者 | 引用

事实上，O-GAN的发现，已经达到了我对GAN的理想追求，使得我可以很惬意地跳出GAN的大坑了。所以现在我会试图探索更多更广的研究方向，比如NLP中还没做过的任务，又比如图神经网络，又或者其他有趣的东西。

不过，在此之前，我想把之前的GAN的学习结果都记录下来。

这篇文章中，我们来梳理一下GAN的架构发展情况，当然主要的是生成器的发展，判别器一直以来的变动都不大。还有，本文介绍的是GAN在图像方面的模型架构发展，跟NLP的SeqGAN没什么关系。

此外，关于GAN的基本科普，本文就不再赘述了。

棋盘效应图示，体现为放大之后出现如国际象棋棋盘一样的交错效应。图片来自文章《Deconvolution and Checkerboard Artifacts》

点击阅读全文...

分类：信息时代标签：模型, GAN, 生成模型阅读全文 13 评论

27 Jul

为节约而生：从标准Attention到稀疏Attention

By 苏剑林 | 2019-07-27 | 143207位读者 | 引用

attention, please!

如今NLP领域，Attention大行其道，当然也不止NLP，在CV领域Attention也占有一席之地（Non Local、SAGAN等）。在18年初《〈Attention is All You Need〉浅读（简介+代码）》一文中，我们就已经讨论过Attention机制，Attention的核心在于$\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}$三个向量序列的交互和融合，其中$\boldsymbol{Q},\boldsymbol{K}$的交互给出了两两向量之间的某种相关度（权重），而最后的输出序列则是把$\boldsymbol{V}$按照权重求和得到的。

显然，众多NLP&CV的成果已经充分肯定了Attention的有效性。本文我们将会介绍Attention的一些变体，这些变体的共同特点是——“为节约而生”——既节约时间，也节约显存。

背景简述

《Attention is All You Need》一文讨论的我们称之为“乘性Attention”，目前用得比较广泛的也就是这种Attention：
\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V}) = softmax\left(\frac{\boldsymbol{Q}\boldsymbol{K}^{\top}}{\sqrt{d_k}}\right)\boldsymbol{V}\end{equation}

点击阅读全文...

分类：信息时代标签：模型, 稀疏, attention 阅读全文 33 评论

29 Jun

基于Bert的NL2SQL模型：一个简明的Baseline

By 苏剑林 | 2019-06-29 | 149407位读者 | 引用

在之前的文章《当Bert遇上Keras：这可能是Bert最简单的打开姿势》中，我们介绍了基于微调Bert的三个NLP例子，算是体验了一把Bert的强大和Keras的便捷。而在这篇文章中，我们再添一个例子：基于Bert的NL2SQL模型。

NL2SQL的NL也就是Natural Language，所以NL2SQL的意思就是“自然语言转SQL语句”，近年来也颇多研究，它算是人工智能领域中比较实用的一个任务。而笔者做这个模型的契机，则是今年我司举办的首届“中文NL2SQL挑战赛”：

首届中文NL2SQL挑战赛，使用金融以及通用领域的表格数据作为数据源，提供在此基础上标注的自然语言与SQL语句的匹配对，希望选手可以利用数据训练出可以准确转换自然语言到SQL的模型。

这个NL2SQL比赛算是今年比较大型的NLP赛事了，赛前投入了颇多人力物力进行宣传推广，比赛的奖金也颇丰富，唯一的问题是NL2SQL本身算是偏冷门的研究领域，所以注定不会太火爆，为此主办方也放出了一个Baseline，基于Pytorch写的，希望能降低大家的入门难度。

抱着“Baseline怎么能少得了Keras版”的心态，我抽时间自己用Keras做了做这个比赛，为了简化模型并且提升效果也加载了预训练的Bert模型，最终形成此文。

点击阅读全文...

分类：信息时代标签：语言模型, 比赛, sql, attention 阅读全文 45 评论

9 Aug

seq2seq之双向解码

By 苏剑林 | 2019-08-09 | 48293位读者 | 引用

在文章《玩转Keras之seq2seq自动生成标题》中我们已经基本探讨过seq2seq，并且给出了参考的Keras实现。

本文则将这个seq2seq再往前推一步，引入双向的解码机制，它在一定程度上能提高生成文本的质量（尤其是生成较长文本时）。本文所介绍的双向解码机制参考自《Synchronous Bidirectional Neural Machine Translation》，最后笔者也是用Keras实现的。

Seq2Seq的双向解码机制图示

背景介绍

研究过seq2seq的读者都知道，常见的seq2seq的解码过程是从左往右逐字（词）生成的，即根据encoder的结果先生成第一个字；然后根据encoder的结果以及已经生成的第一个字，来去生成第二个字；再根据encoder的结果和前两个字，来生成第三个词；依此类推。总的来说，就是在建模如下概率分解
\begin{equation}p(Y|X)=p(y_1|X)p(y_2|X,y_1)p(y_3|X,y_1,y_2)\cdots\label{eq:p}\end{equation}

点击阅读全文...

分类：信息时代标签：模型, NLP, keras, 文本生成阅读全文 6 评论

3 Sep

百度实体链接比赛后记：行为建模和实体链接

By 苏剑林 | 2019-09-03 | 91325位读者 | 引用

前几个月曾参加了百度的实体链接比赛，这是CCKS2019的评测任务之一，官方称之为“实体链指”，比赛于前几个星期完全结束。笔者最终的F1是0.78左右（冠军是0.80），排在第14名，成绩并不突出（唯一的特色是模型很轻量级，GTX1060都可以轻松跑起来），所以本文只是纯粹的记录过程，大牛们请一笑置之～

本文的实体链接模型总图（可以点击查看大图）

赛题介绍

所谓实体链接，主要指的是在已有一个知识库的情况下，预测输入query的某个实体对应知识库id。也就是说，知识库里边记录了很多实体，对于同一个名字的实体可能会有多个解释，每个解释用一个唯一id编号，我们要做的就是预测query中的实体究竟对应哪一个解释（id）。这是基于知识图谱的问答系统的必要步骤。

点击阅读全文...

分类：信息时代标签：模型, NLP, NER 阅读全文 23 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

基于Conv1D的光谱分类模型（一维序列分类）

模型

基于GRU和AM-Softmax的句子相似度模型

背景

已有的做法

WGAN-div：一个默默无闻的WGAN填坑者

WGAN

W距离

从DCGAN到SELF-MOD：GAN的模型架构发展一览

为节约而生：从标准Attention到稀疏Attention

背景简述

基于Bert的NL2SQL模型：一个简明的Baseline

seq2seq之双向解码

背景介绍

百度实体链接比赛后记：行为建模和实体链接

赛题介绍

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接