包含关键字细水长flow 的文章 - 科学空间|Scientific Spaces

3 Sep

开学啦！咱们来做完形填空～（讯飞杯）

By 苏剑林 | 2017-09-03 | 208208位读者 | 引用

前言

从今年开始，CCL会议将计划同步举办评测活动。笔者这段时间在一创业公司实习，公司也报名参加这个评测，最后实现上就落在我这里，今年的评测任务是阅读理解，名曰《第一届“讯飞杯”中文机器阅读理解评测》。虽说是阅读理解，但事实上任务比较简单，是属于完形填空类型的，即一段材料中挖了一个空，从上下文中选一个词来填入这个空中。最后我们的模型是单系统排名第6，验证集准确率为73.55%，测试集准确率为75.77%，大家可以在这里观摩排行榜。（“广州火焰信息科技有限公司”就是文本的模型）

事实上，这个数据集和任务格式是哈工大去年提出的，所以这次的评测也是哈工大跟科大讯飞一起联合举办的。哈工大去年的论文《Consensus Attention-based Neural Networks for Chinese Reading Comprehension》就研究过另一个同样格式但不同内容的数据集，是用通用的阅读理解模型做的（通用的阅读理解是指给出材料和问题，从材料中找到问题的答案，完形填空可以认为是通用阅读理解的一个非常小的子集）。

虽然，在这次评测任务的介绍中，评测方总有意无意地引导我们将这个问题理解为阅读理解问题。但笔者觉得，阅读理解本身就难得多，这个就一完形填空，只要把它作为纯粹的完形填空题做就是了，所以本文仅仅是采用类似语言模型的做法来做。这种做法的好处是思路简明直观，计算量低（在笔者的GTX1060上可以跑到batch size为160），便于实验。

模型

回到模型上，我们的模型其实比较简单，完全紧扣了“从上下文中选一个词来填空”这一思想，示意图如下。

完形填空模型

点击阅读全文...

分类：信息时代标签：神经网络, 机器学习, 比赛阅读全文 49 评论

22 Jul

Keras中自定义复杂的loss函数

By 苏剑林 | 2017-07-22 | 445890位读者 | 引用

Keras是一个搭积木式的深度学习框架，用它可以很方便且直观地搭建一些常见的深度学习模型。在tensorflow出来之前，Keras就已经几乎是当时最火的深度学习框架，以theano为后端，而如今Keras已经同时支持四种后端：theano、tensorflow、cntk、mxnet（前三种官方支持，mxnet还没整合到官方中），由此可见Keras的魅力。

Keras是很方便，然而这种方便不是没有代价的，最为人诟病之一的缺点就是灵活性较低，难以搭建一些复杂的模型。的确，Keras确实不是很适合搭建复杂的模型，但并非没有可能，而是搭建太复杂的模型所用的代码量，跟直接用tensorflow写也差不了多少。但不管怎么说，Keras其友好、方便的特性（比如那可爱的训练进度条），使得我们总有使用它的场景。这样，如何更灵活地定制Keras模型，就成为一个值得研究的课题了。这篇文章我们来关心自定义loss。

输入-输出设计

Keras的模型是函数式的，即有输入，也有输出，而loss即为预测值与真实值的某种误差函数。Keras本身也自带了很多loss函数，如mse、交叉熵等，直接调用即可。而要自定义loss，最自然的方法就是仿照Keras自带的loss进行改写。

点击阅读全文...

分类：信息时代标签：模型, 深度学习, 损失函数, keras 阅读全文 157 评论

13 Oct

基于fine tune的图像分类（百度分狗竞赛）

By 苏剑林 | 2017-10-13 | 29212位读者 | 引用

baidu_jingsai

前两年百度的大数据竞赛都是自然语言处理方面的，今年画风一转，变成了图像的细颗粒度分类，赛题内容就是将宠物狗归为100类中的其中一类。这个任务本身是很平凡的，做法也很常规，无外乎就是数据扩增、imagenet模型的fine tune、模型集成三个方面。笔者并不擅长于模型集成，只做了前面两个步骤，成绩也非常一般（准确率80%上下）。但感觉里边的某些代码可能对读者有帮助，遂共享一翻。下面结合着代码来讲解。

比赛官网（随时有失效的可能）：http://js.baidu.com

模型

模型主要用tensorflow+keras实现。首先自然是导入各种模块

#! -*- coding:utf-8 -*-

import numpy as np
from scipy import misc
import tensorflow as tf
from keras.applications.xception import Xception,preprocess_input
from keras.layers import Input,Dense,Lambda,Embedding
from keras.layers.merge import multiply
from keras import backend as K
from keras.models import Model
from keras.optimizers import SGD
from tqdm import tqdm
import glob
np.random.seed(2017)
tf.set_random_seed(2017)

点击阅读全文...

分类：信息时代标签：分类, 图像, 深度学习阅读全文 2 评论

6 Jan

《Attention is All You Need》浅读（简介+代码）

By 苏剑林 | 2018-01-06 | 899887位读者 | 引用

2017年中，有两篇类似同时也是笔者非常欣赏的论文，分别是FaceBook的《Convolutional Sequence to Sequence Learning》和Google的《Attention is All You Need》，它们都算是Seq2Seq上的创新，本质上来说，都是抛弃了RNN结构来做Seq2Seq任务。

这篇博文中，笔者对《Attention is All You Need》做一点简单的分析。当然，这两篇论文本身就比较火，因此网上已经有很多解读了（不过很多解读都是直接翻译论文的，鲜有自己的理解），因此这里尽可能多自己的文字，尽量不重复网上各位大佬已经说过的内容。

序列编码

深度学习做NLP的方法，基本上都是先将句子分词，然后每个词转化为对应的词向量序列。这样一来，每个句子都对应的是一个矩阵$\boldsymbol{X}=(\boldsymbol{x}_1,\boldsymbol{x}_2,\dots,\boldsymbol{x}_t)$，其中$\boldsymbol{x}_i$都代表着第$i$个词的词向量（行向量），维度为$d$维，故$\boldsymbol{X}\in \mathbb{R}^{n\times d}$。这样的话，问题就变成了编码这些序列了。

第一个基本的思路是RNN层，RNN的方案很简单，递归式进行：
\begin{equation}\boldsymbol{y}_t = f(\boldsymbol{y}_{t-1},\boldsymbol{x}_t)\end{equation}
不管是已经被广泛使用的LSTM、GRU还是最近的SRU，都并未脱离这个递归框架。RNN结构本身比较简单，也很适合序列建模，但RNN的明显缺点之一就是无法并行，因此速度较慢，这是递归的天然缺陷。另外我个人觉得RNN无法很好地学习到全局的结构信息，因为它本质是一个马尔科夫决策过程。

点击阅读全文...

分类：信息时代标签：模型, 深度学习, attention 阅读全文 289 评论

23 Jan

揭开迷雾，来一顿美味的Capsule盛宴

By 苏剑林 | 2018-01-23 | 449112位读者 | 引用

Geoffrey Hinton在谷歌多伦多办公室

由深度学习先驱Hinton开源的Capsule论文《Dynamic Routing Between Capsules》，无疑是去年深度学习界最热点的消息之一。得益于各种媒体的各种吹捧，Capsule被冠以了各种神秘的色彩，诸如“抛弃了梯度下降”、“推倒深度学习重来”等字眼层出不穷，但也有人觉得Capsule不外乎是一个新的炒作概念。

本文试图揭开让人迷惘的云雾，领悟Capsule背后的原理和魅力，品尝这一顿Capsule盛宴。同时，笔者补做了一个自己设计的实验，这个实验能比原论文的实验更有力说明Capsule的确产生效果了。

菜谱一览：

1、Capsule是什么？
2、Capsule为什么要这样做？
3、Capsule真的好吗？
4、我觉得Capsule怎样？
5、若干小菜。

点击阅读全文...

分类：信息时代标签：深度学习, 聚类, Capsule 阅读全文 135 评论

24 Mar

基于CNN和VAE的作诗机器人：随机成诗

By 苏剑林 | 2018-03-24 | 128163位读者 | 引用

前几日写了一篇VAE的通俗解读，也得到了一些读者的认可。然而，你是否厌倦了每次介绍都只有一个MNIST级别的demo？不要急，这就给大家带来一个更经典的VAE玩具：机器人作诗。

为什么说“更经典”呢？前一篇文章我们说过用VAE生成的图像相比GAN生成的图像会偏模糊，也就是在图像这一“仗”上，VAE是劣势。然而，在文本生成这一块上，VAE却漂亮地胜出了。这是因为GAN希望把判别器（度量）也直接训练出来，然而对于文本来说，这个度量很可能是离散的、不可导的，因此纯GAN就很难训练了。而VAE中没有这个步骤，它是通过重构输入来完成的，这个重构过程对于图像还是文本都可以进行。所以，文本生成这件事情，对于VAE来说它就跟图像生成一样，都是一个基本的、直接的应用；对于（目前的）GAN来说，却是艰难的象征，是它挥之不去的“心病”。

嗯，古有曹植七步作诗，今有VAE随机成诗，让我们开始吧～

模型

对于很多人来说，诗是一个很美妙的玩意，美妙之处在于大多数人都不真正懂得诗，但大家对诗的模样又有一知半解的认识。因此，只要生成的“诗”稍微像模像样一点，我们通常都会认为机器人可以作诗了。因此，所谓作诗机器人，是一个纯粹的玩具了，能作几句诗，也不意味着普通语言的生成能力有多好，也不意味着我们对NLP的理解有多深。

CNN + VAE

就本文的玩具而言，其实是一个比较简单的模型，主要是把一维CNN和VAE结合了起来。因为生成的诗长度是固定的，所以不管是encoder还是decoder，我都只是用了纯CNN来做。模型的结构图大概是：

cnn + vae 诗歌生成模型

点击阅读全文...

分类：信息时代标签：文学, vae, 生成模型, 文本生成阅读全文 32 评论

18 May

简明条件随机场CRF介绍（附带纯Keras实现）

By 苏剑林 | 2018-05-18 | 337220位读者 | 引用

笔者去年曾写过博文《果壳中的条件随机场(CRF In A Nutshell)》，以一种比较粗糙的方式介绍了一下条件随机场（CRF）模型。然而那篇文章显然有很多不足的地方，比如介绍不够清晰，也不够完整，还没有实现，在这里我们重提这个模型，将相关内容补充完成。

本文是对CRF基本原理的一个简明的介绍。当然，“简明”是相对而言中，要想真的弄清楚CRF，免不了要提及一些公式，如果只关心调用的读者，可以直接移到文末。

图示

按照之前的思路，我们依旧来对比一下普通的逐帧softmax和CRF的异同。

逐帧softmax

CRF主要用于序列标注问题，可以简单理解为是给序列中的每一帧都进行分类，既然是分类，很自然想到将这个序列用CNN或者RNN进行编码后，接一个全连接层用softmax激活，如下图所示

逐帧softmax并没有直接考虑输出的上下文关联

点击阅读全文...

分类：信息时代标签：模型, 概率图, keras, crf 阅读全文 102 评论

23 Jun

貌离神合的RNN与ODE：花式RNN简介

By 苏剑林 | 2018-06-23 | 105990位读者 | 引用

本来笔者已经决心不玩RNN了，但是在上个星期思考时忽然意识到RNN实际上对应了ODE（常微分方程）的数值解法，这为我一直以来想做的事情——用深度学习来解决一些纯数学问题——提供了思路。事实上这是一个颇为有趣和有用的结果，遂介绍一翻。顺便地，本文也涉及到了自己动手编写RNN的内容，所以本文也可以作为编写自定义的RNN层的一个简单教程。

注：本文并非前段时间的热点“神经ODE”的介绍（但有一定的联系）。

RNN基本

什么是RNN？

众所周知，RNN是“循环神经网络（Recurrent Neural Network）”，跟CNN不同，RNN可以说是一类模型的总称，而并非单个模型。简单来讲，只要是输入向量序列$(\boldsymbol{x}_1,\boldsymbol{x}_2,\dots,\boldsymbol{x}_T)$，输出另外一个向量序列$(\boldsymbol{y}_1,\boldsymbol{y}_2,\dots,\boldsymbol{y}_T)$，并且满足如下递归关系
$$\boldsymbol{y}_t=f(\boldsymbol{y}_{t-1}, \boldsymbol{x}_t, t)\tag{1}$$
的模型，都可以称为RNN。也正因为如此，原始的朴素RNN，还有改进的如GRU、LSTM、SRU等模型，我们都称为RNN，因为它们都可以作为上式的一个特例。还有一些看上去与RNN没关的内容，比如前不久介绍的CRF的分母的计算，实际上也是一个简单的RNN。

说白了，RNN其实就是递归计算。

点击阅读全文...

分类：数学研究,信息时代标签：微分方程, 递推, RNN 阅读全文 24 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

开学啦！咱们来做完形填空～（讯飞杯）

前言

模型

Keras中自定义复杂的loss函数

输入-输出设计

基于fine tune的图像分类（百度分狗竞赛）

模型

《Attention is All You Need》浅读（简介+代码）

序列编码

揭开迷雾，来一顿美味的Capsule盛宴

基于CNN和VAE的作诗机器人：随机成诗

模型

CNN + VAE

简明条件随机场CRF介绍（附带纯Keras实现）

图示

逐帧softmax

貌离神合的RNN与ODE：花式RNN简介

RNN基本

什么是RNN？

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接