包含关键字让Keras更酷一些的文章 - 科学空间|Scientific Spaces

24 Feb

CRF用过了，不妨再了解下更快的MEMM？

By 苏剑林 | 2020-02-24 | 52466位读者 | 引用

HMM、MEMM、CRF被称为是三大经典概率图模型，在深度学习之前的机器学习时代，它们被广泛用于各种序列标注相关的任务中。一个有趣的现象是，到了深度学习时代，HMM和MEMM似乎都“没落”了，舞台上就只留下CRF。相信做NLP的读者朋友们就算没亲自做过也会听说过BiLSTM+CRF做中文分词、命名实体识别等任务，却几乎没有听说过BiLSTM+HMM、BiLSTM+MEMM的，这是为什么呢？

今天就让我们来学习一番MEMM，并且通过与CRF的对比，来让我们更深刻地理解概率图模型的思想与设计。

模型推导

MEMM全称Maximum Entropy Markov Model，中文名可译为“最大熵马尔可夫模型”。不得不说，这个名字可能会吓退80%的初学者：最大熵还没搞懂，马尔可夫也不认识，这两个合起来怕不是天书？而事实上，不管是MEMM还是CRF，它们的模型都远比它们的名字来得简单，它们的概念和设计都非常朴素自然，并不难理解。

点击阅读全文...

分类：信息时代标签：模型, 概率图, crf 阅读全文 7 评论

9 Mar

前些天笔者写了《CRF用过了，不妨再了解下更快的MEMM？》，里边提到了MEMM的局部归一化和CRF的全局归一化的优劣。同时，笔者联想到了Seq2Seq模型，因为Seq2Seq模型的典型训练方案Teacher Forcing就是一个局部归一化模型，所以它也存在着局部归一化所带来的毛病——也就是我们经常说的“Exposure Bias”。带着这个想法，笔者继续思考了一翻，将最后的思考结果记录在此文。

经典的Seq2Seq模型图示

本文算是一篇进阶文章，适合对Seq2Seq模型已经有一定的了解、希望进一步提升模型的理解或表现的读者。关于Seq2Seq的入门文章，可以阅读旧作《玩转Keras之seq2seq自动生成标题》和《从语言模型到Seq2Seq：Transformer如戏，全靠Mask》。

本文的内容大致为：

1、Exposure Bias的成因分析及例子；
2、简单可行的缓解Exposure Bias问题的策略。

点击阅读全文...

分类：信息时代标签：语言模型, 文本生成, 对抗训练阅读全文 33 评论

25 Apr

将“Softmax+交叉熵”推广到多标签分类问题

By 苏剑林 | 2020-04-25 | 398033位读者 | 引用

（注：本文的相关内容已整理成论文《ZLPR: A Novel Loss for Multi-label Classification》，如需引用可以直接引用英文论文，谢谢。）

一般来说，在处理常规的多分类问题时，我们会在模型的最后用一个全连接层输出每个类的分数，然后用softmax激活并用交叉熵作为损失函数。在这篇文章里，我们尝试将“Softmax+交叉熵”方案推广到多标签分类场景，希望能得到用于多标签分类任务的、不需要特别调整类权重和阈值的loss。

类别不平衡

单标签到多标签

一般来说，多分类问题指的就是单标签分类问题，即从 $n$ 个候选类别中选 $1$ 个目标类别。假设各个类的得分分别为 $s_1,s_2, \dots,s_n$ ，目标类为 $t\in\{1,2,\dots,n\}$ ，那么所用的loss为

$\begin{equation}-\log \frac{e^{s_t}}{\sum\limits_{i=1}^n e^{s_i}}= - s_t + \log \sum\limits_{i=1}^n e^{s_i}\label{eq:log-softmax}\end{equation}$
这个loss的优化方向是让目标类的得分

$s_t$ 变为

$s_1,s_2,\dots,s_t$ 中的最大值。关于softmax的相关内容，还可以参考《寻求一个光滑的最大值函数》、《函数光滑化杂谈：不可导函数的可导逼近》等文章。

点击阅读全文...

分类：数学研究,信息时代标签：优化, 损失函数, 光滑阅读全文 205 评论

23 Mar

AdaFactor优化器浅析（附开源实现）

By 苏剑林 | 2020-03-23 | 93365位读者 | 引用

自从GPT、BERT等预训练模型流行起来后，其中一个明显的趋势是模型越做越大，因为更大的模型配合更充分的预训练通常能更有效地刷榜。不过，理想可以无限远，现实通常很局促，有时候模型太大了，大到哪怕你拥有了大显存的GPU甚至TPU，依然会感到很绝望。比如GPT2最大的版本有15亿参数，最大版本的T5模型参数量甚至去到了110亿，这等规模的模型，哪怕在TPU集群上也没法跑到多大的batch size。

这时候通常要往优化过程着手，比如使用混合精度训练（tensorflow下还可以使用一种叫做bfloat16的新型浮点格式），即省显存又加速训练；又或者使用更省显存的优化器，比如RMSProp就比Adam更省显存。本文则介绍AdaFactor，一个由Google提出来的新型优化器，首发论文为《Adafactor: Adaptive Learning Rates with Sublinear Memory Cost》。AdaFactor具有自适应学习率的特性，但比RMSProp还要省显存，并且还针对性地解决了Adam的一些缺陷。

Adam

首先我们来回顾一下常用的Adam优化器的更新过程。设 $t$ 为迭代步数， $\alpha_t$ 为当前学习率， $L(\theta)$ 是损失函数， $\theta$ 是待优化参数， $\epsilon$ 则是防止溢出的小正数，那么Adam的更新过程为

点击阅读全文...

分类：信息时代标签：分析, keras, 优化器阅读全文 20 评论

20 Apr

EAE：自编码器 + BN + 最大熵 = 生成模型

By 苏剑林 | 2020-04-20 | 65503位读者 | 引用

生成模型一直是笔者比较关注的主题，不管是NLP和CV的生成模型都是如此。这篇文章里，我们介绍一个新颖的生成模型，来自论文《Batch norm with entropic regularization turns deterministic autoencoders into generative models》，论文中称之为EAE（Entropic AutoEncoder）。它要做的事情给变分自编码器（VAE）基本一致，最终效果其实也差不多（略优），说它新颖并不是它生成效果有多好，而是思路上的新奇，颇有别致感。此外，借着这个机会，我们还将学习一种统计量的估计方法—— $k$ 邻近方法，这是一种很有用的非参数估计方法。

自编码器vs生成模型

普通的自编码器是一个“编码-解码”的重构过程，如下图所示：

典型自编码器示意图

其loss一般为

$\begin{equation}L_{AE} = \mathbb{E}_{x\sim \tilde{p}(x)}\left[\left\Vert x - \hat{x}\right\Vert^2\right] = \mathbb{E}_{x\sim \tilde{p}(x)}\left[\left\Vert x - D(E(x))\right\Vert^2\right]\end{equation}$

点击阅读全文...

分类：信息时代标签：最大熵, 熵, 无监督, 生成模型阅读全文 21 评论

1 Jun

泛化性乱弹：从随机噪声、梯度惩罚到虚拟对抗训练

By 苏剑林 | 2020-06-01 | 107848位读者 | 引用

提高模型的泛化性能是机器学习致力追求的目标之一。常见的提高泛化性的方法主要有两种：第一种是添加噪声，比如往输入添加高斯噪声、中间层增加Dropout以及进来比较热门的对抗训练等，对图像进行随机平移缩放等数据扩增手段某种意义上也属于此列；第二种是往loss里边添加正则项，比如 $L_1, L_2$ 惩罚、梯度惩罚等。本文试图探索几种常见的提高泛化性能的手段的关联。

随机噪声

我们记模型为 $f(x)$ ， $\mathcal{D}$ 为训练数据集合， $l(f(x), y)$ 为单个样本的loss，那么我们的优化目标是

$\begin{equation}\mathop{\text{argmin}}_{\theta} L(\theta)=\mathbb{E}_{(x,y)\sim \mathcal{D}}[l(f(x), y)]\end{equation}$

$\theta$ 是

$f(x)$ 里边的可训练参数。假如往模型输入添加噪声

$\varepsilon$ ，其分布为

$q(\varepsilon)$ ，那么优化目标就变为

$\begin{equation}\mathop{\text{argmin}}_{\theta} L_{\varepsilon}(\theta)=\mathbb{E}_{(x,y)\sim \mathcal{D}, \varepsilon\sim q(\varepsilon)}[l(f(x + \varepsilon), y)]\end{equation}$
当然，可以添加噪声的地方不仅仅是输入，也可以是中间层，也可以是权重

$\theta$ ，甚至可以是输出

$y$ （等价于标签平滑），噪声也不一定是加上去的，比如Dropout是乘上去的。对于加性噪声来说，

$q(\varepsilon)$ 的常见选择是均值为0、方差固定的高斯分布；而对于乘性噪声来说，常见选择是均匀分布

$U([0,1])$ 或者是伯努利分布。

添加随机噪声的目的很直观，就是希望模型能学会抵御一些随机扰动，从而降低对输入或者参数的敏感性，而降低了这种敏感性，通常意味着所得到的模型不再那么依赖训练集，所以有助于提高模型泛化性能。

点击阅读全文...

分类：信息时代标签：概率, GAN, 对抗训练, 泛化阅读全文 32 评论

16 Jun

如何应对Seq2Seq中的“根本停不下来”问题？

By 苏剑林 | 2020-06-16 | 71426位读者 | 引用

在Seq2Seq的解码过程中，我们是逐个token地递归生成的，直到出现<eos>标记为止，这就是所谓的“自回归”生成模型。然而，研究过Seq2Seq的读者应该都能发现，这种自回归的解码偶尔会出现“根本停不下来”的现象，主要是某个片段反复出现，比如“今天天气不错不错不错不错不错...”、“你觉得我说得对不对不对不对不对不对...”等等，但就是死活不出现<eos>标记。ICML 2020的文章《Consistency of a Recurrent Language Model With Respect to Incomplete Decoding》比较系统地讨论了这个现象，并提出了一些对策，本文来简单介绍一下论文的主要内容。

解码算法

对于自回归模型来说，我们建立的是如下的条件语言模型

$\begin{equation}p(y_t|y_{\lt t}, x)\label{eq:p}\end{equation}$
那么解码算法就是在已知上述模型时，给定

$x$ 来输出对应的

$y=(y_1,y_2,\dots,y_T)$ 来。解码算法大致可以分为两类：确定性解码算法和随机性解码算法，原论文分别针对这两类解码讨论来讨论了“根本停不下来”问题，所以我们需要来了解一下这两类解码算法。

点击阅读全文...

分类：信息时代标签：语言模型, 文本生成, 解码阅读全文 19 评论

28 Jun

积分梯度：一种新颖的神经网络可视化方法

By 苏剑林 | 2020-06-28 | 103719位读者 | 引用

本文介绍一种神经网络的可视化方法：积分梯度（Integrated Gradients），它首先在论文《Gradients of Counterfactuals》中提出，后来《Axiomatic Attribution for Deep Networks》再次介绍了它，两篇论文作者都是一样的，内容也大体上相同，后一篇相对来说更易懂一些，如果要读原论文的话，建议大家优先读后一篇。当然，它已经是2016～2017年间的工作了，“新颖”说的是它思路上的创新有趣，而不是指最近发表。

笔者在中文情感分类上对积分梯度的实验效果（越红的token越重要）

所谓可视化，简单来说就是对于给定的输入 $x$ 以及模型 $F(x)$ ，我们想办法指出 $x$ 的哪些分量对模型的决策有重要影响，或者说对 $x$ 各个分量的重要性做个排序，用专业的话术来说那就是“归因”。一个朴素的思路是直接使用梯度 $\nabla_x F(x)$ 来作为 $x$ 各个分量的重要性指标，而积分梯度是对它的改进。然而，笔者认为，很多介绍积分梯度方法的文章（包括原论文），都过于“生硬”（形式化），没有很好地突出积分梯度能比朴素梯度更有效的本质原因。本文试图用自己的思路介绍一下积分梯度方法。

点击阅读全文...

分类：信息时代标签：积分, 梯度, 可视化阅读全文 28 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

CRF用过了，不妨再了解下更快的MEMM？

模型推导

Seq2Seq中Exposure Bias现象的浅析与对策

将“Softmax+交叉熵”推广到多标签分类问题

单标签到多标签

AdaFactor优化器浅析（附开源实现）

Adam

EAE：自编码器 + BN + 最大熵 = 生成模型

自编码器vs生成模型

泛化性乱弹：从随机噪声、梯度惩罚到虚拟对抗训练

随机噪声

如何应对Seq2Seq中的“根本停不下来”问题？

解码算法

积分梯度：一种新颖的神经网络可视化方法

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接