包含关键字生成扩散模型的文章 - 科学空间|Scientific Spaces

12 Sep

【中文分词系列】 5. 基于语言模型的无监督分词

By 苏剑林 | 2016-09-12 | 162092位读者 | 引用

迄今为止，前四篇文章已经介绍了分词的若干思路，其中有基于最大概率的查词典方法、基于HMM或LSTM的字标注方法等。这些都是已有的研究方法了，笔者所做的就只是总结工作而已。查词典方法和字标注各有各的好处，我一直在想，能不能给出一种只需要大规模语料来训练的无监督分词模型呢？也就是说，怎么切分，应该是由语料来决定的，跟语言本身没关系。说白了，只要足够多语料，就可以告诉我们怎么分词。

看上去很完美，可是怎么做到呢？《2.基于切分的新词发现》中提供了一种思路，但是不够彻底。那里居于切分的新词发现方法确实可以看成一种无监督分词思路，它就是用一个简单的凝固度来判断某处该不该切分。但从分词的角度来看，这样的分词系统未免太过粗糙了。因此，我一直想着怎么提高这个精度，前期得到了一些有意义的结果，但都没有得到一个完整的理论。而最近正好把这个思路补全了。因为没有查找到类似的工作，所以这算是笔者在分词方面的一点原创工作了。

语言模型

首先简单谈一下语言模型。

点击阅读全文...

分类：信息时代标签：分词, 自然语言处理, 无监督, 新词发现阅读全文 35 评论

19 Nov

更别致的词向量模型(四)：模型的求解

By 苏剑林 | 2017-11-19 | 56271位读者 | 引用

损失函数

现在，我们来定义loss，以便把各个词向量求解出来。用$\tilde{P}$表示$P$的频率估计值，那么我们可以直接以下式为loss
\[\sum_{w_i,w_j}\left(\langle \boldsymbol{v}_i, \boldsymbol{v}_j\rangle-\log\frac{\tilde{P}(w_i,w_j)}{\tilde{P}(w_i)\tilde{P}(w_j)}\right)^2\tag{16}\]
相比之下，无论在参数量还是模型形式上，这个做法都比glove要简单，因此称之为simpler glove。glove模型是
\[\sum_{w_i,w_j}\left(\langle \boldsymbol{v}_i, \boldsymbol{\hat{v}}_j\rangle+b_i+\hat{b}_j-\log X_{ij}\right)^2\tag{17}\]
在glove模型中，对中心词向量和上下文向量做了区分，然后最后模型建议输出的是两套词向量的求和，据说这效果会更好，这是一个比较勉强的trick，但也不是什么毛病。最大的问题是参数$b_i,\hat{b}_j$也是可训练的，这使得模型是严重不适定的！我们有
\[\begin{aligned}&\sum_{w_i,w_j}\left(\langle \boldsymbol{v}_i, \boldsymbol{\hat{v}}_j\rangle+b_i+\hat{b}_j-\log \tilde{P}(w_i,w_j)\right)^2\\
=&\sum_{w_i,w_j}\left[\langle \boldsymbol{v}_i+\boldsymbol{c}, \boldsymbol{\hat{v}}_j+\boldsymbol{c}\rangle+\Big(b_i-\langle \boldsymbol{v}_i, \boldsymbol{c}\rangle - \frac{|\boldsymbol{c}|^2}{2}\Big)\right.\\
&\qquad\qquad\qquad\qquad\left.+\Big(\hat{b}_j-\langle \boldsymbol{\hat{v}}_j, \boldsymbol{c}\rangle - \frac{|\boldsymbol{c}|^2}{2}\Big)-\log X_{ij}\right]^2\end{aligned}\tag{18}\]
这就是说，如果你有了一组解，那么你将所有词向量加上任意一个常数向量后，它还是一组解！这个问题就严重了，我们无法预估得到的是哪组解，一旦加上的是一个非常大的常向量，那么各种度量都没意义了（比如任意两个词的cos值都接近1）。事实上，对glove生成的词向量进行验算就可以发现，glove生成的词向量，停用词的模长远大于一般词的模长，也就是说一堆词放在一起时，停用词的作用还明显些，这显然是不利用后续模型的优化的。（虽然从目前的关于glove的实验结果来看，是我强迫症了一些。）

互信息估算

点击阅读全文...

分类：信息时代标签：优化, 词向量, glove 阅读全文 9 评论

2 May

基于Conv1D的光谱分类模型（一维序列分类）

By 苏剑林 | 2018-05-02 | 127539位读者 | 引用

前段时间天池出了个天文数据挖掘竞赛——LAMOST光谱分类（将对应的光谱识别为4类中的一类），虽然没有奖金，但还是觉得挺有意思，所以就报名参加了。做了一段时间，成绩自我感觉还可以，然而最后我却忘记了（或者说根本就没留意到）初赛最后两天还有一步是提交新的测试集结果，然后就没有然后了，留下了一个未竟的模型，可谓“出师未捷身先死”，还是被自己弄死的～

天文数据挖掘大赛——天体光谱智能分类

后来跟其他参赛选手讨论了一下，发现其实我的这个模型还是不错的。当时我记得初赛第一名的成绩是0.83+，而我当时的成绩是0.82+，排名大概是第4、5左右，而且据说很多分数在0.8+的队伍都已经使用了融合模型，而我这0.82+的成绩仅仅是单模型的结果～在平时的群聊中发现也有不少朋友在做一维序列分类模型，而光谱分类本质上也就是一个一维的序列分类，所以分享一下模型，估计对相关朋友会有一定的参考价值。

模型

事实上也不是什么特别的模型，就是普通的一维卷积加残差，对于熟悉图像处理的朋友，这实在是再普通不过的结构了。

点击阅读全文...

分类：天文探索,信息时代标签：模型, 天文, 光谱阅读全文 27 评论

11 Aug

细水长flow之NICE：流模型的基本概念与实现

By 苏剑林 | 2018-08-11 | 312692位读者 | 引用

前言：自从在机器之心上看到了glow模型之后（请看《下一个GAN？OpenAI提出可逆生成模型Glow》），我就一直对其念念不忘。现在机器学习模型层出不穷，我也经常关注一些新模型动态，但很少像glow模型那样让我怦然心动，有种“就是它了”的感觉。更意外的是，这个效果看起来如此好的模型，居然是我以前完全没有听说过的。于是我翻来覆去阅读了好几天，越读越觉得有意思，感觉通过它能将我之前的很多想法都关联起来。在此，先来个阶段总结。

背景

本文主要是《NICE: Non-linear Independent Components Estimation》一文的介绍和实现。这篇文章也是glow这个模型的基础文章之一，可以说它就是glow的奠基石。

艰难的分布

众所周知，目前主流的生成模型包括VAE和GAN，但事实上除了这两个之外，还有基于flow的模型（flow可以直接翻译为“流”，它的概念我们后面再介绍）。事实上flow的历史和VAE、GAN它们一样悠久，但是flow却鲜为人知。在我看来，大概原因是flow找不到像GAN一样的诸如“造假者-鉴别者”的直观解释吧，因为flow整体偏数学化，加上早期效果没有特别好但计算量又特别大，所以很难让人提起兴趣来。不过现在看来，OpenAI的这个好得让人惊叹的、基于flow的glow模型，估计会让更多的人投入到flow模型的改进中。

glow模型生成的高清人脸

点击阅读全文...

分类：信息时代标签：概率, 流模型, flow, 生成模型阅读全文 123 评论

26 Aug

细水长flow之RealNVP与Glow：流模型的传承与升华

By 苏剑林 | 2018-08-26 | 346821位读者 | 引用

话在开头

上一篇文章《细水长flow之NICE：流模型的基本概念与实现》中，我们介绍了flow模型中的一个开山之作：NICE模型。从NICE模型中，我们能知道flow模型的基本概念和基本思想，最后笔者还给出了Keras中的NICE实现。

本文我们来关心NICE的升级版：RealNVP和Glow。

Glow模型的采样演示（截取自Glow官方博客）

精巧的flow

不得不说，flow模型是一个在设计上非常精巧的模型。总的来看，flow就是想办法得到一个encoder将输入$\boldsymbol{x}$编码为隐变量$\boldsymbol{z}$，并且使得$\boldsymbol{z}$服从标准正态分布。得益于flow模型的精巧设计，这个encoder是可逆的，从而我们可以立马从encoder写出相应的decoder（生成器）出来，因此，只要encoder训练完成，我们就能同时得到decoder，完成生成模型的构建。

为了完成这个构思，不仅仅要使得模型可逆，还要使得对应的雅可比行列式容易计算，为此，NICE提出了加性耦合层，通过多个加性耦合层的堆叠，使得模型既具有强大的拟合能力，又具有单位雅可比行列式。就这样，一种不同于VAE和GAN的生成模型——flow模型就这样出来了，它通过巧妙的构造，让我们能直接去拟合概率分布本身。

点击阅读全文...

分类：信息时代标签：概率, 流模型, flow, 生成模型阅读全文 127 评论

29 Sep

f-GAN简介：GAN模型的生产车间

By 苏剑林 | 2018-09-29 | 173100位读者 | 引用

今天介绍一篇比较经典的工作，作者命名为f-GAN，他在文章中给出了通过一般的$f$散度来构造一般的GAN的方案。可以毫不夸张地说，这论文就是一个GAN模型的“生产车间”，它一般化的囊括了很多GAN变种，并且可以启发我们快速地构建新的GAN变种（当然有没有价值是另一回事，但理论上是这样）。

局部变分

整篇文章对$f$散度的处理事实上在机器学习中被称为“局部变分方法”，它是一种非常经典且有用的估算技巧。事实上本文将会花大部分篇幅介绍这种估算技巧在$f$散度中的应用结果。至于GAN，只不过是这个结果的基本应用而已。

f散度

首先我们还是对$f$散度进行基本的介绍。所谓$f$散度，是KL散度的一般化：
$$\begin{equation}\mathcal{D}_f(P\Vert Q) = \int q(x) f\left(\frac{p(x)}{q(x)}\right)dx\label{eq:f-div}\end{equation}$$
注意，按照通用的约定写法，括号内是$p/q$而不是$q/p$，大家不要自然而言地根据KL散度的形式以为是$q/p$。

点击阅读全文...

分类：数学研究,信息时代标签：变分, GAN, 推断, 生成模型阅读全文 59 评论

22 Oct

RSGAN：对抗模型中的“图灵测试”思想

By 苏剑林 | 2018-10-22 | 138462位读者 | 引用

这两天无意间发现一个非常有意义的工作，称为“相对GAN”，简称RSGAN，来自文章《The relativistic discriminator: a key element missing from standard GAN》，据说该文章还得到了GAN创始人Goodfellow的点赞。这篇文章提出了用相对的判别器来取代标准GAN原有的判别器，使得生成器的收敛更为迅速，训练更为稳定。

可惜的是，这篇文章仅仅从训练和实验角度对结果进行了论述，并没有进行更深入的分析，以至于不少人觉得这只是GAN训练的一个trick。但是在笔者来看，RSGAN具有更为深刻的含义，甚至可以看成它已经开创了一个新的GAN流派。所以，笔者决定对RSGAN模型及其背后的内涵做一个基本的介绍。不过需要指出的是，除了结果一样之外，本文的介绍过程跟原论文相比几乎没有重合之处。

“图灵测试”思想

SGAN

SGAN就是标准的GAN（Standard GAN）。就算没有做过GAN研究的读者，相信也从各种渠道了解到GAN的大概原理：“造假者”不断地进行造假，试图愚弄“鉴别者”；“鉴别者”不断提高鉴别技术，以分辨出真品和赝品。两者相互竞争，共同进步，直到“鉴别者”无法分辨出真、赝品了，“造假者”就功成身退了。

在建模时，通过交替训练实现这个过程：固定生成器，训练一个判别器（二分类模型），将真实样本输出1，将伪造样本输出0；然后固定判别器，训练生成器让伪造样本尽可能输出1，后面这一步不需要真实样本参与。

问题所在

然而，这个建模过程似乎对判别器的要求过于苛刻了，因为判别器是孤立运作的：训练生成器时，真实样本没有参与，所以判别器必须把关于真实样本的所有属性记住，这样才能指导生成器生成更真实的样本。

点击阅读全文...

分类：信息时代标签：概率, 无监督, GAN, 生成模型阅读全文 39 评论

15 Feb

能量视角下的GAN模型（二）：GAN＝“分析”＋“采样”

By 苏剑林 | 2019-02-15 | 144354位读者 | 引用

在这个系列中，我们尝试从能量的视角理解GAN。我们会发现这个视角如此美妙和直观，甚至让人拍案叫绝。

上一篇文章里，我们给出了一个直白而用力的能量图景，这个图景可以让我们轻松理解GAN的很多内容，换句话说，通俗的解释已经能让我们完成大部分的理解了，并且把最终的结论都已经写了出来。在这篇文章中，我们继续从能量的视角理解GAN，这一次，我们争取把前面简单直白的描述，用相对严密的数学语言推导一遍。

跟第一篇文章一样，对于笔者来说，这个推导过程依然直接受启发于Bengio团队的新作《Maximum Entropy Generators for Energy-Based Models》。

原作者的开源实现：https://github.com/ritheshkumar95/energy_based_generative_models

本文的大致内容如下：

1、推导了能量分布下的正负相对抗的更新公式；
2、比较了理论分析与实验采样的区别，而将两者结合便得到了GAN框架；
3、导出了生成器的补充loss，理论上可以防止mode collapse；
4、简单提及了基于能量函数的MCMC采样。

点击阅读全文...

分类：信息时代标签：概率, 能量, GAN, 生成模型阅读全文 46 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

【中文分词系列】 5. 基于语言模型的无监督分词

语言模型

更别致的词向量模型(四)：模型的求解

损失函数

互信息估算

基于Conv1D的光谱分类模型（一维序列分类）

模型

细水长flow之NICE：流模型的基本概念与实现

背景

艰难的分布

细水长flow之RealNVP与Glow：流模型的传承与升华

话在开头

精巧的flow

f-GAN简介：GAN模型的生产车间

局部变分

f散度

RSGAN：对抗模型中的“图灵测试”思想

“图灵测试”思想

SGAN

问题所在

能量视角下的GAN模型（二）：GAN＝“分析”＋“采样”

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接