包含关键字细水长flow 的文章 - 科学空间|Scientific Spaces

18 Jul

用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）

By 苏剑林 | 2018-07-18 | 358441位读者 | 引用

前言：我小学开始就喜欢纯数学，后来也喜欢上物理，还学习过一段时间的理论物理，直到本科毕业时，我才慢慢进入机器学习领域。所以，哪怕在机器学习领域中，我的研究习惯还保留着数学和物理的风格：企图从最少的原理出发，理解、推导尽可能多的东西。这篇文章是我这个理念的结果之一，试图以变分推断作为出发点，来统一地理解深度学习中的各种模型，尤其是各种让人眼花缭乱的GAN。本文已经挂到arxiv上，需要读英文原稿的可以移步到《Variational Inference: A Unified Framework of Generative Models and Some Revelations》。
下面是文章的介绍。其实，中文版的信息可能还比英文版要稍微丰富一些，原谅我这蹩脚的英语...

摘要：本文从一种新的视角阐述了变分推断，并证明了EM算法、VAE、GAN、AAE、ALI(BiGAN)都可以作为变分推断的某个特例。其中，论文也表明了标准的GAN的优化目标是不完备的，这可以解释为什么GAN的训练需要谨慎地选择各个超参数。最后，文中给出了一个可以改善这种不完备性的正则项，实验表明该正则项能增强GAN训练的稳定性。

近年来，深度生成模型，尤其是GAN，取得了巨大的成功。现在我们已经可以找到数十个乃至上百个GAN的变种。然而，其中的大部分都是凭着经验改进的，鲜有比较完备的理论指导。

本文的目标是通过变分推断来给这些生成模型建立一个统一的框架。首先，本文先介绍了变分推断的一个新形式，这个新形式其实在博客以前的文章中就已经介绍过，它可以让我们在几行字之内导出变分自编码器（VAE）和EM算法。然后，利用这个新形式，我们能直接导出GAN，并且发现标准GAN的loss实则是不完备的，缺少了一个正则项。如果没有这个正则项，我们就需要谨慎地调整超参数，才能使得模型收敛。

点击阅读全文...

分类：信息时代标签：变分, 深度学习, 推断阅读全文 124 评论

6 Aug

“让Keras更酷一些！”：精巧的层与花式的回调

By 苏剑林 | 2018-08-06 | 172049位读者 | 引用

Keras伴我走来

回想起进入机器学习领域的这两三年来，Keras是一直陪伴在笔者的身边。要不是当初刚掉进这个坑时碰到了Keras这个这么易用的框架，能快速实现我的想法，我也不确定我是否能有毅力坚持下来，毕竟当初是theano、pylearn、caffe、torch等的天下，哪怕在今天它们对我来说仍然像天书一般。

后来为了拓展视野，我也去学习了一段时间的tensorflow，用纯tensorflow写过若干程序，但不管怎样，仍然无法割舍Keras。随着对Keras的了解的深入，尤其是花了一点时间研究过Keras的源码后，我发现Keras并没有大家诟病的那样“欠缺灵活性”。事实上，Keras那精巧的封装，可以让我们轻松实现很多复杂的功能。我越来越感觉，Keras像是一件非常精美的艺术品，充分体现了Keras的开发者们深厚的创作功力。

本文介绍Keras中自定义模型的一些内容，相对而言，这属于Keras进阶的内容，刚入门的朋友请暂时忽略。

层的自定义

这里介绍Keras中自定义层及其一些运用技巧，在这之中我们可以看到Keras层的精巧之处。

点击阅读全文...

分类：信息时代标签：模型, 深度学习, 损失函数, keras 阅读全文 46 评论

17 Sep

变分自编码器（四）：一步到位的聚类方案

By 苏剑林 | 2018-09-17 | 357556位读者 | 引用

由于VAE中既有编码器又有解码器（生成器），同时隐变量分布又被近似编码为标准正态分布，因此VAE既是一个生成模型，又是一个特征提取器。在图像领域中，由于VAE生成的图片偏模糊，因此大家通常更关心VAE作为图像特征提取器的作用。提取特征都是为了下一步的任务准备的，而下一步的任务可能有很多，比如分类、聚类等。本文来关心“聚类”这个任务。

一般来说，用AE或者VAE做聚类都是分步来进行的，即先训练一个普通的VAE，然后得到原始数据的隐变量，接着对隐变量做一个K-Means或GMM之类的。但是这样的思路的整体感显然不够，而且聚类方法的选择也让我们纠结。本文介绍基于VAE的一个“一步到位”的聚类思路，它同时允许我们完成无监督地完成聚类和条件生成。

理论

一般框架

回顾VAE的loss（如果没印象请参考《变分自编码器（二）：从贝叶斯观点出发》）：
$$KL\Big(p(x,z)\Big\Vert q(x,z)\Big) = \iint p(z|x)\tilde{p}(x)\ln \frac{p(z|x)\tilde{p}(x)}{q(x|z)q(z)} dzdx\tag{1}$$
通常来说，我们会假设$q(z)$是标准正态分布，$p(z|x),q(x|z)$是条件正态分布，然后代入计算，就得到了普通的VAE的loss。

点击阅读全文...

分类：信息时代标签：聚类, 无监督, vae, 生成模型阅读全文 175 评论

26 Dec

【学习清单】最近比较重要的GAN进展论文

By 苏剑林 | 2018-12-26 | 67108位读者 | 引用

这篇文章简单列举一下我认为最近这段时间中比较重要的GAN进展论文，这基本也是我在学习GAN的过程中主要去研究的论文清单。

生成模型之味

GAN是一个大坑，尤其像我这样的业余玩家，一头扎进去很久也很难有什么产出，尤其是各个大公司拼算力搞出来一个个大模型，个人几乎都没法玩了。但我总觉得，真的去碰了生成模型，才觉得自己碰到了真正的机器学习。这一点，不管在图像中还是文本中都是如此。所以，我还是愿意去关注生成模型。

当然，GAN不是生成模型的唯一选择，却是一个非常有趣的选择。在图像中至少有GAN、flow、pixelrnn/pixelcnn这几种选择，但要说潜力，我还是觉得GAN才是最具前景的，不单是因为效果，主要是因为它那对抗的思想。而在文本中，事实上seq2seq机制就是一个概率生成模型了，而pixelrnn这类模型，实际上就是模仿着seq2seq来做的，当然也有用GAN做文本生成的研究（不过基本上都涉及到了强化学习）。也就是说，其实在NLP中，生成模型也有很多成果，哪怕你主要是研究NLP的，也终将碰到生成模型。

好了，话不多说，还是赶紧把清单列一列，供大家参考，也作为自己的备忘。

点击阅读全文...

分类：信息时代标签：学习, GAN, 生成模型阅读全文 12 评论

22 Oct

RSGAN：对抗模型中的“图灵测试”思想

By 苏剑林 | 2018-10-22 | 131415位读者 | 引用

这两天无意间发现一个非常有意义的工作，称为“相对GAN”，简称RSGAN，来自文章《The relativistic discriminator: a key element missing from standard GAN》，据说该文章还得到了GAN创始人Goodfellow的点赞。这篇文章提出了用相对的判别器来取代标准GAN原有的判别器，使得生成器的收敛更为迅速，训练更为稳定。

可惜的是，这篇文章仅仅从训练和实验角度对结果进行了论述，并没有进行更深入的分析，以至于不少人觉得这只是GAN训练的一个trick。但是在笔者来看，RSGAN具有更为深刻的含义，甚至可以看成它已经开创了一个新的GAN流派。所以，笔者决定对RSGAN模型及其背后的内涵做一个基本的介绍。不过需要指出的是，除了结果一样之外，本文的介绍过程跟原论文相比几乎没有重合之处。

“图灵测试”思想

SGAN

SGAN就是标准的GAN（Standard GAN）。就算没有做过GAN研究的读者，相信也从各种渠道了解到GAN的大概原理：“造假者”不断地进行造假，试图愚弄“鉴别者”；“鉴别者”不断提高鉴别技术，以分辨出真品和赝品。两者相互竞争，共同进步，直到“鉴别者”无法分辨出真、赝品了，“造假者”就功成身退了。

在建模时，通过交替训练实现这个过程：固定生成器，训练一个判别器（二分类模型），将真实样本输出1，将伪造样本输出0；然后固定判别器，训练生成器让伪造样本尽可能输出1，后面这一步不需要真实样本参与。

问题所在

然而，这个建模过程似乎对判别器的要求过于苛刻了，因为判别器是孤立运作的：训练生成器时，真实样本没有参与，所以判别器必须把关于真实样本的所有属性记住，这样才能指导生成器生成更真实的样本。

点击阅读全文...

分类：信息时代标签：概率, 无监督, GAN, 生成模型阅读全文 39 评论

22 Feb

巧断梯度：单个loss实现GAN模型

By 苏剑林 | 2019-02-22 | 46875位读者 | 引用

我们知道普通的模型都是搭好架构，然后定义好loss，直接扔给优化器训练就行了。但是GAN不一样，一般来说它涉及有两个不同的loss，这两个loss需要交替优化。现在主流的方案是判别器和生成器都按照1:1的次数交替训练（各训练一次，必要时可以给两者设置不同的学习率，即TTUR），交替优化就意味我们需要传入两次数据（从内存传到显存）、执行两次前向传播和反向传播。

如果我们能把这两步合并起来，作为一步去优化，那么肯定能节省时间的，这也就是GAN的同步训练。

（注：本文不是介绍新的GAN，而是介绍GAN的新写法，这只是一道编程题，不是一道算法题～）

如果在TF中

点击阅读全文...

分类：信息时代标签：GAN, 生成模型, keras, 梯度阅读全文 7 评论

28 Apr

“让Keras更酷一些！”：中间变量、权重滑动和安全生成器

By 苏剑林 | 2019-04-28 | 104254位读者 | 引用

继续“让Keras更酷一些”之旅。

今天我们会用Keras实现灵活地输出任意中间变量，还有无缝地进行权重滑动平均，最后顺便介绍一下生成器的进程安全写法。

首先是输出中间变量。在自定义层时，我们可能希望查看中间变量，这些需求有些是比较容易实现的，比如查看中间某个层的输出，只需要将截止到这个层的部分模型保存为一个新模型即可，但有些需求是比较困难的，比如在使用Attention层时我们可能希望查看那个Attention矩阵的值，如果用构建新模型的方法则会非常麻烦。而本文则给出一种简单的方法，彻底满足这个需求。

接着是权重滑动平均。权重滑动平均是稳定、加速模型训练甚至提升模型效果的一种有效方法，很多大型模型（尤其是GAN）几乎都用到了权重滑动平均。一般来说权重滑动平均是作为优化器的一部分，所以一般需要重写优化器才能实现它。本文介绍一个权重滑动平均的实现，它可以无缝插入到任意Keras模型中，不需要自定义优化器。

至于生成器的进程安全写法，则是因为Keras读取生成器的时候，用到了多进程，如果生成器本身也包含了一些多进程操作，那么可能就会导致异常，所以需要解决这个这个问题。

点击阅读全文...

分类：信息时代标签：模型, 优化, keras 阅读全文 34 评论

27 Aug

自己实现了一个bert4keras

By 苏剑林 | 2019-08-27 | 183455位读者 | 引用

分享个人实现的bert4keras：

https://github.com/bojone/bert4keras

这是笔者重新实现的keras版的bert，致力于用尽可能清爽的代码来实现keras下调用bert。

说明

目前已经基本实现bert，并且能成功加载官方权重，经验证模型输出跟keras-bert一致，大家可以放心使用。

本项目的初衷是为了修改、定制上的方便，所以可能会频繁更新。

因此欢迎star，但不建议fork，因为你fork下来的版本可能很快就过期了。

点击阅读全文...

分类：信息时代标签：语言模型, NLP, keras, attention 阅读全文 48 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）

“让Keras更酷一些！”：精巧的层与花式的回调

Keras伴我走来

层的自定义

变分自编码器（四）：一步到位的聚类方案

理论

一般框架

【学习清单】最近比较重要的GAN进展论文

生成模型之味

RSGAN：对抗模型中的“图灵测试”思想

“图灵测试”思想

SGAN

问题所在

巧断梯度：单个loss实现GAN模型

如果在TF中

“让Keras更酷一些！”：中间变量、权重滑动和安全生成器

自己实现了一个bert4keras

说明

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接