标签 GAN 下的文章 - 科学空间|Scientific Spaces

1 Mar

对抗训练浅谈：意义、方法和思考（附Keras实现）

By 苏剑林 | 2020-03-01 | 323483位读者 | 引用

当前，说到深度学习中的对抗，一般会有两个含义：一个是生成对抗网络（Generative Adversarial Networks，GAN），代表着一大类先进的生成模型；另一个则是跟对抗攻击、对抗样本相关的领域，它跟GAN相关，但又很不一样，它主要关心的是模型在小扰动下的稳健性。本博客里以前所涉及的对抗话题，都是前一种含义，而今天，我们来聊聊后一种含义中的“对抗训练”。

本文包括如下内容：

1、对抗样本、对抗训练等基本概念的介绍；
2、介绍基于快速梯度上升的对抗训练及其在NLP中的应用；
3、给出了对抗训练的Keras实现（一行代码调用）；
4、讨论了对抗训练与梯度惩罚的等价性；
5、基于梯度惩罚，给出了一种对抗训练的直观的几何理解。

点击阅读全文...

分类：信息时代标签：GAN, keras, 对抗训练, 泛化阅读全文 102 评论

13 Feb

在2018年的文章里《f-GAN简介：GAN模型的生产车间》笔者介绍了f-GAN，并评价其为GAN模型的“生产车间”，顾名思义，这是指它能按照固定的流程构造出很多不同形式的GAN模型来。前几天在arxiv上看到了新出的一篇论文《Designing GANs: A Likelihood Ratio Approach》（后面简称Designing GANs或原论文），发现它在做跟f-GAN同样的事情，但走的是一条截然不同的路（不过最后其实是殊途同归），整篇论文颇有意思，遂在此分享一番。

f-GAN回顾

从《f-GAN简介：GAN模型的生产车间》中我们可以知道，f-GAN的首要步骤是找到满足如下条件的函数$f$：

1、$f$是非负实数到实数的映射（$\mathbb{R}^* \to \mathbb{R}$）；
2、$f(1)=0$；
3、$f$是凸函数。

点击阅读全文...

分类：数学研究,信息时代标签：微积分, GAN, 生成模型阅读全文 4 评论

1 Dec

级联抑制：提升GAN表现的一种简单有效的方法

By 苏剑林 | 2019-12-01 | 41785位读者 | 引用

昨天刷arxiv时发现了一篇来自星星韩国的论文，名字很直白，就叫做《A Simple yet Effective Way for Improving the Performance of GANs》。打开一看，发现内容也很简练，就是提出了一种加强GAN的判别器的方法，能让GAN的生成指标有一定的提升。

作者把这个方法叫做Cascading Rejection，我不知道咋翻译，扔到百度翻译里边显示“级联抑制”，想想看好像是有这么点味道，就暂时这样叫着了。介绍这个方法倒不是因为它有多强大，而是觉得它的几何意义很有趣，而且似乎有一定的启发性。

正交分解

GAN的判别器一般是经过多层卷积后，通过flatten或pool得到一个固定长度的向量$\boldsymbol{v}$，然后再与一个权重向量$\boldsymbol{w}$做内积，得到一个标量打分（先不考虑偏置项和激活函数等末节）：
\begin{equation}D(\boldsymbol{x})=\langle \boldsymbol{v},\boldsymbol{w}\rangle\end{equation}
也就是说，用$\boldsymbol{v}$作为输入图片的表征，然后通过$\boldsymbol{v}$和$\boldsymbol{w}$的内积大小来判断出这个图片的“真”的程度。

点击阅读全文...

分类：信息时代标签：几何, GAN, 生成模型阅读全文 4 评论

3 May

从动力学角度看优化算法（四）：GAN的第三个阶段

By 苏剑林 | 2019-05-03 | 131130位读者 | 引用

在对GAN的学习和思考过程中，我发现我不仅学习到了一种有效的生成模型，而且它全面地促进了我对各种模型各方面的理解，比如模型的优化和理解视角、正则项的意义、损失函数与概率分布的联系、概率推断等等。GAN不单单是一个“造假的玩具”，而是具有深刻意义的概率模型和推断方法。

作为事后的总结，我觉得对GAN的理解可以粗糙地分为三个阶段：

1、样本阶段：在这个阶段中，我们了解了GAN的“鉴别者-造假者”诠释，懂得从这个原理出发来写出基本的GAN公式（如原始GAN、LSGAN），比如判别器和生成器的loss，并且完成简单GAN的训练；同时，我们知道GAN有能力让图片更“真”，利用这个特性可以把GAN嵌入到一些综合模型中。
2、分布阶段：在这个阶段中，我们会从概率分布及其散度的视角来分析GAN，典型的例子是WGAN和f-GAN，同时能基本理解GAN的训练困难问题，比如梯度消失和mode collapse等，甚至能基本地了解变分推断，懂得自己写出一些概率散度，继而构造一些新的GAN形式。
3、动力学阶段：在这个阶段中，我们开始结合优化器来分析GAN的收敛过程，试图了解GAN是否能真的达到理论的均衡点，进而理解GAN的loss和正则项等因素如何影响的收敛过程，由此可以针对性地提出一些训练策略，引导GAN模型到达理论均衡点，从而提高GAN的效果。

点击阅读全文...

分类：信息时代标签：微分方程, 动力学, GAN, 生成模型, 优化器阅读全文 28 评论

19 Apr

从DCGAN到SELF-MOD：GAN的模型架构发展一览

By 苏剑林 | 2019-04-19 | 101283位读者 | 引用

事实上，O-GAN的发现，已经达到了我对GAN的理想追求，使得我可以很惬意地跳出GAN的大坑了。所以现在我会试图探索更多更广的研究方向，比如NLP中还没做过的任务，又比如图神经网络，又或者其他有趣的东西。

不过，在此之前，我想把之前的GAN的学习结果都记录下来。

这篇文章中，我们来梳理一下GAN的架构发展情况，当然主要的是生成器的发展，判别器一直以来的变动都不大。还有，本文介绍的是GAN在图像方面的模型架构发展，跟NLP的SeqGAN没什么关系。

此外，关于GAN的基本科普，本文就不再赘述了。

棋盘效应图示，体现为放大之后出现如国际象棋棋盘一样的交错效应。图片来自文章《Deconvolution and Checkerboard Artifacts》

点击阅读全文...

分类：信息时代标签：模型, GAN, 生成模型阅读全文 13 评论

6 Mar

O-GAN：简单修改，让GAN的判别器变成一个编码器！

By 苏剑林 | 2019-03-06 | 332352位读者 | 引用

本文来给大家分享一下笔者最近的一个工作：通过简单地修改原来的GAN模型，就可以让判别器变成一个编码器，从而让GAN同时具备生成能力和编码能力，并且几乎不会增加训练成本。这个新模型被称为O-GAN（正交GAN，即Orthogonal Generative Adversarial Network），因为它是基于对判别器的正交分解操作来完成的，是对判别器自由度的最充分利用。

FFHQ线性插值效果图

Arxiv链接：https://papers.cool/arxiv/1903.01931
开源代码：https://github.com/bojone/o-gan

点击阅读全文...

分类：信息时代标签：无监督, GAN, 生成模型, 编码阅读全文 101 评论

22 Feb

巧断梯度：单个loss实现GAN模型

By 苏剑林 | 2019-02-22 | 57470位读者 | 引用

我们知道普通的模型都是搭好架构，然后定义好loss，直接扔给优化器训练就行了。但是GAN不一样，一般来说它涉及有两个不同的loss，这两个loss需要交替优化。现在主流的方案是判别器和生成器都按照1:1的次数交替训练（各训练一次，必要时可以给两者设置不同的学习率，即TTUR），交替优化就意味我们需要传入两次数据（从内存传到显存）、执行两次前向传播和反向传播。

如果我们能把这两步合并起来，作为一步去优化，那么肯定能节省时间的，这也就是GAN的同步训练。

（注：本文不是介绍新的GAN，而是介绍GAN的新写法，这只是一道编程题，不是一道算法题～）

如果在TF中

点击阅读全文...

分类：信息时代标签：GAN, 生成模型, keras, 梯度阅读全文 7 评论

15 Feb

能量视角下的GAN模型（二）：GAN＝“分析”＋“采样”

By 苏剑林 | 2019-02-15 | 177356位读者 | 引用

在这个系列中，我们尝试从能量的视角理解GAN。我们会发现这个视角如此美妙和直观，甚至让人拍案叫绝。

上一篇文章里，我们给出了一个直白而用力的能量图景，这个图景可以让我们轻松理解GAN的很多内容，换句话说，通俗的解释已经能让我们完成大部分的理解了，并且把最终的结论都已经写了出来。在这篇文章中，我们继续从能量的视角理解GAN，这一次，我们争取把前面简单直白的描述，用相对严密的数学语言推导一遍。

跟第一篇文章一样，对于笔者来说，这个推导过程依然直接受启发于Bengio团队的新作《Maximum Entropy Generators for Energy-Based Models》。

原作者的开源实现：https://github.com/ritheshkumar95/energy_based_generative_models

本文的大致内容如下：

1、推导了能量分布下的正负相对抗的更新公式；
2、比较了理论分析与实验采样的区别，而将两者结合便得到了GAN框架；
3、导出了生成器的补充loss，理论上可以防止mode collapse；
4、简单提及了基于能量函数的MCMC采样。

点击阅读全文...

分类：信息时代标签：概率, 能量, GAN, 生成模型阅读全文 48 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前32岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

对抗训练浅谈：意义、方法和思考（附Keras实现）

Designing GANs：又一个GAN生产车间

f-GAN回顾

级联抑制：提升GAN表现的一种简单有效的方法

正交分解

从动力学角度看优化算法（四）：GAN的第三个阶段

从DCGAN到SELF-MOD：GAN的模型架构发展一览

O-GAN：简单修改，让GAN的判别器变成一个编码器！

巧断梯度：单个loss实现GAN模型

如果在TF中

能量视角下的GAN模型（二）：GAN＝“分析”＋“采样”

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接