31 Jan

幂等生成网络IGN：试图将判别和生成合二为一的GAN

By 苏剑林 | 2024-01-31 | 51453位读者 |

前段时间，一个名为“幂等生成网络（Idempotent Generative Network，IGN）”的生成模型引起了一定的关注。它自称是一种独立于已有的VAE、GAN、flow、Diffusion之外的新型生成模型，并且具有单步采样的特点。也许是大家苦于当前主流的扩散模型的多步采样生成过程久矣，因此任何声称可以实现单步采样的“风吹草动”都很容易吸引人们的关注。此外，IGN名称中的“幂等”一词也增加了它的神秘感，进一步扩大了人们的期待，也成功引起了笔者的兴趣，只不过之前一直有别的事情要忙，所以没来得及认真阅读模型细节。

最近闲了一点，想起来还有个IGN没读，于是重新把论文翻了出来，但阅读之后却颇感困惑：这哪里是个新模型，不就是个GAN的变种吗？跟常规GAN不同的是，它将生成器和判别器合二为一了。那这个“合二为一”是不是有什么特别的好处，比如训练更稳定？个人又感觉没有。下面将分享笔者从GAN角度理解IGN的过程和疑问。

生成对抗 #

关于GAN（Generative Adversarial Network，生成对抗网络），笔者前几年系统地学习过一段时间（查看GAN标签可以查看到相关文章），但近几年没有持续地关注了，因此这里先对GAN做个简单的回顾，也方便后续章节中我们对比GAN与IGN之间的异同。

GAN有两个基本组件：判别器（Discriminator）和生成器（Generator），也可以形象地类别为“鉴别者”和“伪造者”，其中判别器负责区分出真实样本和生成器生成的假样本，而生成器负责将简单的随机噪声映射为目标样本，并借助判别器的信号改进自己的生成质量，在不断的“攻守对抗”之中，生成器的生成质量越来越优，直到判别器完全无法区分真假样本，达到了以假乱真的效果。

以WGAN为例，判别器$D_{\theta}$的训练目标是拉大真假样本的分数差距：
\begin{equation}\max_{\theta} D_{\theta}(G_{\varphi}(z)) - D_{\theta}(x)\label{eq:d-loss}\end{equation}
其中$x$是训练集的真样本，$z$是随机噪声，$G_{\varphi}$是生成器，$G_{\varphi}(z)$自然是生成器生成的假样本。生成器的训练目标是缩小真假样本的得分差距，即最小化上式，不过对于生成器来说，不包含参数的$x$就相当于是常数，因此可以简化为
\begin{equation}\min_{\varphi} D_{\theta}(G_{\varphi}(z))\label{eq:g-loss}\end{equation}
除此之外，还少了关于L约束的内容，但这属于细节了，这里不展开，有兴趣的读者可以进一步阅读《互怼的艺术：从零直达WGAN-GP》和《从Wasserstein距离、对偶理论到WGAN》等。

一般情况下，GAN是两个Loss交替训练，有时候也可以写成单个Loss往两个方向优化——部分参数执行梯度下降，另外一部分参数则执行梯度上升。这种同时存在相反方向的训练过程（即$\min\text{-}\max$）通常不稳定，比较容易崩溃，又或者训练出来了，但存在模式坍缩（Mode Collapse）的问题，具体表现就是生成结果单一，多样性丧失。

单个损失 #

可能有读者反对：你都说GAN是两个Loss交替优化了，而IGN明明是单个Loss的呀，怎么能够说IGN是GAN的特例？

事实上，IGN的单个Loss的写法是有点“耍无赖”的，照它的写法，GAN同样可以写成单个Loss的形式。具体怎么做呢？很简单，假设$\theta',\varphi'$是$\theta,\varphi$的权重副本，即$\theta'\equiv\theta,\varphi'\equiv\varphi$，但是它们不求梯度，于是式$\eqref{eq:d-loss}$和式$\eqref{eq:g-loss}$可以合并起来写成：
\begin{equation}\min_{\theta,\varphi} D_{\theta}(x) - D_{\theta}(G_{\varphi'}(z)) + D_{\theta'}(G_{\varphi}(z))\label{eq:pure-one-loss}\end{equation}
此时它关于$\theta,\varphi$的梯度跟分开两个Loss时所求的一样，因此是等价实现。可为什么说这种写法是“耍无赖”呢？因为它没有一丁点的技巧，就纯粹将原本的$\min\text{-}\max$换了个记号，真的按照上式实现的话，需要不断地克隆$D_{\theta'},G_{\varphi'}$出来然后停止梯度，非常影响训练效率。

事实上，要想将GAN写成单个Loss的训练形式并保持实用性，可以参考笔者之前写的《巧断梯度：单个loss实现GAN模型》，通过框架自带stop_gradient算子，加上一些梯度运算技巧，就可以实现这一目的。具体来说，stop_gradient就是强制模型某一部分的梯度为0，比如
\begin{equation}\nabla_{\theta,\varphi} D_{\theta}(G_{\varphi}(z)) = \left(\frac{\partial D_{\theta}(G_{\varphi}(z))}{\partial\theta},\frac{\partial D_{\theta}(G_{\varphi}(z))}{\partial\varphi}\right)\label{eq:full-grad}\end{equation}
加了stop_gradient算子（简写为$\color{skyblue}{\text{sg}}$）后，就有
\begin{equation}\nabla_{\theta,\varphi} D_{\theta}(\color{skyblue}{\text{sg}(}G_{\varphi}(z)\color{skyblue}{)}) = \left(\frac{\partial D_{\theta}(G_{\varphi}(z))}{\partial\theta},0\right)\label{eq:stop-grad}\end{equation}
所以通过stop_gradient算子，我们可以很容易屏蔽嵌套函数内层梯度（即$\varphi$的梯度）。那么像生成器那样，需要屏蔽嵌套函数外层梯度（即$\theta$的梯度）呢？没有直接的办法，但我们可以用一个技巧实现：将式$\eqref{eq:full-grad}$和式$\eqref{eq:stop-grad}$相减，就得到
\begin{equation}\nabla_{\theta,\varphi} D_{\theta}(G_{\varphi}(z)) - \nabla_{\theta,\varphi} D_{\theta}(\color{skyblue}{\text{sg}(}G_{\varphi}(z)\color{skyblue}{)}) = \left(0,\frac{\partial D_{\theta}(G_{\varphi}(z))}{\partial\varphi}\right)\end{equation}
这就达到了屏蔽嵌套函数外层梯度。于是将两个式子结合起来，我们就得到单个Loss训练GAN的一种方式
\begin{equation}\begin{gathered}
\min_{\theta,\varphi} \underbrace{D_{\theta}(x) - D_{\theta}(\color{skyblue}{\text{sg}(}G_{\varphi}(z)\color{skyblue}{)})}_{\text{去掉了}\varphi\text{的梯度}} + \underbrace{D_{\theta}(G_{\varphi}(z)) - D_{\theta}(\color{skyblue}{\text{sg}(}G_{\varphi}(z)\color{skyblue}{)})}_{\text{去掉了}\theta\text{的梯度}} \\[8pt]
= \min_{\theta,\varphi} D_{\theta}(x) - 2 D_{\theta}(\color{skyblue}{\text{sg}(}G_{\varphi}(z)\color{skyblue}{)}) + D_{\theta}(G_{\varphi}(z))\end{gathered}\end{equation}
这样就不需要反复克隆模型，也在单个Loss中实现了梯度的等价性。

幂等生成 #

说了那么多，总算可以邀请本文的主角——幂等生成网络IGN登场了。不过在正式登场之前，还请大家再等一会，我们先来谈谈IGN的动机。

GAN有一个明显的特点，就是当GAN训练成功后，往往只保留其中的生成器，判别器大多数是“弃之不用”的。然而，一个合理的GAN，生成器和判别器通常具有同等数量级的参数，判别器弃之不用，意味着一半参数量被浪费了，这是比较可惜的。为此，有些工作尝试过往GAN里边加入编码器，并共享判别器与编码器的部分参数，提高参数利用率。其中，最极简的工作是笔者提的O-GAN，它仅微改了判别器的结构，然后添加一项额外的Loss，就可以将判别器变成编码器，并且不增加参数和计算量，它是笔者比较满意的作品。

本文标题就开门见山，IGN是一个试图将判别器和生成器合二为一的GAN，生成器“既当选手，又当裁判”，所以从这个角度来看，IGN也可以视为提高参数利用率的一种方式。首先，IGN假设$z$和$x$的大小一样，那么生成器$G_{\varphi}$的输出输入的大小都一样，这跟一般的GAN中$z$的维度通常要比$x$的维度小不一样；在输入输出同大小的设计之下，图片本身也可以当成输入，传入到生成器中做进一步运算，于是IGN将判别器设计为重构损失：
\begin{equation}\delta_{\varphi}(x) = \Vert G_{\varphi}(x) - x\Vert^2\label{eq:ign-d}\end{equation}
$\delta_{\varphi}$是重用了IGN论文原本的记号，没有特殊的含义。这样的设计完全重用了生成器的参数，且没有增加额外的参数，看上去确实是一种很优雅的设计。现在我们将上述判别器代入式$\eqref{eq:pure-one-loss}$，得到
\begin{equation}\min_{\varphi}\underbrace{\delta_{\varphi}(x) - \delta_{\varphi}(G_{\varphi'}(z))}_{\text{判别器损失}} + \underbrace{\delta_{\varphi'}(G_{\varphi}(z))}_{\text{生成器损失}}\end{equation}
这不就跟IGN原论文的Final optimization objective如出一辙？当然原论文还多了两个可调的系数，事实上式$\eqref{eq:pure-one-loss}$的每一项系数也是可调的，这不是什么特殊的地方。所以很显然，IGN完全可以从GAN推出，它就是GAN的一个特例——尽管作者说他并不是GAN的角度思考IGN的。

“幂等”一词，源于作者认为IGN在训练成功时，判别器对于真实样本的打分为0，此时$G_{\varphi}(x) = x$，那么可以继续推出
\begin{equation}G_{\varphi}(\cdots G_{\varphi}(x)) = \cdots = G_{\varphi}(G_{\varphi}(x)) = G_{\varphi}(x) = x\end{equation}
也就是说，对真实样本$x$多次应用$G_{\varphi}$，结果仍然保持不变，这正是数学上“幂等”的含义。然而，从理论上来说，我们并没办法保证GAN的判别器（对于真实样本的）损失是零，所以很难做到真正意义上的幂等，原论文的实验结果也表明了这一点。

个人分析 #

一个非常值得思考的问题是：重构损失$\eqref{eq:ign-d}$为什么可以成功作为判别器呢？或者说，基于$G_{\varphi}(x)$和$x$可以构建的表达式非常多，任意一个都可以作为判别器吗？

单从“重构损失作为判别器”这一点来看，IGN跟EBGAN很相似，可这不意味着EBGAN的成功就能解释IGN的成功，因为EBGAN的生成器是独立于判别器之外的，并没有完全共享参数的约束，所以EBGAN的成功是“情理之中”，符合GAN的原始设计。但IGN却不一样，因为它的判别器和生成器完全共享了参数，并且GAN本身训练存在很大的不稳定因素，所以很容易“一损俱损”，让两者一起训崩。

在笔者看来，IGN能有机会不训崩，是因为刚好满足了“自洽性”。首先，GAN的根本目标，是希望对于输入噪声$z$，$G_{\varphi}(z)$能够输出一张真实图片；而对于IGN中“重构损失作为判别器”的设计，即便判别器的最优损失不是零，也可能是大差不差，即$G_{\varphi}(x)\approx x$是近似满足的，于是它同时满足了“对于输入图片$x$，$G_{\varphi}(x)$能够输出一张真实图片”的条件。也就是说，不管输入如何，输出的空间都是真实样本，这一点自洽性非常重要，否则生成器可能因为需要往两个方向进行生成而“分崩离析”。

既然如此，IGN相比于一般的GAN，有什么实质的改进呢？请恕在下愚钝，笔者实在是看不出IGN的好处所在。就拿参数利用率来说，看上去IGN的参数共享确实提高了参数利用率，但事实上为了保证生成器$G_{\varphi}$的输入输出一样，IGN使用了自编码器结构，其参数量和计算量，就等于一般GAN的判别器和生成器之和！换句话说，IGN非但没有降低参数量，反而因为增大了生成器的体积而增加了总的计算量。

笔者也简单实验了一下IGN，发现IGN的训练同样有不稳定的问题，甚至可以说更不稳定，因为“参数共享+欧氏距离”这种硬约束更容易放大这种不稳定性，导致“一损俱损”而不是“一荣俱荣”。此外，IGN的生成器输入输出同大小的特点，也失去了一般GAN的生成器从低维流形投影到高维数据的优点，以及IGN同样容易模式坍缩，并且由于欧式距离的问题，生成的图片更像VAE那样偏模糊。

文章小结 #

本文从GAN的角度介绍了前段时间引起了一定关注的幂等生成网络IGN，对比了它与GAN的联系与区别，并分享了自己对IGN的分析。

转载到请包括本文地址：https://kexue.fm/archives/9969

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Jan. 31, 2024). 《幂等生成网络IGN：试图将判别和生成合二为一的GAN 》[Blog post]. Retrieved from https://kexue.fm/archives/9969

@online{kexuefm-9969,
        title={幂等生成网络IGN：试图将判别和生成合二为一的GAN},
        author={苏剑林},
        year={2024},
        month={Jan},
        url={\url{https://kexue.fm/archives/9969}},
}

分类：信息时代标签：GAN, 生成模型, 对抗 22 评论

< Transformer升级之路：16、“复盘”长度外推技术 | 更便捷的Cool Papers打开方式：Chrome重定向扩展 >

你也许还对下面的内容感兴趣

发表你的看法

DIYer22

January 31st, 2024

赞博主的本质分析, IGN 在 openreview 上也遭到了是 GAN 变种的质疑.

近期还有一个搞新生成模型的相似工作 Discrete Distribution Networks (https://discrete-distribution-networks.github.io/) , 求博主也一并分析一下!

回复评论

苏剑林发表于 January 31st, 2024

阁下似乎就是DDN的作者？欢迎莅临指导！我认真拜读一下～

回复评论

DIYer22 发表于 January 31st, 2024

哈哈哈哈, 是的, 没想到伪装成路人那么快就被揭穿了. DDN 支持纯粹的判别模型作为引导来做 zero-shot conditional generation (无需梯度和迭代), 让生成模型和判别模型得以进一步融合. 感谢博主关注, 也欢迎交流!

回复评论

苏剑林发表于 February 3rd, 2024

我昨晚简单阅读了一下DDN，基本结论是：DDN本质上在做跟VQ-VAE类似的事情，试图将图片转换为一系例的离散ID，然后转换为离散ID的生成。不同点在于：

1、DDN通过特定的结构设置，使得输出的$L$个离散编码具有单向依赖的特点，而VQ-VAE则是双向的；

2、DDN通过特定的训练算法（Split and Prune），使得每个位置的离散编码尽可能均匀，这样在训练出来后，模型自动成为一个自回归生成模型（每一步均匀采样）。

同时因为第2点，我认为论文将DDN定义为单步采样模型是不对的，它应该就是个自回归模型，只不过在原论文的设计之下，每一步递归的计算量不大？

然后，泼个冷水，就是DDN的想法很好，但如果没有进一步的明显优化，我并不看好它的前景，原因有2点：

1、Split and Prune人工雕琢痕迹太严重，很难给人能成为主流的感觉；

2、最重要的是，在DDN论文目前的设计下，熵是严重不足的。其实原论文已经计算过，$L$长度，每个位置$K$个值，那么顶多编码$L\log_2 K$个比特的信息，原论文$L=128,K=512$，然而，参考以往的pixel generation的工作（比如 https://arxiv.org/abs/1904.10509 ），ImageNet 64x64的每个dim的比特数都在3以上，这意味着一个64*64的ImageNet图像，至少有64*64*3*3=36864个比特（即便celeba可能小一点，也不会小到哪里去），而DDN目前的设置顶天了能编码1152个比特，这是远远不足的，所以DDN无法做到无损编码，而有损的话，因为DDN依赖于MSE，那么生成结果必然模糊。

回复评论

DIYer22 发表于 February 4th, 2024

感谢博主的评论, 尤其是关于熵不足的论证.

当前的 DDN 论文的目的只是展示一个全新的生成模型及其独特的性质(zero-shot conditional generation 和高度压缩表示), 并做基本的 proof of concept.

关于和 VQ-VAE 的区别, 我认为尽管我们目标有相似性(离散 latent), 但也显著不同(VQ 仍然是二维的 latent, 而 DDN 是序列/层次化的), 且网络架构、latent 构建方案、先验建模和优化方法都不一样, 模型的性质也不同

对于是不是单步模型, DDN 支持参数重用的自回归形式, 也支持 single shot 形式. 而对于 single shot 形式, 从参数复用程度和生成图像的算力上看, DDN 和 GAN 的生成器、VAE 的解码器更相似, 所以我把它归类为了 one-step.

就应用而言, 我也认同纯 DDN 并不适合熵很高的图像生成任务. 但生成模型的应用很广泛, 我想到的 DDN 潜在应用有:
- DDN 能建模完整分布, 但高频信号差, 能力上正好和 GAN 互补. 所以可以加对抗/感知损失来补上高频信号.
- 做熵没那么高的任务, 比如 image2image conditional training, latent 生成或者解决某些有歧义性质的判别任务(深度估计, pose).
- 自然语言的熵很低, 分享一下我正在做的尝试, "把单层 DDN 用在 GPT 上, 直接回归 utf-8 的二进制":
1. 该方案能去掉 tokenization 步骤, 并根据问题难度在每一次前向中, 自适应调整生成内容的 byte 长度(可以理解为天然支持 speculative sample，能同时节省计算和访存)
2. 展示一下初步实验生成的句子(由网络自动分词): │The │investigation │is │due to │take place │later │this │summer│ and │it │means │a │team │is gl│abi│lang,│ as well as │the │investigation │is │likely to │take │place │this │summer│. 模型能把 ` as well as ` 这样的 12 个 byte 的词组分为一个 token

回复评论

苏剑林发表于 February 5th, 2024

因为熵损失太严重，引入对抗或者感知损失只能引导它往另一个方向（更接近人的视角）去有损压缩，距离无损压缩还是差太远，这是它本质瓶颈。

其他观点基本上认同，做低熵任务这个定位我觉得是比较适合的，另外应用到NLP我也稍微思考了一下，但没太深入。我对你最后演示的自动分词效果非常感兴趣，这是DDN+GPT联合训练的？还是先DDN然后GPT？欢迎进一步展开哈哈哈（评论区或者邮件均可）

回复评论

DIYer22 发表于 February 5th, 2024

简单来讲, 该方案把 GPT 输出层的词表 softmax 换成了一层 Discrete Distribution Layer 输出 K 个长度固定的 patch 候选, 并加一个分词 loss 来预测 patch 应该从哪里分词. 为了处理这个长度不固定的 patch 还有一些较为复杂的设计, 得整理了资料后才好表述清楚, 到时候再与博主交流~

再分享一下自己不成熟的思考, 可能和内容不太相关: 我和很多人交流 DDN 时, 有个很有意思的发现, 做大模型的人都非常看重图像的无损压缩. 按我的理解, 能无损压缩的生成模型只有 AR 和 flow, 而且似乎没有一个实用的图像无损压缩的多模态方案? 所以没能想明白大家看重图像无损压缩背后的缘由. 如果是认为有损压缩无法通向智能, 但图像在成像和预处理的时候就是对物理信号的量化(有损压缩), 所以还有必要追求 bit 层面的无损压缩吗? 我粗浅的理解是无损压缩是绝佳的/客观的评价指标, 但不是智能的必要条件.

苏剑林

February 5th, 2024

@DIYer22|comment-23673

我新开一层讨论。

首先，GPT+DDN的思路我再简单问一下，就是输入是直接bytes或者更底层？然后输出加了一些处理，所谓自动分词，应该就是让模型能够自动并行预测一部分bytes，这个并行的部分就相当于一个token的概念对吧？感觉很不错，我自行领悟领悟。

然后，关于图像有损的问题。第一，有损无损是一个整体的概念，不局限于bit层面或者某个颗粒度，因为从理论上来说，固有的信息量是跟观察的颗粒度无关的；第二，我同意可以有损，但至少是对于人眼来说或者人脑来说无损，类比LLM的话，LLM per token的熵也不大，并且序列长度也有限，所以按道理人接受到的图像熵应该也只是在这个范围内，而目前的生成模型确实无法做到这一点。

举个最简单的例子，目前各种扩散模型可以生成很逼真的图片了，但你叫它按照指定文字生成一篇纸质版的内容（比如图片上有一封信，信中写了xxxx），应该还没有任何一个模型能够完成，这就是当前生成模型的瓶颈。之所以追求无损，是因为目前尚没有能够描述人类视觉无损的损失可用。

此外，从理论上来说，其实任意高斯分布到目标分布变换的生成模型，都有可能做到无损压缩，比如GAN、flow、扩散模型甚至VAE等，VAE虽然通常模糊，但这是它实践上的问题，并不是理论上的，理论上它靠高斯噪声作为“熵源”，是有足够丰富的熵的。但是DDN不一样，DDN是离散的latent的，它的熵源就是步数$L$和词表大小$K$，这只能实现有限的熵。

回复评论

DIYer22 发表于 February 5th, 2024

对于 DDN+GPT, 我画了一组示意图: https://github.com/Discrete-Distribution-Networks/Discrete-Distribution-Networks.github.io/issues/1

我选择的是把 byte 转换为二进制的 bin 来作为网络的输入和输出. (示意图中没有完全展示针对 patch 长度不固定的相关操作), 有疑问也欢迎继续沟通~

关于无损压缩, 理解了博主倾向无损压缩的背后逻辑, 举出的例子也很赞. 也认同博主关于 DDN 的 “熵源” 不够的说法, 所以, 我把高度压缩的表示算作 DDN 的亮点, 并且也认同 DDN 不适合熵很高的图像生成任务

总之, 感谢博主的耐心解答~

回复评论

苏剑林发表于 February 6th, 2024

谢谢分享。看上去靠谱，但我看了两遍，没看完全懂这个图，要不我们微信交流一下？（已经邮箱私聊你）

回复评论

Chason

February 6th, 2024

苏神最近有考虑写篇关于flow matching的分析文章么？

回复评论

苏剑林发表于 February 6th, 2024

我记得 flow matching 好像跟 https://kexue.fm/archives/9379 的结果差不多的，甚至后者的结果可能更丰富一些。

回复评论

zhb

February 26th, 2024

IGN 的目标函数里有一项是最大化 L2 loss，最大化 L2 loss 的时候会有梯度消失的问题，效果可能不太好。

回复评论

Action

February 26th, 2024

感谢博主分享，我感觉我的理解有点问题，求教：

单看公式3的前半部分\begin{equation}\min_{\theta} D_{\theta}(x) - D_{\theta}(G_{\varphi'}(z))\end{equation}却又像是最小化了正负样本的得分差，因为我理解公式1写成\begin{equation}\max_{\theta}
D_{\theta}(x) - D_{\theta}(G_{\varphi}(z))\end{equation}也是可以的，这样的话这俩公式的就变成了一个是最小化差异，一个是最大化差异。该怎么理解才对呢？

回复评论

苏剑林发表于 February 27th, 2024

公式$(1)$明明是$\max_{\theta} D_{\theta}(G_{\varphi}(z)) - D_{\theta}(x)$，为什么可以反过来？如果反过来的话，后面也全面需要加上负号（比如公式$(2)$），所以不大清楚你要表达的点是什么。

回复评论

Action

February 27th, 2024

@苏剑林|comment-23789
是的，我确实没考虑到反过来的话公式（2）应该加负号，谢谢指教

回复评论

org_xin

February 27th, 2024

博主，您好，看你的文章很有启发。有点想法想跟您交流一下，这个IGN的$G(x)\approx x $，能否引入扩散模型中的采样思想，将每步的生成作为下一步G的输入，即$G(x_{i-1})\approx x_{i}$？请问有将扩散模型中的逐步采样思想引入到GAN的文献工作吗？

回复评论

苏剑林发表于 February 29th, 2024

不懂就问：都用到扩散了，再加GAN是图什么呢？

回复评论

zhb 发表于 March 1st, 2024

作者在 reddit 上回复了这个问题，他说由于重构损失的影响，对生成的图像重复应用 IGN 可能会导致图像变模糊。 https://www.reddit.com/r/MachineLearning/comments/17otzfw/comment/k8414qg/

回复评论

苏剑林发表于 March 2nd, 2024

谢谢提供。但这个本质上是自编码器的问题，不是L2 loss的问题。扩散模型也用L2 loss，但它可以很清晰，而我自己试验了一下IGN，如果使用U-Net的架构做生成模型，没看到任何收敛的迹象，但用DCGAN的自编码器架构就很快收敛了，所以这是一个非常矛盾的地方。

回复评论

Faymek

May 15th, 2024

苏神，可以请您分析下低熵任务和高熵任务吗，比如说语义类编码的熵，控制信息的熵，压缩重建任务的熵。有没有编码器可以同时做低熵任务0.01 bpp和高熵任务 0.1bpp

回复评论

苏剑林发表于 May 15th, 2024

目前不了解低熵任务和高熵任务的概念，还请你指点一下。

回复评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

幂等生成网络IGN：试图将判别和生成合二为一的GAN

生成对抗 #

单个损失 #

幂等生成 #

个人分析 #

文章小结 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接