14 Jul

当生成模型肆虐：互联网将有“疯牛病”之忧？

By 苏剑林 | 2023-07-14 | 62549位读者 |

众所周知，不管是文本还是视觉领域，各种生成模型正在以无法阻挡的势头“肆虐”互联网。虽然大家都明白，实现真正的通用人工智能（AGI）还有很长的路要走，但这并不妨碍人们越来越频繁地利用生成模型来创作和分享内容。君不见，很多网络文章已经配上了Stable Diffusion模型生成的插图；君不见，很多新闻风格已经越来越显现出ChatGPT的影子。看似无害的这种趋势，正悄然引发了一个问题：我们是否应该对互联网上充斥的生成模型数据保持警惕？

近期发表的论文《Self-Consuming Generative Models Go MAD》揭示了一种令人担忧的可能性，那就是生成模型正在互联网上的无节制扩张，可能会导致一场数字版的“疯牛病”疫情。本文一起学习这篇论文，探讨其可能带来的影响。

“食自己” #

一方面，人们使用生成模型的频率越来越高，将会导致互联网上由生成模型创作的内容越来越多；另一方面，生成模型也在更新迭代，其所用的数据也是从互联网爬取的，可以想像，后面的训练集中由生成模型创作的部分占比将会越来越高。换句话说，后面的每一代模型迭代时可能都没有足够多的新鲜数据，纯粹是用自己生产的数据来训，用广东话说就是“食自己”，这将导致模型的质量或者多样性越来越差，原论文称之为“模型自噬紊乱（Model Autophagy Disorder，MAD）”。

无独有偶，生物学上也曾出现了类似的例子。牛是草食动物，然而，一些畜牧业者为了增强其营养供应，将其他牛的残骸（包括大脑）粉碎并混入饲料中。这在当时看起来是一个机智的做法，但未曾想到最后导致了“疯牛症”的出现和大规模传播。这一事例说明，长期的“食自己”可能会导致有害因素累积在生物体内，一旦达到一定程度，甚至可能触发灾难性的疾病。

因此，我们同样需要反思生成模型的“肆虐”是否会在互联网上引发另一场“疯牛症”——这不仅可能导致信息的同质化，使得各种内容开始变得千篇一律，缺乏原创性和多样性，还有可能引发一系列无法预见的问题。

降多样性 #

可能有读者会产生疑问：生成模型不就是对真实数据分布的模拟吗？即便连续地使用生成模型的数据进行迭代训练，应该只是在重复呈现真实的数据分布，怎么会导致多样性的丧失呢？

这其中的原因是多方面的。首先，训练生成模型的数据往往并非直接取自真实分布，而是经过人为的加工处理，比如去噪、规范化和对齐。经过加工后，训练集就已经丧失了部分多样性。例如，我们之所以能观察到很多新闻报道或知乎回答都有一股ChatGPT的味道，并非是因为内容本身，而是因为它们的格式与ChatGPT的相似性，这就说明ChatGPT的训练数据和输出结果的风格都比较明显且局限。再比如，为了降低图像生成模型的训练难度，我们通常需要对图像进行对齐处理，如在训练人脸生成模型时，常常需要将所有人脸的眼睛对齐到同一位置，这些操作也导致了多样性的丧失。

此外，还有一个很关键的因素是，由于生成模型本身或者训练技巧等限制，每个生成模型都无法做到完美，此时我们通常会主动地引入一些牺牲多样性来提高生成质量的技巧。比如，对于GAN、Flow等生成模型，我们会选择降低采样噪声的方差，以获得质量更高的生成结果，这就是所谓的截断技巧或退火技巧。另外，如《生成扩散模型漫谈（九）：条件控制生成结果》所述，在扩散模型中我们通常引入条件信息以控制输出结果，不管是Classifier-Guidance还是Classifier-Free方案，额外条件的引入也会限制生成结果的多样性。总而言之，在生成模型不尽完美时，我们在平衡质量与多样性的过程中，就主动地放弃了部分多样性。

正态分布 #

为了更深刻地认识到这种现象，我们接下来将探讨一些具体的例子。作为开始，我们首先考虑的是正态分布，因为它足够简单，所以求解和分析都更加清晰。但后面我们可以观察到，结果已经足够有代表性了。

假设真实分布是多元正态分布 $\mathcal{N}(\boldsymbol{\mu}_0,\boldsymbol{\Sigma}_0)$ ，我们用来建模的分布也是正态分布 $\mathcal{N}(\boldsymbol{\mu},\boldsymbol{\Sigma})$ ，那么训练模型的过程，就是从训练集里边估计均值向量 $\boldsymbol{\mu}$ 和协方差矩阵 $\boldsymbol{\Sigma}$ 。接下来我们假设每一代生成模型训练时，都只用到上一代生成模型创作的数据，这是比较极端的假设，但不可否认当生成模型进一步普及时，这个假设越来越接近成立。

在这些假设下，我们从 $t-1$ 代生成模型 $\mathcal{N}(\boldsymbol{\mu}_{t-1},\boldsymbol{\Sigma}_{t-1})$ 中采样 $n$ 个样本 $\boldsymbol{x}_{t-1}^{(1)},\boldsymbol{x}_{t-1}^{(2)},\cdots,\boldsymbol{x}_{t-1}^{(n)}$ ，来训练第 $t$ 代的生成模型：

$\begin{equation}\boldsymbol{\mu}_t = \frac{1}{n}\sum_{i=1}^n \boldsymbol{x}_{t-1}^{(i)},\quad \boldsymbol{\Sigma}_t=\frac{1}{n-1} \sum_{i=1}^n \big(\boldsymbol{x}_{t-1}^{(i)} - \boldsymbol{\mu}_t\big)\big(\boldsymbol{x}_{t-1}^{(i)} - \boldsymbol{\mu}_t\big)^{\top}\end{equation}$
注意，如果加上截断技巧，那么第

$t$ 代的生成模型就是

$\mathcal{N}(\boldsymbol{\mu}_t,\lambda\boldsymbol{\Sigma}_t)$ ，其中

$\lambda\in(0,1)$ 。于是可以想象，每一代的方差（多样性）都将以

$\lambda$ 的比率衰减下去，最后变成零（完全丧失多样性）。如果不使用截断技巧（即

$\lambda=1$ ）是不是就没事了？并不是。根据定义

$\boldsymbol{\mu}_t = \frac{1}{n}\sum\limits_{i=1}^n \boldsymbol{x}_{t-1}^{(i)}$ ，由于

$\boldsymbol{x}_{t-1}^{(i)}$ 都是随机采样得到的，所以

$\boldsymbol{\mu}_t$ 也是一个随机变量，根据正态分布的叠加性，它实际上服从

$\begin{equation}\boldsymbol{\mu}_t \sim \mathcal{N}\left(\boldsymbol{\mu}_{t-1},\frac{1}{n}\boldsymbol{\Sigma}_{t-1}\right)\quad\Rightarrow\quad\boldsymbol{\mu}_t \sim \mathcal{N}\left(\boldsymbol{\mu}_0,\frac{t}{n}\boldsymbol{\Sigma}_0\right)\end{equation}$
可以预见，当

$t$ 足够大时，

$\boldsymbol{\mu}_t$ 本身就会明显偏离

$\boldsymbol{\mu}_0$ ，这对应的是质量的崩溃，而不单单是多样性的降低。

总的来说，截断技巧的引入，会大大加速多样性的丧失速度，而即便没有截断技巧，在长期有限样本的迭代训练中，生成分布也有可能明显偏离原始的真实分布。注意，正态分布这个例子所做的假设已经比一般的生成模型要弱得多，至少它的拟合能力是保证足够的，但这依然不可避免多样性衰减或者质量崩溃，而对于真实世界的数据和能力有限的生成模型来说，理论上只会更加糟糕。

生成模型 #

对于实际的生成模型，理论分析难以进行，所以只能通过实验来探索结果了。原论文做了非常丰富的实验，结果基本上跟正态分布的结论一致，即如果加入截断技巧的话，多样性将会迅速丧失，即使没有截断技巧，经过反复迭代后的模型依然会不可避免地出现一些偏离。

这是带有截断技巧的一个例子：

带截断技巧，第1代生成结果

带截断技巧，第5代生成结果

这是不带截断技巧的一个例子：

不带截断技巧，第1代生成结果

不带截断技巧，第7代生成结果

当然，“每一轮的迭代只用上一轮的模型生成的数据”这个假设比较极端，原论文还分析了每一轮都包含一定数量的真实数据的情况，这个情况有包含两个子情况：1、真实数据的采样结果一开始就恒定不变；2、每次迭代都能采样到新鲜的真实数据。第1种方式比较容易实现，但原论文显示它只能减缓退化的速度，无法从根本上解决这个问题；第2种方式虽然可以解决退化问题，但在实际背景下，我们却很难有效筛选出真实数据和模型生成的数据。

文章小结 #

本文探讨了当各种生成模型大规模“肆虐”互联网时可能出现的后果，在生成模型反复用自己生成的数据进行更新迭代时，可能导致信息严重同质化、丧失多样性的问题，类似于曾经因“牛吃牛”而出现的“疯牛病”。

转载到请包括本文地址：https://kexue.fm/archives/9687

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Jul. 14, 2023). 《当生成模型肆虐：互联网将有“疯牛病”之忧？》[Blog post]. Retrieved from https://kexue.fm/archives/9687

@online{kexuefm-9687,
        title={当生成模型肆虐：互联网将有“疯牛病”之忧？},
        author={苏剑林},
        year={2023},
        month={Jul},
        url={\url{https://kexue.fm/archives/9687}},
}

分类：信息时代标签：生成模型 35 评论

< Transformer升级之路：10、RoPE是一种β进制编码 | 语言模型输出端共享Embedding的重新探索 >

你也许还对下面的内容感兴趣

发表你的看法

Xi Yang

July 14th, 2023

如果考虑人类会对生成的内容进行后加工处理，结论会有不一样吗？

回复评论

苏剑林发表于 July 17th, 2023

人类的加工速度通常远远比不上模型的生成速度，所以我感觉结论不会有质的差别。

回复评论

yanyan

July 14th, 2023

自己生成自己也还好，考虑人类作为整体，目前不就是自己生产和消费吗？

回复评论

苏剑林发表于 July 17th, 2023

乐观地讲，人并非总是在复刻过去的数据分布，而是有一定的创造能力，同时以人为标准的话，人的拟合能力可以说是完美的。

相比之下，生成模型的任务就是复刻指定分布，并且生成模型的拟合能力有限，所以直观来想也会是越来越差。

回复评论

TC 发表于 July 19th, 2023

很好的文章！但是我有一个问题是，如何在数学上严格定义创造能力，或者说，人的创造能力能不能用分布去拟合出来？

回复评论

苏剑林发表于 July 20th, 2023

创造本质上是（好的）变异，但我也不清楚怎么区分好的变异和差的变异，所以也没想到怎么刻画～不过现在看来，上述提到创造其实是没必要的，因为本文的主题是分布的重现。

回复评论

冯毅强发表于 July 19th, 2023

人的拟合能力也不是完美的，大量的人都是庸人，大家的产出结果只是对自身过往的经验的重复。之所以人类没有完全丧失多样性，一是因为天才的存在，二是因为存在判别机制，可以把真正优质的内容筛选出来，供大众重复，三是大众拙劣的重复能力，从而引入额外的噪音。

回复评论

苏剑林发表于 July 20th, 2023

很完整的视角，受教了。还有一点，人可以视为一个单独的生成模型，但人类文明的传承是所有人导致的结果，所以这里或许还有一点改进的地方是需要很多个生成模型共同运作。

回复评论

K.L. 发表于 July 27th, 2023

我觉得根本在于对自然的探索提供了新的素材。试想如果没有近代科学和基础理论的发展，今天的人类文化会什么样。退化是不可避免的，中世纪经学和八丿股文都是例子。

回复评论

苏剑林发表于 July 29th, 2023

也就是读者@冯毅强|comment-22279说的天才的存在了。

回复评论

当生成模型肆虐：互联网将有“疯牛病”之忧？ R11; AI 資訊

July 15th, 2023

[...]Read More [...]

回复评论

glorythesky

July 15th, 2023

权宜之计：每个迭代加入一定比例的真实数据。

回复评论

Sunbread

July 16th, 2023

我觉得更应该担心的是对教育的毒害。人类幼童都有可能被这类自动生成的毒教材毒化……

回复评论

Yang Liu 发表于 July 17th, 2023

具体是什么样的毒害，有偏颇的知识体系（Biased Knowledge）？

回复评论

苏剑林发表于 July 20th, 2023

事实上，有些人写的教材都乱七八糟。

回复评论

Yang Liu

July 17th, 2023

结论是最坏情况就是生成结果的同质化？

回复评论

苏剑林发表于 July 20th, 2023

就本文所关心的主题来说，应该是的。

回复评论

coco2023

July 18th, 2023

请问公式2，方差矩阵前面系数为什么从1/n变成了t/n?

回复评论

苏剑林发表于 July 20th, 2023

因为 $\boldsymbol{\mu}$ 从 $\boldsymbol{\mu}_{t-1}$ 变成了 $\boldsymbol{\mu}_0$ （正态分布的叠加性）

回复评论

笑雨发表于 July 2nd, 2024

$\begin{equation}\boldsymbol{\mu}_t \sim \mathcal{N}\left(\boldsymbol{\mu}_{t-1},\frac{1}{n}\boldsymbol{\Sigma}_{t-1}\right)\quad\Rightarrow\quad\boldsymbol{\mu}_t \sim \mathcal{N}\left(\boldsymbol{\mu}_0,\frac1{nt}\boldsymbol{\Sigma}_0\right)\end{equation}$
感觉从u_0到u_t有nt个样本的高斯叠加。

在不久的未来，计算芯片很便宜了，人手一个自己制作的AI，还可以经常随着心情更换。AI不会像手机一样千篇一律的，AI就是南橘北枳的随环境在变，遍布整个地球，每个AI机会都不一样。那么，疯牛问题，会短期或局部出现，长期是不存在的。

回复评论

笑雨发表于 July 2nd, 2024

自己评论的叠加算错了，冒汗，麻烦删除，以免误导他人
请问叠加是这样计算的吗？

$\begin{equation}\boldsymbol{\mu}_t \sim \mathcal{N}\left(\boldsymbol{\mu}_{t-1},\frac{1}{n}\boldsymbol{\Sigma}_{t-1}\right) \\\boldsymbol{\mu}_{t-1} \sim \mathcal{N}\left(\boldsymbol{\mu}_{t-2},\frac{1}{n}\boldsymbol{\Sigma}_{t-2}\right) \\\boldsymbol{\mu}_{t-2} \sim \mathcal{N}\left(\boldsymbol{\mu}_{t-3},\frac{1}{n}\boldsymbol{\Sigma}_{t-3}\right) \\\boldsymbol{\mu}_{t} \sim \mathcal{N}\left(\boldsymbol{\mu}_{0},\frac{1}{n}\boldsymbol{\Sigma}_{t-1}+\frac{1}{n}\boldsymbol{\Sigma}_{t-2} +\frac{1}{n}\boldsymbol{\Sigma}_{t-3}+...+\frac{1}{n}\boldsymbol{\Sigma}_{0}\right) \end{equation}$

回复评论

苏剑林发表于 July 2nd, 2024

是的

回复评论

游综宅

July 18th, 2023

来学习一下

回复评论

撼马手拉葫芦

July 19th, 2023

我来学习一下，涨知识了。

回复评论

liangjt

July 20th, 2023

学习一下~

回复评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

当生成模型肆虐：互联网将有“疯牛病”之忧？

“食自己” #

降多样性 #

正态分布 #

生成模型 #

文章小结 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接