包含关键字 hoathinh3d.me 的文章 - 科学空间|Scientific Spaces

30 Aug

生成扩散模型漫谈（九）：条件控制生成结果

By 苏剑林 | 2022-08-30 | 143904位读者 | 引用

前面的几篇文章都是比较偏理论的结果，这篇文章我们来讨论一个比较有实用价值的主题——条件控制生成。

作为生成模型，扩散模型跟VAE、GAN、flow等模型的发展史很相似，都是先出来了无条件生成，然后有条件生成就紧接而来。无条件生成往往是为了探索效果上限，而有条件生成则更多是应用层面的内容，因为它可以实现根据我们的意愿来控制输出结果。从DDPM至今，已经出来了很多条件扩散模型的工作，甚至可以说真正带火了扩散模型的就是条件扩散模型，比如脍炙人口的文生图模型DALL·E 2、Imagen。

在这篇文章中，我们对条件扩散模型的理论基础做个简单的学习和总结。

技术分析

从方法上来看，条件控制生成的方式分两种：事后修改（Classifier-Guidance）和事前训练（Classifier-Free）。

点击阅读全文...

分类：信息时代标签：概率, 生成模型, DDPM, 扩散阅读全文 92 评论

14 Sep

生成扩散模型漫谈（十）：统一扩散模型（理论篇）

By 苏剑林 | 2022-09-14 | 74052位读者 | 引用

老读者也许会发现，相比之前的更新频率，这篇文章可谓是“姗姗来迟”，因为这篇文章“想得太多”了。

通过前面九篇文章，我们已经对生成扩散模型做了一个相对全面的介绍。虽然理论内容很多，但我们可以发现，前面介绍的扩散模型处理的都是连续型对象，并且都是基于正态噪声来构建前向过程。而“想得太多”的本文，则希望能够构建一个能突破以上限制的扩散模型统一框架（Unified Diffusion Model，UDM）：

1、不限对象类型（可以是连续型$\boldsymbol{x}$，也可以是离散型的$\boldsymbol{x}$）；
2、不限前向过程（可以用加噪、模糊、遮掩、删减等各种变换构建前向过程）；
3、不限时间类型（可以是离散型的$t$，也可以是连续型的$t$）；
4、包含已有结果（可以推出前面的DDPM、DDIM、SDE、ODE等结果）。

这是不是太过“异想天开”了？有没有那么理想的框架？本文就来尝试一下。

点击阅读全文...

分类：信息时代标签：统一, 生成模型, DDPM, 扩散阅读全文 41 评论

9 Nov

在《CoSENT（一）：比Sentence-BERT更有效的句向量方案》中，笔者提出了名为“CoSENT”的有监督句向量方案，由于它是直接训练cos相似度的，跟评测目标更相关，因此通常能有着比Sentence-BERT更好的效果以及更快的收敛速度。在《CoSENT（二）：特征式匹配与交互式匹配有多大差距？》中我们还比较过它跟交互式相似度模型的差异，显示它在某些任务上的效果还能直逼交互式相似度模型。

然而，当时笔者是一心想找一个更接近评测目标的Sentence-BERT替代品，所以结果都是面向有监督句向量的，即特征式相似度模型。最近笔者突然反应过来，CoSENT其实也能作为交互式相似度模型的损失函数。那么它跟标准选择交叉熵相比孰优孰劣呢？本文来补充这部分实验。

点击阅读全文...

分类：信息时代标签：语义, 语义相似度, 对比学习阅读全文 10 评论

14 Mar

缓解交叉熵过度自信的一个简明方案

By 苏剑林 | 2023-03-14 | 33584位读者 | 引用

众所周知，分类问题的常规评估指标是正确率，而标准的损失函数则是交叉熵，交叉熵有着收敛快的优点，但它并非是正确率的光滑近似，这就带来了训练和预测的不一致性问题。另一方面，当训练样本的预测概率很低时，交叉熵会给出一个非常巨大的损失（趋于$-\log 0^{+}=\infty$），这意味着交叉熵会特别关注预测概率低的样本——哪怕这个样本可能是“脏数据”。所以，交叉熵训练出来的模型往往有过度自信现象，即每个样本都给出较高的预测概率，这会带来两个副作用：一是对脏数据的过度拟合带来的效果下降，二是预测的概率值无法作为不确定性的良好指标。

围绕交叉熵的改进，学术界一直都有持续输出，目前这方面的研究仍处于“八仙过海，各显神通”的状态，没有标准答案。在这篇文章中，我们来学习一下论文《Tailoring Language Generation Models under Total Variation Distance》给出的该问题的又一种简明的候选方案。

点击阅读全文...

分类：信息时代标签：优化, 损失函数, 光滑阅读全文 14 评论

14 Feb

生成扩散模型漫谈（十六）：W距离 ≤ 得分匹配

By 苏剑林 | 2023-02-14 | 24405位读者 | 引用

Wasserstein距离（下面简称“W距离”），是基于最优传输思想来度量两个概率分布差异程度的距离函数，笔者之前在《从Wasserstein距离、对偶理论到WGAN》等博文中也做过介绍。对于很多读者来说，第一次听说W距离，是因为2017年出世的WGAN，它开创了从最优传输视角来理解GAN的新分支，也提高了最优传输理论在机器学习中的地位。很长一段时间以来，GAN都是生成模型领域的“主力军”，直到最近这两年扩散模型异军突起，GAN的风头才有所下降，但其本身仍不失为一个强大的生成模型。

从形式上来看，扩散模型和GAN差异很明显，所以其研究一直都相对独立。不过，去年底的一篇论文《Score-based Generative Modeling Secretly Minimizes the Wasserstein Distance》打破了这个隔阂：它证明了扩散模型的得分匹配损失可以写成W距离的上界形式。这意味着在某种程度上，最小化扩散模型的损失函数，实则跟WGAN一样，都是在最小化两个分布的W距离。

点击阅读全文...

分类：数学研究,信息时代标签：微分方程, GAN, 生成模型, 扩散阅读全文 5 评论

31 May

关于NBCE方法的一些补充说明和分析

By 苏剑林 | 2023-05-31 | 26780位读者 | 引用

上周在《NBCE：使用朴素贝叶斯扩展LLM的Context处理长度》中，我们介绍了一种基于朴素贝叶斯来扩展LLM的Context长度的方案NBCE（Naive Bayes-based Context Extension）。由于它有着即插即用、模型无关、不用微调等优点，也获得了一些读者的认可，总的来说目前大家反馈的测试效果还算可以。

当然，部分读者在使用的时候也提出了一些问题。本文就结合读者的疑问和笔者的后续思考，对NBCE方法做一些补充说明和分析。

方法回顾

假设$T$为要生成的token序列，$S_1,S_2,\cdots,S_n$是给定的若干个Context，我们需要根据$S_1,S_2,\cdots,S_n$生成$T$，那么就需要估计$p(T|S_1, S_2,\cdots,S_n)$。根据朴素贝叶斯思想，我们得到
\begin{equation}\log p(T|S_1, S_2,\cdots,S_n) = \color{red}{(\beta + 1)\overline{\log p(T|S)}} - \color{green}{\beta\log p(T)} + \color{skyblue}{\text{常数}}\label{eq:nbce-2}\end{equation}

点击阅读全文...

分类：信息时代标签：语言模型, 外推, LLM, 贝叶斯阅读全文 10 评论

28 Feb

生成扩散模型漫谈（十八）：得分匹配 = 条件得分匹配

By 苏剑林 | 2023-02-28 | 30555位读者 | 引用

在前面的介绍中，我们多次提及“得分匹配”和“条件得分匹配”，它们是扩散模型、能量模型等经常出现的概念，特别是很多文章直接说扩散模型的训练目标是“得分匹配”，但事实上当前主流的扩散模型如DDPM的训练目标是“条件得分匹配”才对。

那么“得分匹配”与“条件得分匹配”具体是什么关系呢？它们两者是否等价呢？本文详细讨论这个问题。

得分匹配

首先，得分匹配（Score Matching）是指训练目标：
\begin{equation}\mathbb{E}_{\boldsymbol{x}_t\sim p_t(\boldsymbol{x}_t)}\left[\left\Vert\nabla_{\boldsymbol{x}_t}\log p_t(\boldsymbol{x}_t) - \boldsymbol{s}_{\boldsymbol{\theta}}(\boldsymbol{x}_t,t)\right\Vert^2\right]\label{eq:sm}\end{equation}
其中$\boldsymbol{\theta}$是训练参数。很明显，得分匹配是想学习一个模型$\boldsymbol{s}_{\boldsymbol{\theta}}(\boldsymbol{x}_t,t)$来逼近$\nabla_{\boldsymbol{x}_t}\log p_t(\boldsymbol{x}_t)$，这里的$\nabla_{\boldsymbol{x}_t}\log p_t(\boldsymbol{x}_t)$我们就称为“得分”。

点击阅读全文...

分类：数学研究,信息时代标签：概率, 分析, 生成模型, 扩散阅读全文 8 评论

24 Jun

生成扩散模型漫谈（十九）：作为扩散ODE的GAN

By 苏剑林 | 2023-06-24 | 33038位读者 | 引用

在文章《生成扩散模型漫谈（十六）：W距离 ≤ 得分匹配》中，我们推导了Wasserstein距离与扩散模型得分匹配损失之间的一个不等式，表明扩散模型的优化目标与WGAN的优化目标在某种程度上具有相似性。而在本文，我们将探讨《MonoFlow: Rethinking Divergence GANs via the Perspective of Wasserstein Gradient Flows》中的研究成果，它进一步展示了GAN与扩散模型之间的联系：GAN实际上可以被视为在另一个时间维度上的扩散ODE！

这些发现表明，尽管GAN和扩散模型表面上是两种截然不同的生成式模型，但它们实际上存在许多相似之处，并在许多方面可以相互借鉴和参考。

思路简介

我们知道，GAN所训练的生成器是从噪声$\boldsymbol{z}$到真实样本的一个直接的确定性变换$\boldsymbol{g}_{\boldsymbol{\theta}}(\boldsymbol{z})$，而扩散模型的显著特点是“渐进式生成”，它的生成过程对应于从一系列渐变的分布$p_0(\boldsymbol{x}_0),p_1(\boldsymbol{x}_1),\cdots,p_T(\boldsymbol{x}_T)$中采样（注：在前面十几篇文章中，$\boldsymbol{x}_T$是噪声，$\boldsymbol{x}_0$是目标样本，采样过程是$\boldsymbol{x}_T\to \boldsymbol{x}_0$，但为了便于下面的表述，这里反过来改为$\boldsymbol{x}_0\to \boldsymbol{x}_T$）。看上去确实找不到多少相同之处，那怎么才能将两者联系起来呢？

点击阅读全文...

分类：信息时代标签：优化, GAN, 扩散阅读全文 14 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

生成扩散模型漫谈（九）：条件控制生成结果

技术分析

生成扩散模型漫谈（十）：统一扩散模型（理论篇）

CoSENT（三）：作为交互式相似度的损失函数

缓解交叉熵过度自信的一个简明方案

生成扩散模型漫谈（十六）：W距离 ≤ 得分匹配

关于NBCE方法的一些补充说明和分析

方法回顾

生成扩散模型漫谈（十八）：得分匹配 = 条件得分匹配

得分匹配

生成扩散模型漫谈（十九）：作为扩散ODE的GAN

思路简介

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接