《生成扩散模型漫谈(五):一般框架之SDE篇》中,我们从SDE的角度理解了生成扩散模型,然后在《生成扩散模型漫谈(六):一般框架之ODE篇》中,我们知道SDE对应的扩散模型中,实际上隐含了一个ODE模型。无独有偶,在《生成扩散模型漫谈(四):DDIM = 高观点DDPM》中我们也知道原本随机采样的DDPM模型中,也隐含了一个确定性的采样过程DDIM,它的连续极限也是一个ODE。

细想上述过程,可以发现不管是“DDPM→DDIM”还是“SDE→ODE”,都是从随机采样模型过渡到确定性模型,而如果我们一开始的目标就是ODE,那么该过程未免显得有点“迂回”了。在本文中,笔者尝试给出ODE扩散模型的直接推导,并揭示了它与雅可比行列式、热传导方程等内容的联系。

微分方程 #

像GAN这样的生成模型,它本质上是希望找到一个确定性变换,能将从简单分布(如标准正态分布)采样出来的随机变量,变换为特定数据分布的样本。flow模型也是生成模型之一,它的思路是反过来,先找到一个能将数据分布变换简单分布的可逆变换,再求解相应的逆变换来得到一个生成模型。

传统的flow模型是通过设计精巧的耦合层(参考“细水长flow”系列)来实现这个可逆变换,但后来大家就意识到,其实通过微分方程也能实现这个变换,并且理论上还很优雅。基于“神经网络 + 微分方程”做生成模型等一系列研究,构成了被称为“神经ODE”的一个子领域。

考虑xtRd上的一阶(常)微分方程(组)
dxtdt=ft(xt)
假设t[0,T],那么给定x0,(在比较容易实现的条件下)我们可以确定地求解出xT,也就是说该微分方程描述了从x0xT的一个变换。特别地,该变换还是可逆的,即可以逆向求解该微分方程,得到从xTx0的变换。所以说,微分方程本身就是构建可逆变换的一个理论优雅的方案。

雅可比行列式 #

跟之前的扩散模型一样,在这篇文章中,我们将x0视为一个数据样本,而将xT视为简单分布的样本,我们希望通过微分方程,来实现从数据分布到简单分布的变换。

首先,我们从离散化的角度来理解微分方程(1)
xt+Δtxt=ft(xt)Δt
由于是确定性变换,所以我们有
pt(xt)dxt=pt+Δt(xt+Δt)dxt+Δt=pt+Δt(xt+Δt)|xt+Δtxt|dxt
这里的xt+Δtxt表示变换的雅可比矩阵,||代表行列式的绝对值。直接对式(2)两边求偏导,我们就得到
xt+Δtxt=I+ft(xt)xtΔt
根据《行列式的导数》一文,我们就有
|xt+Δtxt|1+Trft(xt)xtΔt=1+xtft(xt)Δtextft(xt)Δt
于是我们可以写出
logpt+Δt(xt+Δt)logpt(xt)xtft(xt)Δt

泰勒近似 #

假设pt(xt)是一簇随着参数t连续变化的分布的概率密度函数,其中p0(x0)是数据分布,pT(xT)则是简单分布,当Δtxt+Δtxt都较小时,我们有一阶泰勒近似
logpt+Δt(xt+Δt)logpt(xt)(xt+Δtxt)xtlogpt(xt)+Δttlogpt(xt)
代入式(2)xt+Δtxt,然后对照式(6),可以得到ft(xt)所满足的方程
xtft(xt)=ft(xt)xtlogpt(xt)+tlogpt(xt)
换句话说,满足该方程的任意ft(xt),都可以用来构造一个微分方程(1),通过求解它来实现数据分布和简单分布之间的变换。我们也可以将它整理得
tpt(xt)=xt(ft(xt)pt(xt))
它其实就是《生成扩散模型漫谈(六):一般框架之ODE篇》介绍的“Fokker-Planck方程”在gt=0时的特例。

热传导方程 #

我们考虑如下格式的解
ft(xt)=Dt(xt)xtlogpt(xt)
其中Dt(xt)可以是一个矩阵,也可能是一个标量,视具体考虑的复杂度而定。为什么要考虑这种形式的解?说实话,笔者一开始就是往DDIM格式去凑的,后来就是发现一般化后能跟下面的扩散方程联系起来,所以就直接设为式(10)了。事后来看,如果假设Dt(xt)是非负标量函数,那么将它代入式(2)后,就会发现其格式跟梯度下降有点相似,即从x0xT是逐渐寻找低概率区域,反之从xTx0就是逐渐寻找高概率区域,跟直觉相符,这也算是式(10)的一个启发式引导吧。

将式(10)代入方程(9)后,我们可以得到
tpt(xt)=xt(Dt(xt)xtpt(xt))
这就是偏微分方程中的“扩散方程”。这里我们只考虑一个极简单的情形——Dt(xt)是跟xt无关的标量函数Dt,此时扩散方程简化为
tpt(xt)=Dt2xtpt(xt)
这就是“热传导方程”,是我们接下来要重点求解和分析的对象。

求解分布 #

利用傅里叶变换,可以将热传导方程转为常微分方程,继而完成分布pt(xt)的求解,结果是:
pt(xt)=1(2πσ2t)d/2exp(
其中\sigma_t^2 = 2\int_0^t D_s ds,或者D_t = \dot{\sigma}_t \sigma_t(其中\sigma_0=0)。可以看到,热传导方程的解正好是以p_0(\boldsymbol{x}_0)为初始分布的高斯混合模型。

过程:这里简单介绍一下热传导方程的求解思路。对于不关心求解过程的读者,或者已经熟悉热传导方程的读者,可以跳过这部分内容。

用傅里叶变换求热传导方程\eqref{eq:heat}其实很简单,对两边的\boldsymbol{x}_t变量做傅里叶变换,根据\nabla_{\boldsymbol{x}_t}\to i\boldsymbol{\omega}的原则,结果是
\begin{equation}\frac{\partial}{\partial t}\mathcal{F}_t(\boldsymbol{\omega}) = -D_t \boldsymbol{\omega}^2 \mathcal{F}_t(\boldsymbol{\boldsymbol{\omega}})\end{equation}
这只是关于t的常微分方程,可以解得
\begin{equation}\mathcal{F}_t(\boldsymbol{\omega}) = \mathcal{F}_0(\boldsymbol{\omega}) \exp\left(-\frac{1}{2}\sigma_t^2 \boldsymbol{\omega}^2\right)\end{equation}
其中\sigma_t^2 = 2\int_0^t D_s ds,而\mathcal{F}_0(\boldsymbol{\omega})则是p_0(\boldsymbol{x}_0)的傅里叶变换。现在对两边做傅里叶逆变换,\mathcal{F}_t(\boldsymbol{\omega})自然变回p_t(\boldsymbol{x}_t)\mathcal{F}_0(\boldsymbol{\omega})变回p_0(\boldsymbol{x}_0)\exp\left(-\frac{1}{2}\sigma_t^2 \boldsymbol{\omega}^2\right)则对应正态分布\mathcal{N}(\boldsymbol{x}_t; \boldsymbol{0}, \sigma_t^2 \boldsymbol{I}),最后利用傅里叶变换的卷积性质,就得到解\eqref{eq:heat-sol}

完成设计 #

现在我们汇总一下我们的结果:通过求解热传导方程,我们确定了
\begin{equation}p_t(\boldsymbol{x}_t) = \int \mathcal{N}(\boldsymbol{x}_t; \boldsymbol{x}_0, \sigma_t^2 \boldsymbol{I})\, p_0(\boldsymbol{x}_0) d \boldsymbol{x}_0 \label{eq:heat-sol-2}\end{equation}
此时对应的微分方程
\begin{equation}\frac{d\boldsymbol{x}_t}{dt}=-\dot{\sigma}_t \sigma_t \nabla_{\boldsymbol{x}_t}\log p_t(\boldsymbol{x}_t)\end{equation}
给出了从p_0(\boldsymbol{x}_0)p_T(\boldsymbol{x}_T)的一个确定性变换。如果p_T(\boldsymbol{x}_T)易于采样,并且\nabla_{\boldsymbol{x}_t}\log p_t(\boldsymbol{x}_t)已知,那么我们就可以随机采样\boldsymbol{x}_T\sim p_T(\boldsymbol{x}_T),然后逆向求解该微分方程,来生成\boldsymbol{x}_0\sim p_0(\boldsymbol{x}_0)的样本。

第一个问题,什么时候p_T(\boldsymbol{x}_T)是易于采样的?根据结果\eqref{eq:heat-sol-2},我们知道
\begin{equation}\boldsymbol{x}_T\sim p_T(\boldsymbol{x}_T) \quad\Leftrightarrow\quad \boldsymbol{x}_T = \boldsymbol{x}_0 + \sigma_T \boldsymbol{\varepsilon},\,\,\, \boldsymbol{x}_0\sim p_0(\boldsymbol{x}_0),\,\boldsymbol{\varepsilon}\sim \mathcal{N}(\boldsymbol{0},\boldsymbol{I})\end{equation}
\sigma_T足够大时,\boldsymbol{x}_0\boldsymbol{x}_T的影响就很微弱了,此时可以认为
\begin{equation}\boldsymbol{x}_T\sim p_T(\boldsymbol{x}_T) \quad\Leftrightarrow\quad \boldsymbol{x}_T = \sigma_T \boldsymbol{\varepsilon},\,\,\,\boldsymbol{\varepsilon}\sim \mathcal{N}(\boldsymbol{0},\boldsymbol{I})\end{equation}
这就实现了p_T(\boldsymbol{x}_T)易于采样的目的。因此,选择\sigma_t的一般要求是:满足\sigma_0 = 0\sigma_T \gg 1的光滑单调递增函数。

第二个问题,就是如何计算\nabla_{\boldsymbol{x}_t}\log p_t(\boldsymbol{x}_t)?这其实跟《生成扩散模型漫谈(五):一般框架之SDE篇》中的“得分匹配”一节是一样的,我们用一个神经网络\boldsymbol{s}_{\boldsymbol{\theta}}(\boldsymbol{x}_t, t)去拟合它,训练目标是
\begin{equation}\mathbb{E}_{\boldsymbol{x}_0,\boldsymbol{x}_t \sim \mathcal{N}(\boldsymbol{x}_t; \boldsymbol{x}_0, \sigma_t^2 \boldsymbol{I})p_0(\boldsymbol{x}_0)}\left[\left\Vert \boldsymbol{s}_{\boldsymbol{\theta}}(\boldsymbol{x}_t, t) - \nabla_{\boldsymbol{x}_t} \log \mathcal{N}(\boldsymbol{x}_t; \boldsymbol{x}_0, \sigma_t^2 \boldsymbol{I})\right\Vert^2\right] \end{equation}
这叫做“条件得分匹配”,其推导我们在SDE篇已经给出了,这里就不重复了。

文章小结 #

在这篇文章中,我们对ODE式扩散模型做了一个“自上而下”的推导:首先从ODE出发,结合雅可比行列式得到了概率变化的一阶近似,然后对比直接泰勒展开的一阶近似,得到了ODE应该要满足的方程,继而转化为扩散方程、热传导方程来求解。相对来说,整个过程比较一步到位,不需要通过SDE、FP方程等结果来做过渡。

转载到请包括本文地址:https://kexue.fm/archives/9280

更详细的转载事宜请参考:《科学空间FAQ》

如果您还有什么疑惑或建议,欢迎在下方评论区继续讨论。

如果您觉得本文还不错,欢迎分享/打赏本文。打赏并非要从中获得收益,而是希望知道科学空间获得了多少读者的真心关注。当然,如果你无视它,也不会影响你的阅读。再次表示欢迎和感谢!

如果您需要引用本文,请参考:

苏剑林. (Sep. 28, 2022). 《生成扩散模型漫谈(十二):“硬刚”扩散ODE 》[Blog post]. Retrieved from https://kexue.fm/archives/9280

@online{kexuefm-9280,
        title={生成扩散模型漫谈(十二):“硬刚”扩散ODE},
        author={苏剑林},
        year={2022},
        month={Sep},
        url={\url{https://kexue.fm/archives/9280}},
}