标签微分方程下的文章 - 科学空间|Scientific Spaces

24 May

重温SSM（一）：线性系统和HiPPO矩阵

By 苏剑林 | 2024-05-24 | 21004位读者 | 引用

前几天，笔者看了几篇介绍SSM（State Space Model）的文章，才发现原来自己从未认真了解过SSM，于是打算认真去学习一下SSM的相关内容，顺便开了这个新坑，记录一下学习所得。

SSM的概念由来已久，但这里我们特指深度学习中的SSM，一般认为其开篇之作是2021年的S4，不算太老，而SSM最新最火的变体大概是去年的Mamba。当然，当我们谈到SSM时，也可能泛指一切线性RNN模型，这样RWKV、RetNet还有此前我们在《Google新作试图“复活”RNN：RNN能否再次辉煌？》介绍过的LRU都可以归入此类。不少SSM变体致力于成为Transformer的竞争者，尽管笔者并不认为有完全替代的可能性，但SSM本身优雅的数学性质也值得学习一番。

尽管我们说SSM起源于S4，但在S4之前，SSM有一篇非常强大的奠基之作《HiPPO: Recurrent Memory with Optimal Polynomial Projections》（简称HiPPO），所以本文从HiPPO开始说起。

点击阅读全文...

分类：数学研究标签：微分方程, 线性, RNN, ssm 阅读全文 32 评论

23 Apr

生成扩散模型漫谈（二十四）：少走捷径，更快到达

By 苏剑林 | 2024-04-23 | 21153位读者 | 引用

如何减少采样步数同时保证生成质量，是扩散模型应用层面的一个关键问题。其中，《生成扩散模型漫谈（四）：DDIM = 高观点DDPM》介绍的DDIM可谓是加速采样的第一次尝试。后来，《生成扩散模型漫谈（五）：一般框架之SDE篇》、《生成扩散模型漫谈（五）：一般框架之ODE篇》等所介绍的工作将扩散模型与SDE、ODE联系了起来，于是相应的数值积分技术也被直接用于扩散模型的采样加速，其中又以相对简单的ODE加速技术最为丰富，我们在《生成扩散模型漫谈（二十一）：中值定理加速ODE采样》也介绍过一例。

这篇文章我们介绍另一个特别简单有效的加速技巧——Skip Tuning，出自论文《The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling》，准确来说它是配合已有的加速技巧使用，来一步提高采样质量，这就意味着在保持相同采样质量的情况下，它可以进一步压缩采样步数，从而实现加速。

点击阅读全文...

分类：信息时代标签：微分方程, 生成模型, 扩散阅读全文 9 评论

7 Dec

生成扩散模型漫谈（二十一）：中值定理加速ODE采样

By 苏剑林 | 2023-12-07 | 49410位读者 | 引用

在生成扩散模型的发展史上，DDIM和同期Song Yang的扩散SDE都称得上是里程碑式的工作，因为它们建立起了扩散模型与随机微分方程（SDE）、常微分方程（ODE）这两个数学领域的紧密联系，从而允许我们可以利用SDE、ODE已有的各种数学工具来对分析、求解和拓展扩散模型，比如后续大量的加速采样工作都以此为基础，可以说这打开了生成扩散模型的一个全新视角。

本文我们聚焦于ODE。在本系列的（六）、（十二）、（十四）、（十五）、（十七）等博客中，我们已经推导过ODE与扩散模型的联系，本文则对扩散ODE的采样加速做简单介绍，并重点介绍一种巧妙地利用“中值定理”思想的新颖采样加速方案“AMED”。

欧拉方法

正如前面所说，我们已经有多篇文章推导过扩散模型与ODE的联系，所以这里不重复介绍，而是直接将扩散ODE的采样定义为如下ODE的求解：
\begin{equation}\frac{d\boldsymbol{x}_t}{dt} = \boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\boldsymbol{x}_t, t)\label{eq:dm-ode}\end{equation}

点击阅读全文...

分类：数学研究,信息时代标签：微分方程, 生成模型, 扩散阅读全文 42 评论

23 Feb

生成扩散模型漫谈（十七）：构建ODE的一般步骤（下）

By 苏剑林 | 2023-02-23 | 55338位读者 | 引用

历史总是惊人地相似。当初笔者在写《生成扩散模型漫谈（十四）：构建ODE的一般步骤（上）》（当时还没有“上”这个后缀）时，以为自己已经搞清楚了构建ODE式扩散的一般步骤，结果读者 @gaohuazuo 就给出了一个新的直观有效的方案，这直接导致了后续《生成扩散模型漫谈（十四）：构建ODE的一般步骤（中）》（当时后缀是“下”）。而当笔者以为事情已经终结时，却发现ICLR2023的论文《Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow》又给出了一个构建ODE式扩散模型的新方案，其简洁、直观的程度简直前所未有，令人拍案叫绝。所以笔者只好默默将前一篇的后缀改为“中”，然后写了这个“下”篇来分享这一新的结果。

直观结果

我们知道，扩散模型是一个$\boldsymbol{x}_T\to \boldsymbol{x}_0$的演化过程，而ODE式扩散模型则指定演化过程按照如下ODE进行：
\begin{equation}\frac{d\boldsymbol{x}_t}{dt}=\boldsymbol{f}_t(\boldsymbol{x}_t)\label{eq:ode}\end{equation}
而所谓构建ODE式扩散模型，就是要设计一个函数$\boldsymbol{f}_t(\boldsymbol{x}_t)$，使其对应的演化轨迹构成给定分布$p_T(\boldsymbol{x}_T)$、$p_0(\boldsymbol{x}_0)$之间的一个变换。说白了，我们希望从$p_T(\boldsymbol{x}_T)$中随机采样一个$\boldsymbol{x}_T$，然后按照上述ODE向后演化得到的$\boldsymbol{x}_0$是$\sim p_0(\boldsymbol{x}_0)$的。

点击阅读全文...

分类：信息时代标签：概率, 微分方程, 生成模型, 扩散阅读全文 66 评论

14 Feb

生成扩散模型漫谈（十六）：W距离 ≤ 得分匹配

By 苏剑林 | 2023-02-14 | 18683位读者 | 引用

Wasserstein距离（下面简称“W距离”），是基于最优传输思想来度量两个概率分布差异程度的距离函数，笔者之前在《从Wasserstein距离、对偶理论到WGAN》等博文中也做过介绍。对于很多读者来说，第一次听说W距离，是因为2017年出世的WGAN，它开创了从最优传输视角来理解GAN的新分支，也提高了最优传输理论在机器学习中的地位。很长一段时间以来，GAN都是生成模型领域的“主力军”，直到最近这两年扩散模型异军突起，GAN的风头才有所下降，但其本身仍不失为一个强大的生成模型。

从形式上来看，扩散模型和GAN差异很明显，所以其研究一直都相对独立。不过，去年底的一篇论文《Score-based Generative Modeling Secretly Minimizes the Wasserstein Distance》打破了这个隔阂：它证明了扩散模型的得分匹配损失可以写成W距离的上界形式。这意味着在某种程度上，最小化扩散模型的损失函数，实则跟WGAN一样，都是在最小化两个分布的W距离。

点击阅读全文...

分类：数学研究,信息时代标签：微分方程, GAN, 生成模型, 扩散阅读全文 5 评论

11 Feb

测试函数法推导连续性方程和Fokker-Planck方程

By 苏剑林 | 2023-02-11 | 21418位读者 | 引用

在文章《生成扩散模型漫谈（六）：一般框架之ODE篇》中，我们推导了SDE的Fokker-Planck方程；而在《生成扩散模型漫谈（十二）：“硬刚”扩散ODE》中，我们单独推导了ODE的连续性方程。它们都是描述随机变量沿着SDE/ODE演化的分布变化方程，连续性方程是Fokker-Planck方程的特例。在推导Fokker-Planck方程时，我们将泰勒展开硬套到了狄拉克函数上，虽然结果是对的，但未免有点不伦不类；在推导连续性方程时，我们结合了雅可比行列式和泰勒展开，方法本身比较常规，但没法用来推广到Fokker-Planck方程。

这篇文章我们介绍“测试函数法”，它是推导连续性方程和Fokker-Planck方程的标准方法之一，其分析过程比较正规，并且适用场景也比较广。

点击阅读全文...

分类：数学研究标签：概率, 微分方程, 随机, 扩散阅读全文 21 评论

22 Dec

生成扩散模型漫谈（十五）：构建ODE的一般步骤（中）

By 苏剑林 | 2022-12-22 | 22480位读者 | 引用

上周笔者写了《生成扩散模型漫谈（十四）：构建ODE的一般步骤（上）》（当时还没有“上”这个后缀），本以为已经窥见了构建ODE扩散模型的一般规律，结果不久后评论区大神 @gaohuazuo 就给出了一个构建格林函数更高效、更直观的方案，让笔者自愧不如。再联想起之前大神之前在《生成扩散模型漫谈（十二）：“硬刚”扩散ODE》同样也给出了一个关于扩散ODE的精彩描述（间接启发了上一篇博客的结果），大神的洞察力不得不让人叹服。

经过讨论和思考，笔者发现大神的思路本质上就是一阶偏微分方程的特征线法，通过构造特定的向量场保证初值条件，然后通过求解微分方程保证终值条件，同时保证了初值和终值条件，真的非常巧妙！最后，笔者将自己的收获总结成此文，作为上一篇的后续。

前情回顾

简单回顾一下上一篇文章的结果。假设随机变量$\boldsymbol{x}_0\in\mathbb{R}^d$连续地变换成$\boldsymbol{x}_T$，其变化规律服从ODE
\begin{equation}\frac{d\boldsymbol{x}_t}{dt}=\boldsymbol{f}_t(\boldsymbol{x}_t)\label{eq-ode}\end{equation}

点击阅读全文...

分类：信息时代标签：微分方程, 生成模型, 扩散, 格林函数阅读全文 5 评论

15 Dec

生成扩散模型漫谈（十四）：构建ODE的一般步骤（上）

By 苏剑林 | 2022-12-15 | 40289位读者 | 引用

书接上文，在《生成扩散模型漫谈（十三）：从万有引力到扩散模型》中，我们介绍了一个由万有引力启发的、几何意义非常清晰的ODE式生成扩散模型。有的读者看了之后就疑问：似乎“万有引力”并不是唯一的选择，其他形式的力是否可以由同样的物理绘景构建扩散模型？另一方面，该模型在物理上确实很直观，但还欠缺从数学上证明最后确实能学习到数据分布。

本文就尝试从数学角度比较精确地回答“什么样的力场适合构建ODE式生成扩散模型”这个问题。

基础结论

要回答这个问题，需要用到在《生成扩散模型漫谈（十二）：“硬刚”扩散ODE》中我们推导过的一个关于常微分方程对应的分布变化的结论。

考虑$\boldsymbol{x}_t\in\mathbb{R}^d, t\in[0,T]$的一阶（常）微分方程（组）
\begin{equation}\frac{d\boldsymbol{x}_t}{dt}=\boldsymbol{f}_t(\boldsymbol{x}_t)\label{eq:ode}\end{equation}

点击阅读全文...

分类：信息时代标签：微分方程, 生成模型, 扩散, 格林函数阅读全文 20 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

重温SSM（一）：线性系统和HiPPO矩阵

生成扩散模型漫谈（二十四）：少走捷径，更快到达

生成扩散模型漫谈（二十一）：中值定理加速ODE采样

欧拉方法

生成扩散模型漫谈（十七）：构建ODE的一般步骤（下）

直观结果

生成扩散模型漫谈（十六）：W距离 ≤ 得分匹配

测试函数法推导连续性方程和Fokker-Planck方程

生成扩散模型漫谈（十五）：构建ODE的一般步骤（中）

前情回顾

生成扩散模型漫谈（十四）：构建ODE的一般步骤（上）

基础结论

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接