标签扩散下的文章 - 科学空间|Scientific Spaces

8 Jul

“闭门造车”之多模态思路浅谈（二）：自回归

By 苏剑林 | 2024-07-08 | 9464位读者 | 引用

这篇文章我们继续来闭门造车，分享一下笔者最近对多模态学习的一些新理解。

在前文《“闭门造车”之多模态思路浅谈（一）：无损》中，我们强调了无损输入对于理想的多模型模态的重要性。如果这个观点成立，那么当前基于VQ-VAE、VQ-GAN等将图像离散化的主流思路就存在能力瓶颈，因为只需要简单计算一下信息熵就可以表明离散化必然会有严重的信息损失，所以更有前景或者说更长远的方案应该是输入连续型特征，比如直接将图像的原始像素特征Patchify后输入到模型中。

然而，连续型输入对于图像理解自然简单，但对图像生成来说则引入了额外的困难，因为非离散化无法直接套用文本的自回归框架，多少都要加入一些新内容如扩散，这就引出了本文的主题——如何进行多模态的自回归学习与生成。当然，非离散化只是表面的困难，更艰巨的部份还在后头...

无损含义

首先我们再来明确一下无损的含义。无损并不是指整个计算过程中一丁点损失都不能有，这不现实，也不符合我们所理解的深度学习的要义——在2015年的文章《闲聊：神经网络与深度学习》我们就提到过，深度学习成功的关键是信息损失。所以，这里无损的含义很简单，单纯是希望作为模型的输入来说尽可能无损。

点击阅读全文...

分类：信息时代标签：生成模型, 扩散, 多模态, 自回归阅读全文 27 评论

1 May

以蒸馏的名义：“从去噪自编码器到生成模型”重现江湖

By 苏剑林 | 2024-05-01 | 21954位读者 | 引用

今天我们分享一下论文《Score identity Distillation: Exponentially Fast Distillation of Pretrained Diffusion Models for One-Step Generation》，顾名思义，这是一篇探讨如何更快更好地蒸馏扩散模型的新论文。

即便没有做过蒸馏，大家应该也能猜到蒸馏的常规步骤：随机采样大量输入，然后用扩散模型生成相应结果作为输出，用这些输入输出作为训练数据对，来监督训练一个新模型。然而，众所周知作为教师的原始扩散模型通常需要多步（比如1000步）迭代才能生成高质量输出，所以且不论中间训练细节如何，该方案的一个显著缺点是生成训练数据太费时费力。此外，蒸馏之后的学生模型通常或多或少都有效果损失。

有没有方法能一次性解决这两个缺点呢？这就是上述论文试图要解决的问题。

点击阅读全文...

分类：数学研究,信息时代标签：生成模型, 梯度, 扩散, 去噪阅读全文 33 评论

23 Apr

生成扩散模型漫谈（二十四）：少走捷径，更快到达

By 苏剑林 | 2024-04-23 | 21149位读者 | 引用

如何减少采样步数同时保证生成质量，是扩散模型应用层面的一个关键问题。其中，《生成扩散模型漫谈（四）：DDIM = 高观点DDPM》介绍的DDIM可谓是加速采样的第一次尝试。后来，《生成扩散模型漫谈（五）：一般框架之SDE篇》、《生成扩散模型漫谈（五）：一般框架之ODE篇》等所介绍的工作将扩散模型与SDE、ODE联系了起来，于是相应的数值积分技术也被直接用于扩散模型的采样加速，其中又以相对简单的ODE加速技术最为丰富，我们在《生成扩散模型漫谈（二十一）：中值定理加速ODE采样》也介绍过一例。

这篇文章我们介绍另一个特别简单有效的加速技巧——Skip Tuning，出自论文《The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling》，准确来说它是配合已有的加速技巧使用，来一步提高采样质量，这就意味着在保持相同采样质量的情况下，它可以进一步压缩采样步数，从而实现加速。

点击阅读全文...

分类：信息时代标签：微分方程, 生成模型, 扩散阅读全文 9 评论

17 Apr

生成扩散模型漫谈（二十三）：信噪比与大图生成（下）

By 苏剑林 | 2024-04-17 | 20647位读者 | 引用

上一篇文章《生成扩散模型漫谈（二十二）：信噪比与大图生成（上）》中，我们介绍了通过对齐低分辨率的信噪比来改进noise schedule，从而改善直接在像素空间训练的高分辨率图像生成（大图生成）的扩散模型效果。而这篇文章的主角同样是信噪比和大图生成，但做到了更加让人惊叹的事情——直接将训练好低分辨率图像的扩散模型用于高分辨率图像生成，不用额外的训练，并且效果和推理成本都媲美直接训练的大图模型！

这个工作出自最近的论文《Upsample Guidance: Scale Up Diffusion Models without Training》，它巧妙地将低分辨率模型上采样作为引导信号，并结合了CNN对纹理细节的平移不变性，成功实现了免训练高分辨率图像生成。

思想探讨

我们知道，扩散模型的训练目标是去噪（Denoise，也是DDPM的第一个D）。按我们的直觉，去噪这个任务应该是分辨率无关的，换句话说，理想情况下低分辨率图像训练的去噪模型应该也能用于高分辨率图像去噪，从而低分辨率的扩散模型应该也能直接用于高分辨率图像生成。

点击阅读全文...

分类：信息时代标签：无监督, 生成模型, 扩散, 信噪比阅读全文 14 评论

8 Apr

盘点主流的图像扩散模型作品，我们会发现一个特点：当前多数做高分辨率图像生成（下面简称“大图生成”）的工作，都是先通过Encoder变换到Latent空间进行的（即LDM，Latent Diffusion Model），直接在原始Pixel空间训练的扩散模型，大多数分辨率都不超过64*64，而恰好，LDM通过AutoEncoder变换后的Latent，大小通常也不超过64*64。这就自然引出了一系列问题：扩散模型是不是对于高分辨率生成存在固有困难？能否在Pixel空间直接生成高分辨率图像？

论文《Simple diffusion: End-to-end diffusion for high resolution images》尝试回答了这个问题，它通过“信噪比”分析了大图生成的困难，并以此来优化noise schdule，同时提出只需在最低分辨率feature上对架构进行scale up、多尺度Loss等技巧来保证训练效率和效果，这些改动使得原论文成功在Pixel空间上训练了分辨率高达1024*1024的图像扩散模型。

点击阅读全文...

分类：信息时代标签：损失函数, 生成模型, 扩散, 信噪比阅读全文 28 评论

21 Feb

“闭门造车”之多模态思路浅谈（一）：无损

By 苏剑林 | 2024-02-21 | 97548位读者 | 引用

这篇文章分享一下笔者关于多模态模型架构的一些闭门造车的想法，或者说一些猜测。

最近Google的Gemini 1.5和OpenAI的Sora再次点燃了不少人对多模态的热情，只言片语的技术报告也引起了大家对其背后模型架构的热烈猜测。不过，本文并非是为了凑这个热闹才发出来的，事实上其中的一些思考由来已久，最近才勉强捋顺了一下，遂想写出来跟大家交流一波，刚好碰上了两者的发布。

事先声明，“闭门造车”一词并非自谦，笔者的大模型实践本就“乏善可陈”，而多模态实践更是几乎“一片空白”，本文确实只是根据以往文本生成和图像生成的一些经验所做的“主观臆测”。

问题背景

首先简化一下问题，本文所讨论的多模态，主要指图文混合的双模态，即输入和输出都可以是图文。可能有不少读者的第一感觉是：多模态模型难道不也是烧钱堆显卡，Transformer“一把梭”，最终“大力出奇迹”吗？

点击阅读全文...

分类：信息时代标签：生成模型, attention, 扩散, 多模态阅读全文 69 评论

7 Dec

生成扩散模型漫谈（二十一）：中值定理加速ODE采样

By 苏剑林 | 2023-12-07 | 49403位读者 | 引用

在生成扩散模型的发展史上，DDIM和同期Song Yang的扩散SDE都称得上是里程碑式的工作，因为它们建立起了扩散模型与随机微分方程（SDE）、常微分方程（ODE）这两个数学领域的紧密联系，从而允许我们可以利用SDE、ODE已有的各种数学工具来对分析、求解和拓展扩散模型，比如后续大量的加速采样工作都以此为基础，可以说这打开了生成扩散模型的一个全新视角。

本文我们聚焦于ODE。在本系列的（六）、（十二）、（十四）、（十五）、（十七）等博客中，我们已经推导过ODE与扩散模型的联系，本文则对扩散ODE的采样加速做简单介绍，并重点介绍一种巧妙地利用“中值定理”思想的新颖采样加速方案“AMED”。

欧拉方法

正如前面所说，我们已经有多篇文章推导过扩散模型与ODE的联系，所以这里不重复介绍，而是直接将扩散ODE的采样定义为如下ODE的求解：
\begin{equation}\frac{d\boldsymbol{x}_t}{dt} = \boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\boldsymbol{x}_t, t)\label{eq:dm-ode}\end{equation}

点击阅读全文...

分类：数学研究,信息时代标签：微分方程, 生成模型, 扩散阅读全文 42 评论

28 Jun

生成扩散模型漫谈（二十）：从ReFlow到WGAN-GP

By 苏剑林 | 2023-06-28 | 17256位读者 | 引用

上一篇文章《生成扩散模型漫谈（十九）：作为扩散ODE的GAN》中，我们介绍了如何将GAN理解为在另一个时间维度上的扩散ODE，简而言之，GAN实际上就是将扩散模型中样本的运动转化为生成器参数的运动！然而，该文章的推导过程依赖于Wasserstein梯度流等相对复杂和独立的内容，没法很好地跟扩散系列前面的文章连接起来，技术上显得有些“断层”。

在笔者看来，《生成扩散模型漫谈（十七）：构建ODE的一般步骤（下）》所介绍的ReFlow是理解扩散ODE的最直观方案，既然可以从扩散ODE的角度理解GAN，那么必定存在一个从ReFlow理解GAN的角度。经过一番尝试，笔者成功从ReFlow推出了类似WGAN-GP的结果。

理论回顾

之所以说“ReFlow是理解扩散ODE的最直观方案”，是因为它本身非常灵活，以及非常贴近实验代码——它能够通过ODE建立任意噪声分布到目标数据分布的映射，而且训练目标非常直观，不需要什么“弯弯绕绕”就可以直接跟实验代码对应起来。

点击阅读全文...

分类：信息时代标签：优化, GAN, 梯度, 扩散阅读全文 7 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

“闭门造车”之多模态思路浅谈（二）：自回归

无损含义

以蒸馏的名义：“从去噪自编码器到生成模型”重现江湖

生成扩散模型漫谈（二十四）：少走捷径，更快到达

生成扩散模型漫谈（二十三）：信噪比与大图生成（下）

思想探讨

生成扩散模型漫谈（二十二）：信噪比与大图生成（上）

“闭门造车”之多模态思路浅谈（一）：无损

问题背景

生成扩散模型漫谈（二十一）：中值定理加速ODE采样

欧拉方法

生成扩散模型漫谈（二十）：从ReFlow到WGAN-GP

理论回顾

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接