标签离散化下的文章 - 科学空间|Scientific Spaces

8 Oct

DiVeQ：一种非常简洁的VQ训练方案

By 苏剑林 | 2025-10-08 | 31278位读者 | 引用

对于坚持离散化路线的研究人员来说，VQ（Vector Quantization）是视觉理解和生成的关键部分，担任着视觉中的“Tokenizer”的角色。它提出在2017年的论文《Neural Discrete Representation Learning》，笔者在2019年的博客《VQ-VAE的简明介绍：量子化自编码器》也介绍过它。

然而，这么多年过去了，我们可以发现VQ的训练技术几乎没有变化，都是STE（Straight-Through Estimator）加额外的Aux Loss。STE倒是没啥问题，它可以说是给离散化运算设计梯度的标准方式了，但Aux Loss的存在总让人有种不够端到端的感觉，同时还引入了额外的超参要调。

幸运的是，这个局面可能要结束了，上周的论文《DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick》提出了一个新的STE技巧，它最大亮点是不需要Aux Loss，这让它显得特别简洁漂亮！

点击阅读全文...

分类：信息时代标签：生成模型, 编码, 梯度, 离散化阅读全文 10 评论

14 Feb

生成扩散模型漫谈（二十九）：用DDPM来离散编码

By 苏剑林 | 2025-02-14 | 65227位读者 | 引用

笔者前两天在arXiv刷到了一篇新论文《Compressed Image Generation with Denoising Diffusion Codebook Models》，实在为作者的天马行空所叹服，忍不住来跟大家分享一番。

如本文标题所述，作者提出了一个叫DDCM（Denoising Diffusion Codebook Models）的脑洞，它把DDPM的噪声采样限制在一个有限的集合上，然后就可以实现一些很奇妙的效果，比如像VQVAE一样将样本编码为离散的ID序列并重构回来。注意这些操作都是在预训练好的DDPM上进行的，无需额外的训练。

有限集合

由于DDCM只需要用到一个预训练好的DDPM模型来执行采样，所以这里我们就不重复介绍DDPM的模型细节了，对DDPM还不大了解的读者可以回顾我们《生成扩散模型漫谈》系列的（一）、（二）、（三）篇。

点击阅读全文...

分类：信息时代标签：生成模型, 编码, DDPM, 扩散, 离散化阅读全文 26 评论

6 Nov

VQ的又一技巧：给编码表加一个线性变换

By 苏剑林 | 2024-11-06 | 58728位读者 | 引用

在《VQ的旋转技巧：梯度直通估计的一般推广》中，我们介绍了VQ（Vector Quantization）的Rotation Trick，它的思想是通过推广VQ的STE（Straight-Through Estimator）来为VQ设计更好的梯度，从而缓解VQ的编码表坍缩、编码表利用率低等问题。

无独有偶，昨天发布在arXiv上的论文《Addressing Representation Collapse in Vector Quantized Models with One Linear Layer》提出了改善VQ的另一个技巧：给编码表加一个线性变换。这个技巧单纯改变了编码表的参数化方式，不改变VQ背后的理论框架，但实测效果非常优异，称得上是简单有效的经典案例。

点击阅读全文...

分类：数学研究,信息时代标签：生成模型, 编码, 梯度, 离散化阅读全文 21 评论

24 Oct

VQ的旋转技巧：梯度直通估计的一般推广

By 苏剑林 | 2024-10-24 | 49252位读者 | 引用

随着多模态LLM的方兴未艾，VQ（Vector Quantization）的地位也“水涨船高”，它可以作为视觉乃至任意模态的Tokenizer，将多模态数据统一到自回归生成框架中。遗憾的是，自VQ-VAE首次提出VQ以来，其理论并没有显著进步，像编码表的坍缩或利用率低等问题至今仍亟待解决，取而代之的是FSQ等替代方案被提出，成为了VQ有力的“竞争对手”。

然而，FSQ并不能在任何场景下都替代VQ，所以VQ本身的改进依然是有价值的。近日笔者读到了《Restructuring Vector Quantization with the Rotation Trick》，它提出了一种旋转技巧，声称能改善VQ的一系列问题，本文就让我们一起来品鉴一下。

回顾

早在五年前的博文《VQ-VAE的简明介绍：量子化自编码器》中我们就介绍过了VQ-VAE，后来在《简单得令人尴尬的FSQ：“四舍五入”超越了VQ-VAE》介绍FSQ的时候，也再次仔细地温习了VQ-VAE，还不了解的读者可以先阅读这两篇文章。

点击阅读全文...

分类：信息时代标签：生成模型, 编码, 梯度, 离散化阅读全文 14 评论

31 Oct

简单得令人尴尬的FSQ：“四舍五入”超越了VQ-VAE

By 苏剑林 | 2023-10-31 | 150146位读者 | 引用

正如“XXX is all you need”一样，有不少论文都以“简单得令人尴尬”命名（An Embarrassingly Simple XXX），但在笔者看来，这些论文大多数都是噱头多于实力。不过，笔者最近阅读到的一篇论文，真的让人不由得发出“简单得令人尴尬”的感叹～

论文的标题是《Finite Scalar Quantization: VQ-VAE Made Simple》，顾名思义，这是一篇旨在用FSQ（Finite Scalar Quantization）简化VQ-VAE的工作。随着生成模型、多模态LLM的逐渐流行，VQ-VAE及其后续工作也作为“图像的Tokenizer”而“水涨船高”。然而，VQ-VAE的训练本身也存在一些问题，而FSQ这篇论文则声称通过更简单的“四舍五入”就可以达到同样的目的，并且有着效果更好、收敛更快、训练更稳的优点。

FSQ真有这么神奇？接下来我们一起学习一下。

VQ

首先，我们来了解一下“VQ”。VQ全称是“Vector Quantize”，可以翻译为“向量量子化”或者“向量量化”，是指将无限、连续的编码向量映射为有限、离散的整数数字的一种技术。如果我们将VQ应用在自编码器的中间层，那么可以在压缩输入大小的同时，让编码结果成为一个离散的整数序列。

点击阅读全文...

分类：信息时代标签：生成模型, 编码, 梯度, 离散化阅读全文 39 评论

24 Jun

VQ-VAE的简明介绍：量子化自编码器

By 苏剑林 | 2019-06-24 | 484488位读者 | 引用

印象中很早之前就看到过VQ-VAE，当时对它并没有什么兴趣，而最近有两件事情重新引起了我对它的兴趣。一是VQ-VAE-2实现了能够匹配BigGAN的生成效果（来自机器之心的报道）；二是我最近看一篇NLP论文《Unsupervised Paraphrasing without Translation》时发现里边也用到了VQ-VAE。这两件事情表明VQ-VAE应该是一个颇为通用和有意思的模型，所以我决定好好读读它。