分类信息时代下的文章 - 科学空间|Scientific Spaces

15 Dec

生成扩散模型漫谈（二十七）：将步长作为条件输入

By 苏剑林 | 2024-12-15 | 63641位读者 | 引用

这篇文章我们再次聚焦于扩散模型的采样加速。众所周知，扩散模型的采样加速主要有两种思路，一是开发更高效的求解器，二是事后蒸馏。然而，据笔者观察，除了上两篇文章介绍过的SiD外，这两种方案都鲜有能将生成步数降低到一步的结果。虽然SiD能做到单步生成，但它需要额外的蒸馏成本，并且蒸馏过程中用到了类似GAN的交替训练过程，总让人感觉差点意思。

本文要介绍的是《One Step Diffusion via Shortcut Models》，其突破性思想是将生成步长也作为扩散模型的条件输入，然后往训练目标中加入了一个直观的正则项，这样就能直接稳定训练出可以单步生成模型，可谓简单有效的经典之作。

ODE扩散

原论文的结论是基于ODE式扩散模型的，而对于ODE式扩散的理论基础，我们在本系列的（六）、（十二）、（十四）、（十五）、（十七）等博客中已经多次介绍，其中最简单的一种理解方式大概是（十七）中的ReFlow视角，下面我们简单重复一下。

点击阅读全文...

分类：信息时代标签：微分方程, 生成模型, 采样, 扩散阅读全文 24 评论

10 Dec

Muon优化器赏析：从向量到矩阵的本质跨越

By 苏剑林 | 2024-12-10 | 126820位读者 | 引用

随着LLM时代的到来，学术界对于优化器的研究热情似乎有所减退。这主要是因为目前主流的AdamW已经能够满足大多数需求，而如果对优化器“大动干戈”，那么需要巨大的验证成本。因此，当前优化器的变化，多数都只是工业界根据自己的训练经验来对AdamW打的一些小补丁。

不过，最近推特上一个名为“Muon”的优化器颇为热闹，它声称比AdamW更为高效，且并不只是在Adam基础上的“小打小闹”，而是体现了关于向量与矩阵差异的一些值得深思的原理。本文让我们一起赏析一番。

Muon与AdamW效果对比（来源：推特@Yuchenj_UW）

点击阅读全文...

分类：数学研究,信息时代标签：矩阵, 梯度, 优化器, 谱范数, muon 阅读全文 55 评论

22 Nov

生成扩散模型漫谈（二十六）：基于恒等式的蒸馏（下）

By 苏剑林 | 2024-11-22 | 44477位读者 | 引用

继续回到我们的扩散系列。在《生成扩散模型漫谈（二十五）：基于恒等式的蒸馏（上）》中，我们介绍了SiD（Score identity Distillation），这是一种不需要真实数据、也不需要从教师模型采样的扩散模型蒸馏方案，其形式类似GAN，但有着比GAN更好的训练稳定性。

SiD的核心是通过恒等变换来为学生模型构建更好的损失函数，这一点是开创性的，同时也遗留了一些问题。比如，SiD对损失函数的恒等变换是不完全的，如果完全变换会如何？如何从理论上解释SiD引入的$\lambda$的必要性？上个月放出的《Flow Generator Matching》（简称FGM）成功从更本质的梯度角度解释了$\lambda=0.5$的选择，而受到FGM启发，笔者则进一步发现了$\lambda = 1$的一种解释。

接下来我们将详细介绍SiD的上述理论进展。

点击阅读全文...

分类：数学研究,信息时代标签：生成模型, 梯度, 扩散, 去噪阅读全文 12 评论

18 Nov

Adam的epsilon如何影响学习率的Scaling Law？

By 苏剑林 | 2024-11-18 | 34081位读者 | 引用

上一篇文章《当Batch Size增大时，学习率该如何随之变化？》我们从多个角度讨论了学习率与Batch Size之间的缩放规律，其中对于Adam优化器我们采用了SignSGD近似，这是分析Adam优化器常用的手段。那么一个很自然的问题就是：用SignSGD来近似Adam究竟有多科学呢？

我们知道，Adam优化器的更新量分母会带有一个$\epsilon$，初衷是预防除零错误，所以其值通常很接近于零，以至于我们做理论分析的时候通常选择忽略掉它。然而，当前LLM的训练尤其是低精度训练，我们往往会选择偏大的$\epsilon$，这导致在训练的中、后期$\epsilon$往往已经超过梯度平方大小，所以$\epsilon$的存在事实上已经不可忽略。

因此，这篇文章我们试图探索$\epsilon$如何影响Adam的学习率与Batch Size的Scaling Law，为相关问题提供一个参考的计算方案。

点击阅读全文...

分类：数学研究,信息时代标签：梯度, 学习率, 优化器, 尺度定律阅读全文 6 评论

14 Nov

当Batch Size增大时，学习率该如何随之变化？

By 苏剑林 | 2024-11-14 | 88167位读者 | 引用

随着算力的飞速进步，有越多越多的场景希望能够实现“算力换时间”，即通过堆砌算力来缩短模型训练时间。理想情况下，我们希望投入$n$倍的算力，那么达到同样效果的时间则缩短为$1/n$，此时总的算力成本是一致的。这个“希望”看上去很合理和自然，但实际上并不平凡，即便我们不考虑通信之类的瓶颈，当算力超过一定规模或者模型小于一定规模时，增加算力往往只能增大Batch Size。然而，增大Batch Size一定可以缩短训练时间并保持效果不变吗？

这就是接下来我们要讨论的话题：当Batch Size增大时，各种超参数尤其是学习率该如何调整，才能保持原本的训练效果并最大化训练效率？我们也可以称之为Batch Size与学习率之间的Scaling Law。

方差视角

直觉上，当Batch Size增大时，每个Batch的梯度将会更准，所以步子就可以迈大一点，也就是增大学习率，以求更快达到终点，缩短训练时间，这一点大体上都能想到。问题就是，增大多少才是最合适的呢？

点击阅读全文...

分类：数学研究,信息时代标签：梯度, 学习率, 优化器, 尺度定律阅读全文 30 评论

6 Nov

VQ的又一技巧：给编码表加一个线性变换

By 苏剑林 | 2024-11-06 | 58726位读者 | 引用

在《VQ的旋转技巧：梯度直通估计的一般推广》中，我们介绍了VQ（Vector Quantization）的Rotation Trick，它的思想是通过推广VQ的STE（Straight-Through Estimator）来为VQ设计更好的梯度，从而缓解VQ的编码表坍缩、编码表利用率低等问题。

无独有偶，昨天发布在arXiv上的论文《Addressing Representation Collapse in Vector Quantized Models with One Linear Layer》提出了改善VQ的另一个技巧：给编码表加一个线性变换。这个技巧单纯改变了编码表的参数化方式，不改变VQ背后的理论框架，但实测效果非常优异，称得上是简单有效的经典案例。

点击阅读全文...

分类：数学研究,信息时代标签：生成模型, 编码, 梯度, 离散化阅读全文 21 评论

24 Oct

VQ的旋转技巧：梯度直通估计的一般推广

By 苏剑林 | 2024-10-24 | 49252位读者 | 引用

随着多模态LLM的方兴未艾，VQ（Vector Quantization）的地位也“水涨船高”，它可以作为视觉乃至任意模态的Tokenizer，将多模态数据统一到自回归生成框架中。遗憾的是，自VQ-VAE首次提出VQ以来，其理论并没有显著进步，像编码表的坍缩或利用率低等问题至今仍亟待解决，取而代之的是FSQ等替代方案被提出，成为了VQ有力的“竞争对手”。

然而，FSQ并不能在任何场景下都替代VQ，所以VQ本身的改进依然是有价值的。近日笔者读到了《Restructuring Vector Quantization with the Rotation Trick》，它提出了一种旋转技巧，声称能改善VQ的一系列问题，本文就让我们一起来品鉴一下。

回顾

早在五年前的博文《VQ-VAE的简明介绍：量子化自编码器》中我们就介绍过了VQ-VAE，后来在《简单得令人尴尬的FSQ：“四舍五入”超越了VQ-VAE》介绍FSQ的时候，也再次仔细地温习了VQ-VAE，还不了解的读者可以先阅读这两篇文章。

点击阅读全文...

分类：信息时代标签：生成模型, 编码, 梯度, 离散化阅读全文 14 评论

16 Oct

Cool Papers浏览器扩展升级至v0.2.0

By 苏剑林 | 2024-10-16 | 35347位读者 | 引用

年初，我们在《更便捷的Cool Papers打开方式：Chrome重定向扩展》中发布了一个Chrome浏览器插件（Cool Papers Redirector v0.1.0），可以通过右击菜单从任意页面中重定向到Cool Papers中，让大家更方便地获取Kimi对论文的理解。前几天我们把该插件升级到了v0.2.0，并顺利上架到了Chrome应用商店中，遂在此向大家推送一下。

更新汇总

相比旧版v0.1.0，当前版v0.2.0的主要更新内容如下：

1、右键菜单跳转改为在新标签页打开；
2、右键菜单支持同时访问多个论文ID；
3、右键菜单支持PDF页面；
4、右键菜单新增更多论文源（arXiv、OpenReview、ACL、IJCAI、PMLR）；
5、右键菜单在搜索不到论文ID时，转入站内搜索（即划词搜索）；
6、在某些网站的适当位置插入快捷跳转链接（arXiv、OpenReview，ACL）。

点击阅读全文...

分类：信息时代标签：网站, 论文, 酷论文阅读全文 10 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前32岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

生成扩散模型漫谈（二十七）：将步长作为条件输入

ODE扩散

Muon优化器赏析：从向量到矩阵的本质跨越

生成扩散模型漫谈（二十六）：基于恒等式的蒸馏（下）

Adam的epsilon如何影响学习率的Scaling Law？

当Batch Size增大时，学习率该如何随之变化？

方差视角

VQ的又一技巧：给编码表加一个线性变换

VQ的旋转技巧：梯度直通估计的一般推广

回顾

Cool Papers浏览器扩展升级至v0.2.0

更新汇总

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接