科学空间|Scientific Spaces

感谢国家天文台LAMOST项目之“宇宙驿站”提供网络空间和数据库资源! 感谢国家天文台崔辰州博士等人的多方努力和技术支持！

科学空间致力于知识分享，所以欢迎您转载本站文章，但转载本站内容必须遵循 署名-非商业用途-保持一致 的创作共用协议。

参与科学空间

为了保证你的利益，推荐你注册为本站会员。同时欢迎通过邮件或留言进行交流、建议或反馈科学空间的问题。
会员注册会员登录查看全站文章归档页

14 Aug

Transformer升级之路：13、逆用Leaky ReRoPE

By 苏剑林 | 2023-08-14 | 12200位读者 | 引用

上周在《Transformer升级之路：12、无限外推的ReRoPE？》中，笔者提出了ReRoPE和Leaky ReRoPE，诸多实验结果表明，它们能够在几乎不损失训练效果的情况下免微调地扩展LLM的Context长度，并且实现了“longer context, lower loss”的理想特性，此外跟NTK-aware Scaled RoPE不同的是，其中ReRoPE似乎还有表现出了无限的Context处理能力。

总之，ReRoPE看起来相当让人满意，但美中不足的是会增加推理成本，具体表现为第一步推理需要算两次Attention，以及后续每步推理需要重新计算位置编码。本文试图通过在训练中逆用Leaky ReRoPE的方法来解决这个问题。

回顾

让我们不厌其烦地重温一下：RoPE形式上是一种绝对位置编码，但实际达到的效果是相对位置编码，对应的相对位置矩阵是：
\begin{equation}\begin{pmatrix}0 & \\
1 & 0 & \\
2 & 1 & 0 &\\
3 & 2 & 1 & 0 & \\
\ddots & 3 & 2 & 1 & 0 & \\
\ddots & \ddots & 3 & 2 & 1 & 0 & \\
\ddots & \ddots & \ddots & \ddots & \ddots & \ddots & \ddots \\
\tiny{L - 2} & \ddots & \ddots & \ddots & \ddots & \ddots & \ddots & \ddots \\
\tiny{L - 1} & \tiny{L - 2} & \ddots & \ddots & \ddots & 3 & 2 & 1 & 0 & \\
\end{pmatrix}\label{eq:rope}\end{equation}

点击阅读全文...

分类：信息时代标签：attention, 位置编码, 泛化, 外推, rope 阅读全文 6 评论

7 Aug

Transformer升级之路：12、无限外推的ReRoPE？

By 苏剑林 | 2023-08-07 | 34204位读者 | 引用

自从在《Transformer升级之路：11、将β进制位置进行到底》中引入混合进制的思路进一步推广了NTK-aware Scaled RoPE后，笔者感觉类似思路的效果已经达到了上限，想要更大幅度的提升就必须另辟蹊径了。这时候笔者想起了此前构思过的一个思路，该思路由于复杂度较高所以被搁置下了，既然现在已经遇到了瓶颈，那么“唯一的办法就是最好的办法”，于是便将它重拾起来。

万万没想到的是，尽管该方法增加了一些推理复杂度，但它的实验效果却惊人地好——甚至隐约有无限的长度外推能力！因此，笔者迫不及待地撰写了本文来分享该方法。由于形式上跟ReLU激活函数的相似性，所以笔者将该方法命名为“ReRoPE (Rectified Rotary Position Embeddings)”。

重温

我们知道，RoPE形式上是一种绝对位置编码，但实际上给Attention带来的是相对位置信息，即如下的Toeplitz矩阵：

点击阅读全文...

分类：信息时代标签：attention, 位置编码, 泛化, 外推, rope 阅读全文 45 评论

31 Jul

Transformer升级之路：11、将β进制位置进行到底

By 苏剑林 | 2023-07-31 | 25626位读者 | 引用

在文章《Transformer升级之路：10、RoPE是一种β进制编码》中，我们给出了RoPE的$\beta$进制诠释，并基于进制转化的思路推导了能够在不微调的情况下就可以扩展Context长度的NTK-aware Scaled RoPE。不得不说，通过类比$\beta$进制的方式来理解位置编码，确实是一个非常美妙且富有启发性的视角，以至于笔者每次深入思考和回味之时，似乎总能从中得到新的领悟和收获。

本文将重新回顾RoPE的$\beta$进制诠释，并尝试将已有的NTK-aware Scaled RoPE一般化，以期望找到一种更优的策略来不微调地扩展LLM的Context长度。

进制类比

我们知道，RoPE的参数化沿用了Sinusoidal位置编码的形式。而不知道是巧合还是故意为之，整数$n$的Sinusoidal位置编码，与它的$\beta$进制编码，有很多相通之处。

点击阅读全文...

分类：信息时代标签：attention, 位置编码, 泛化, 外推, rope 阅读全文 32 评论

20 Jul

语言模型输出端共享Embedding的重新探索

By 苏剑林 | 2023-07-20 | 17495位读者 | 引用

预训练刚兴起时，在语言模型的输出端重用Embedding权重是很常见的操作，比如BERT、第一版的T5、早期的GPT，都使用了这个操作，这是因为当模型主干部分不大且词表很大时，Embedding层的参数量很可观，如果输出端再新增一个独立的同样大小的权重矩阵的话，会导致显存消耗的激增。不过随着模型参数规模的增大，Embedding层的占比相对变小了，加之《Rethinking embedding coupling in pre-trained language models》等研究表明共享Embedding可能会有些负面影响，所以现在共享Embedding的做法已经越来越少了。

本文旨在分析在共享Embedding权重时可能遇到的问题，并探索如何更有效地进行初始化和参数化。尽管共享Embedding看起来已经“过时”，但这依然不失为一道有趣的研究题目。

点击阅读全文...

分类：数学研究,信息时代标签：语言模型, 初始化阅读全文 11 评论

14 Jul

当生成模型肆虐：互联网将有“疯牛病”之忧？

By 苏剑林 | 2023-07-14 | 25875位读者 | 引用

众所周知，不管是文本还是视觉领域，各种生成模型正在以无法阻挡的势头“肆虐”互联网。虽然大家都明白，实现真正的通用人工智能（AGI）还有很长的路要走，但这并不妨碍人们越来越频繁地利用生成模型来创作和分享内容。君不见，很多网络文章已经配上了Stable Diffusion模型生成的插图；君不见，很多新闻风格已经越来越显现出ChatGPT的影子。看似无害的这种趋势，正悄然引发了一个问题：我们是否应该对互联网上充斥的生成模型数据保持警惕？

近期发表的论文《Self-Consuming Generative Models Go MAD》揭示了一种令人担忧的可能性，那就是生成模型正在互联网上的无节制扩张，可能会导致一场数字版的“疯牛病”疫情。本文一起学习这篇论文，探讨其可能带来的影响。

点击阅读全文...

分类：信息时代标签：生成模型阅读全文 32 评论

6 Jul

Transformer升级之路：10、RoPE是一种β进制编码

By 苏剑林 | 2023-07-06 | 64933位读者 | 引用

对关心如何扩展LLM的Context长度的读者来说，上周无疑是激动人心的一周，开源社区接连不断地出现令人振奋的成果。首先，网友@kaiokendev在他的项目SuperHOT中实验了“位置线性内插”的方案，显示通过非常少的长文本微调，就可以让已有的LLM处理Long Context。几乎同时，Meta也提出了同样的思路，带着丰富的实验结果发表在论文《Extending Context Window of Large Language Models via Positional Interpolation》上。惊喜还远不止此，随后网友@bloc97提出了NTK-aware Scaled RoPE，实现了不用微调就可以扩展Context长度的效果！

以上种种进展，尤其是NTK-aware Scaled RoPE，迫使笔者去重新思考RoPE的含义。经过分析，笔者发现RoPE的构造可以视为一种$\beta$进制编码，在这个视角之下，开源社区的这些进展可以理解为对进制编码编码的不同扩增方式。

点击阅读全文...

分类：信息时代标签：attention, 位置编码, 泛化, 外推, rope 阅读全文 61 评论

28 Jun

生成扩散模型漫谈（二十）：从ReFlow到WGAN-GP

By 苏剑林 | 2023-06-28 | 13723位读者 | 引用

上一篇文章《生成扩散模型漫谈（十九）：作为扩散ODE的GAN》中，我们介绍了如何将GAN理解为在另一个时间维度上的扩散ODE，简而言之，GAN实际上就是将扩散模型中样本的运动转化为生成器参数的运动！然而，该文章的推导过程依赖于Wasserstein梯度流等相对复杂和独立的内容，没法很好地跟扩散系列前面的文章连接起来，技术上显得有些“断层”。

在笔者看来，《生成扩散模型漫谈（十七）：构建ODE的一般步骤（下）》所介绍的ReFlow是理解扩散ODE的最直观方案，既然可以从扩散ODE的角度理解GAN，那么必定存在一个从ReFlow理解GAN的角度。经过一番尝试，笔者成功从ReFlow推出了类似WGAN-GP的结果。

理论回顾

之所以说“ReFlow是理解扩散ODE的最直观方案”，是因为它本身非常灵活，以及非常贴近实验代码——它能够通过ODE建立任意噪声分布到目标数据分布的映射，而且训练目标非常直观，不需要什么“弯弯绕绕”就可以直接跟实验代码对应起来。

点击阅读全文...

分类：信息时代标签：优化, GAN, 梯度, 扩散阅读全文 7 评论

24 Jun

生成扩散模型漫谈（十九）：作为扩散ODE的GAN

By 苏剑林 | 2023-06-24 | 17023位读者 | 引用

在文章《生成扩散模型漫谈（十六）：W距离 ≤ 得分匹配》中，我们推导了Wasserstein距离与扩散模型得分匹配损失之间的一个不等式，表明扩散模型的优化目标与WGAN的优化目标在某种程度上具有相似性。而在本文，我们将探讨《MonoFlow: Rethinking Divergence GANs via the Perspective of Wasserstein Gradient Flows》中的研究成果，它进一步展示了GAN与扩散模型之间的联系：GAN实际上可以被视为在另一个时间维度上的扩散ODE！

这些发现表明，尽管GAN和扩散模型表面上是两种截然不同的生成式模型，但它们实际上存在许多相似之处，并在许多方面可以相互借鉴和参考。

思路简介

我们知道，GAN所训练的生成器是从噪声$\boldsymbol{z}$到真实样本的一个直接的确定性变换$\boldsymbol{g}_{\boldsymbol{\theta}}(\boldsymbol{z})$，而扩散模型的显著特点是“渐进式生成”，它的生成过程对应于从一系列渐变的分布$p_0(\boldsymbol{x}_0),p_1(\boldsymbol{x}_1),\cdots,p_T(\boldsymbol{x}_T)$中采样（注：在前面十几篇文章中，$\boldsymbol{x}_T$是噪声，$\boldsymbol{x}_0$是目标样本，采样过程是$\boldsymbol{x}_T\to \boldsymbol{x}_0$，但为了便于下面的表述，这里反过来改为$\boldsymbol{x}_0\to \boldsymbol{x}_T$）。看上去确实找不到多少相同之处，那怎么才能将两者联系起来呢？

点击阅读全文...

分类：信息时代标签：优化, GAN, 扩散阅读全文 14 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

参与科学空间

Transformer升级之路：13、逆用Leaky ReRoPE

回顾

Transformer升级之路：12、无限外推的ReRoPE？

重温

Transformer升级之路：11、将β进制位置进行到底

进制类比

语言模型输出端共享Embedding的重新探索

当生成模型肆虐：互联网将有“疯牛病”之忧？

Transformer升级之路：10、RoPE是一种β进制编码

生成扩散模型漫谈（二十）：从ReFlow到WGAN-GP

理论回顾

生成扩散模型漫谈（十九）：作为扩散ODE的GAN

思路简介

关于站长

智能搜索

热门标签

最新文章

最近评论

友情链接