包含关键字从动力学角度看优化算法的文章

17 Mar

为什么现在的LLM都是Decoder-only的架构？

By 苏剑林 | 2023-03-17 | 93849位读者 | 引用

LLM是“Large Language Model”的简写，目前一般指百亿参数以上的语言模型，主要面向文本生成任务。跟小尺度模型（10亿或以内量级）的“百花齐放”不同，目前LLM的一个现状是Decoder-only架构的研究居多，像OpenAI一直坚持Decoder-only的GPT系列就不说了，即便是Google这样的并非全部押注在Decoder-only的公司，也确实投入了不少的精力去研究Decoder-only的模型，如PaLM就是其中之一。那么，为什么Decoder-only架构会成为LLM的主流选择呢？

知乎上也有同款问题《为什么现在的LLM都是Decoder only的架构？》，上面的回答大多数聚焦于Decoder-only在训练效率和工程实现上的优势，那么它有没有理论上的优势呢？本文试图从这个角度进行简单的分析。

统一视角

需要指出的是，笔者目前训练过的模型，最大也就是10亿级别的，所以从LLM的一般概念来看是没资格回答这个问题的，下面的内容只是笔者根据一些研究经验，从偏理论的角度强行回答一波。文章多数推论以自己的实验结果为引，某些地方可能会跟某些文献的结果冲突，请读者自行取舍。

点击阅读全文...

分类：信息时代标签：分析, 语言模型, 文本生成, attention 阅读全文 30 评论

26 Jan

Transformer升级之路：16、“复盘”长度外推技术

By 苏剑林 | 2024-01-26 | 62770位读者 | 引用

回过头来看，才发现从第7篇《Transformer升级之路：7、长度外推性与局部注意力》开始，“Transformer升级之路”这个系列就跟长度外推“杠”上了，接连9篇文章（不算本文）都是围绕长度外推展开的。如今，距离第7篇文章刚好是一年多一点，在这一年间，开源社区关于长度外推的研究有了显著进展，笔者也逐渐有了一些自己的理解，比如其实这个问题远不像一开始想象那么简单，以往很多基于局部注意力的工作也不总是有效，这暗示着很多旧的分析工作并没触及问题的核心。

在这篇文章中，笔者尝试结合自己的发现和认识，去“复盘”一下主流的长度外推结果，并试图从中发现免训练长度外推的关键之处。

问题定义

顾名思义，免训练长度外推，就是不需要用长序列数据进行额外的训练，只用短序列语料对模型进行训练，就可以得到一个能够处理和预测长序列的模型，即“Train Short, Test Long”。那么如何判断一个模型能否用于长序列呢？最基本的指标就是模型的长序列Loss或者PPL不会爆炸，更加符合实践的评测则是输入足够长的Context，让模型去预测答案，然后跟真实答案做对比，算BLEU、ROUGE等，LongBench就是就属于这类榜单。

点击阅读全文...

分类：信息时代标签：attention, 位置编码, 泛化, 外推, rope 阅读全文 47 评论

29 Mar

Transformer升级之路：17、多模态位置编码的简单思考

By 苏剑林 | 2024-03-29 | 45442位读者 | 引用

在这个系列的第二篇文章《Transformer升级之路：2、博采众长的旋转式位置编码》中，笔者提出了旋转位置编码（RoPE）——通过绝对位置的形式实现相对位置编码的方案。一开始RoPE是针对一维序列如文本、音频等设计的（RoPE-1D），后来在《Transformer升级之路：4、二维位置的旋转式位置编码》中我们将它推广到了二维序列（RoPE-2D），这适用于图像的ViT。然而，不管是RoPE-1D还是RoPE-2D，它们的共同特点都是单一模态，即纯文本或者纯图像输入场景，那么对于多模态如图文混合输入场景，RoPE该做如何调整呢？

笔者搜了一下，发现鲜有工作讨论这个问题，主流的做法似乎都是直接展平所有输入，然后当作一维输入来应用RoPE-1D，因此连RoPE-2D都很少见。且不说这种做法会不会成为图像分辨率进一步提高时的效果瓶颈，它终究是显得不够优雅。所以，接下来我们试图探寻两者的一个自然结合。

旋转位置

RoPE名称中的“旋转”一词，来源于旋转矩阵$\boldsymbol{\mathcal{R}}_n=\begin{pmatrix}\cos n\theta & -\sin n\theta\\ \sin n\theta & \cos n\theta\end{pmatrix}$，它满足
\begin{equation}\boldsymbol{\mathcal{R}}_m^{\top}\boldsymbol{\mathcal{R}}_n=\boldsymbol{\mathcal{R}}_{n-m}\end{equation}

点击阅读全文...

分类：信息时代标签：attention, 位置编码, rope, 多模态阅读全文 31 评论

26 Dec

《自然极值》系列——8.极值分析

By 苏剑林 | 2010-12-26 | 44854位读者 | 引用

《非线性泛函分析及其应用,第3卷,变分法及最优化》

本篇文章是《自然极值》系列最后一篇文章，估计也是2010年最后一篇文章了。在这个美好的2010年，想必大家一定收获匪浅，BoJone也在2010年成长了很多。在2010年的尾声，BoJone和科学空间都祝大家在新的一年里更加开心快乐，在科学的道路上更快速地前行。

在本文，BoJone将与大家讨论求极值的最基本原理。这一探讨思路受到了天才的费恩曼所著《费恩曼物理讲义》的启迪。我们分别对函数求极值（求导）和泛函数极值（变分）进行一些简略的分析。

一、函数求极值

对于一个函数$y=f(x)$，设想它在$x=x_0$处取到最大值，那么显然对于很小的增量$\Delta x$，有
$$f(x_0+\Delta x) \leq f(x_0)\tag{3}$$根据泰勒级数，我们有
$f(x_0+\Delta x)=f(x_0)+f'(x_0)\Delta x$————(4)

点击阅读全文...

分类：数学研究标签：2010, 极值, 分析, 变分, 2011 阅读全文 8 评论

2 Jul

[追溯]封装界传奇人物

By 苏剑林 | 2014-07-02 | 18716位读者 | 引用

转载理由：现在的deepin和ylmf（已经改为StartOs）都已经在制作自己的Linux，而当初它们都是制作GhostXp的大家。我的初中，即2009年以前，是GhostXP流行的时代，而我当时也加入了这一行列中，发表过一些GhostXP的作品。后来随着时代的发展，XP也就慢慢退出了舞台。我也就随之退出了这个舞台，也因此得以专注科学。但是，几乎所有我的电脑知识，都积累于那个时期，因为为了完成一个系统的制作和推广，需要懂得的电脑技术很多很多，我也得到了充分的锻炼。下面列举的一些人，都是当年GhostXP界的神话人物，有些我并不认识，但其名在当时就如雷贯耳；有些人在当时还十分幸运地加上了他们的QQ。这篇文章实际上已经是很久已经的了，但还是值得回味过去的时间，以此为我的初中时代留下一些回忆。

点击阅读全文...

分类：千奇百怪标签：转载, 电脑, 追溯阅读全文抢沙发

13 Feb

Designing GANs：又一个GAN生产车间

By 苏剑林 | 2020-02-13 | 32483位读者 | 引用

在2018年的文章里《f-GAN简介：GAN模型的生产车间》笔者介绍了f-GAN，并评价其为GAN模型的“生产车间”，顾名思义，这是指它能按照固定的流程构造出很多不同形式的GAN模型来。前几天在arxiv上看到了新出的一篇论文《Designing GANs: A Likelihood Ratio Approach》（后面简称Designing GANs或原论文），发现它在做跟f-GAN同样的事情，但走的是一条截然不同的路（不过最后其实是殊途同归），整篇论文颇有意思，遂在此分享一番。

f-GAN回顾

从《f-GAN简介：GAN模型的生产车间》中我们可以知道，f-GAN的首要步骤是找到满足如下条件的函数$f$：

1、$f$是非负实数到实数的映射（$\mathbb{R}^* \to \mathbb{R}$）；
2、$f(1)=0$；
3、$f$是凸函数。

点击阅读全文...

分类：数学研究,信息时代标签：微积分, GAN, 生成模型阅读全文 4 评论

2 May

寻求一个光滑的最大值函数

By 苏剑林 | 2015-05-02 | 123676位读者 | 引用

在最优化问题中，求一个函数的最大值或最小值，最直接的方法是求导，然后比较各阶极值的大小。然而，我们所要优化的函数往往不一定可导，比如函数中含有最大值函数$\max(x,y)$的。这时候就得求助于其他思路了。有一个很巧妙的思路是，将这些不可导函数用一个可导的函数来近似它，从而我们用求极值的方法来求出它近似的最优值。本文的任务，就是探究一个简单而有用的函数，它能够作为最大值函数的近似，并且具有多阶导数。下面是笔者给出的一个推导过程。

在数学分析中，笔者已经学习过一个关于最大值函数的公式，即当$x \geq 0, y \geq 0$时，我们有
$$\max(x,y)=\frac{1}{2}\left(|x+y|+|x-y|\right)\tag{1}$$
那么，为了寻求一个最大值的函数，我们首先可以考虑寻找一个能够近似表示绝对值$|x|$的函数，这样我们就把问题从二维降低到一维了。那么，哪个函数可以使用呢？

点击阅读全文...

分类：数学研究标签：函数, 极值, 光滑阅读全文 44 评论

19 Oct

【理解黎曼几何】6. 曲率的计数与计算(Python)

By 苏剑林 | 2016-10-19 | 52427位读者 | 引用

曲率的独立分量

黎曼曲率张量是一个非常重要的张量，当且仅当它全部分量为0时，空间才是平直的。它也出现在爱因斯坦的场方程中。总而言之，只要涉及到黎曼几何，黎曼曲率张量就必然是核心内容。

已经看到，黎曼曲率张量有4个指标，这也意味着它有$n^4$个分量，$n$是空间的维数。那么在2、3、4维空间中，它就有16、81、256个分量了，可见，要计算它，是一件相当痛苦的事情。幸好，这个张量有很多的对称性质，使得独立分量的数目大大减少，我们来分析这一点。

首先我们来导出黎曼曲率张量的一些对称性质，这部分内容是跟经典教科书是一致的。定义
$$R_{\mu\alpha\beta\gamma}=g_{\mu\nu}R^{\nu}_{\alpha\beta\gamma} \tag{50} $$
定义这个量的原因，要谈及逆变张量和协变张量的区别，我们这里主要关心几何观，因此略过对张量的详细分析。这个量被称为完全协变的黎曼曲率张量，有时候也直接叫做黎曼曲率张量，只要不至于混淆，一般不做区分。通过略微冗长的代数运算（在一般的微分几何、黎曼几何或者广义相对论教材中都有），可以得到
$$\begin{aligned}&R_{\mu\alpha\beta\gamma}=-R_{\mu\alpha\gamma\beta}\\
&R_{\mu\alpha\beta\gamma}=-R_{\alpha\mu\beta\gamma}\\
&R_{\mu\alpha\beta\gamma}=R_{\beta\gamma\mu\alpha}\\
&R_{\mu\alpha\beta\gamma}+R_{\mu\beta\gamma\alpha}+R_{\mu\gamma\alpha\beta}=0
\end{aligned} \tag{51} $$

点击阅读全文...

分类：数学研究标签：几何, 曲率, python, 黎曼几何, 排列组合阅读全文 3 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

为什么现在的LLM都是Decoder-only的架构？

统一视角

Transformer升级之路：16、“复盘”长度外推技术

问题定义

Transformer升级之路：17、多模态位置编码的简单思考

旋转位置

《自然极值》系列——8.极值分析

[追溯]封装界传奇人物

Designing GANs：又一个GAN生产车间

f-GAN回顾

寻求一个光滑的最大值函数

【理解黎曼几何】6. 曲率的计数与计算(Python)

曲率的独立分量

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接