Transformer升级之路:3、从Performer到线性Attention
By 苏剑林 | 2021-04-22 | 55312位读者 | 引用看过笔者之前的文章《线性Attention的探索:Attention必须有个Softmax吗?》和《Performer:用随机投影将Attention的复杂度线性化》的读者,可能会觉得本文的标题有点不自然,因为是先有线性Attention然后才有Performer的,它们的关系为“Performer是线性Attention的一种实现,在保证线性复杂度的同时保持了对标准Attention的近似”,所以正常来说是“从线性Attention到Performer”才对。
然而,本文并不是打算梳理线性Attention的发展史,而是打算反过来思考Performer给线性Attention所带来的启示,所以是“从Performer到线性Attention”。
激活函数
线性Attention的常见形式是
\begin{equation}Attention(\boldsymbol{Q},\boldsymbol{K},\boldsymbol{V})_i = \frac{\sum\limits_{j=1}^n \text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)\boldsymbol{v}_j}{\sum\limits_{j=1}^n \text{sim}(\boldsymbol{q}_i, \boldsymbol{k}_j)} = \frac{\sum\limits_{j=1}^n \phi(\boldsymbol{q}_i)^{\top} \varphi(\boldsymbol{k}_j)\boldsymbol{v}_j}{\sum\limits_{j=1}^n \phi(\boldsymbol{q}_i)^{\top} \varphi(\boldsymbol{k}_j)}\end{equation}
脑洞大开:非线性RNN居然也可以并行计算?
By 苏剑林 | 2023-09-26 | 54046位读者 | 引用近年来,线性RNN由于其可并行训练以及常数推理成本等特性,吸引了一定研究人员的关注(例如笔者之前写的《Google新作试图“复活”RNN:RNN能否再次辉煌?》),这让RNN在Transformer遍地开花的潮流中仍有“一席之地”。然而,目前看来这“一席之地”只属于线性RNN,因为非线性RNN无法高效地并行训练,所以在架构之争中是“心有余而力不足”。
不过,一篇名为《Parallelizing Non-Linear Sequential Models over the Sequence Length》的论文有不同的看法,它提出了一种迭代算法,宣传可以实现非线性RNN的并行训练!真有如此神奇?接下来我们一探究竟。
求不动点
原论文对其方法做了非常一般的介绍,而且其侧重点是PDE和ODE,这里我们直接从RNN入手。考虑常见的简单非线性RNN:
\begin{equation}x_t = \tanh(Ax_{t-1} + u_t)\label{eq:rnn}\end{equation}
《方程与宇宙》:二体问题的来来去去(一)
By 苏剑林 | 2010-03-20 | 93930位读者 | 引用为了让大家能够查询到“天体力学”方面的内容,同时锻炼我的表达和计算能力,BoJone构思了《方程与宇宙》这个主题,主要是写一些关于使用数学相对深入地讨论一些天文问题。其实我一直觉得,不用公式是无法完美地描述科学的(当然也不能纯公式),我记得霍金的《时间简史》以及《果壳中的宇宙》等之类的书,都力求不用或者尽可能少用数学公式来表达自己的观点。这种模式对于对于公众来说是很好的,但是对于希望深入研究的朋友来说却难以进行。所以我主张:宇宙是算出来的!
这个主题每一个字都是由BoJone敲击出来的,其中包括引用了《天体力学引论》里面的一些内容,以及加入了BoJone个人的一些见解。由于篇幅长及时间有限问题,BoJone打算分若干次撰写发布,并且尽可能写得通俗一点,力求让有一点微积分基础的朋友就可以弄懂。这里首先发布第一部分。由于时间匆忙等原因,可能会出现一些疏忽,欢迎大家挑错!
精确自由落体运动定律的讨论(二)
By 苏剑林 | 2010-01-09 | 55147位读者 | 引用之前在这篇文章中,我们使用过一个牛顿引力场中的自由落体公式:
$t=\sqrt{\frac{r_0}{2GM}}{r_0 \cdot arctg \sqrt{\frac{r_0 -r}{r}}+\sqrt{r(r_0 -r)}}$——(1)
我们来尝试一下推导出这个公式来。同时,站长在逐渐深入研究的过程中,发现微分方程极其重要。以前一些我认为不可能解决的问题,都用微分方程逐渐解决了。在以后的文章里,我们将会继续体验到微分方程的伟大魔力!因此,建议各位有志研究物理学的朋友,一定要掌握微分方程,更加深入的,需要用到偏微分方程!
首先,质量为m的物理在距离地心r处的引力为$\frac{GMm}{r^2}$,根据牛顿第二定律F=ma,自然下落的物体所获得的加速度为$\frac{GM}{r^2}$。假设物体从距离地心r开始向地心自由下落,求位移s关于t的函数s=s(t).
两本天体力学的旧书...
By 苏剑林 | 2010-02-18 | 33978位读者 | 引用由于BoJone有着天文和数学的共同爱好,所以近一段时间恋上了天体力学,这是天文的内容,也是数学在天文学大施拳脚的地方。每一步计算,都有可能是一个新的发现,这种感觉太棒了,也许这就是我前进的动力之一。
天体力学最重要、最基本的方法就是解微分方程,其中以常微分方程为主,而且更多的是常微分方程组。这对BoJone来说是一个极大的挑战,因为正在读高一的BoJone一切都得自学,这得以微积分、级数、解析几何等数学知识为基础,而且必须做到融会贯通,要把它当成手中的橡皮泥,随意捏弄,形变而质不变。不过幸好能够有轻松自由的学习环境,我相信,我可以!
前些天在淘宝上一位天爱把他收藏的旧书都出了,里面有一本《天体力学引论》和《天体力学教程》,这正是作者苦苦搜寻的天体力学教程呀!其实即便是大学用的天体力学书籍,也是80年代左右的书,这些书很少有更新,所以现在几乎没有出售的,一般有钱也买不到(让我捡了一个大便宜^_^)。店主链接
写在2013年即将逝去之际
By 苏剑林 | 2013-12-31 | 24327位读者 | 引用2013年即将过去,而我的大二也即将过去一半了。这一学期广播台的事情忙了很多,数学物理的进展比想象中稍微缓了一些,主要的进步是在向量分析(场论)、路径积分和微分方程等方面。下学期开始分流了,我选择了非师,但事实上,我更喜欢师范类的课程,我选择非师的唯一原因是选择师范需要修教育学和心理学。幸好,我们创新班的自由度比较多,可以自由选择下学期的课程,我选择了六门数学课程:
1、常微分方程;
2、复变函数;
(这两门纯粹是凑学分的,我觉得他能讲的东西我都懂了,而我认为很重要的部分他不讲...)
3、数理统计;
(这门主要的想法是为路径积分以及统计力学奠基)
4、微分几何;
(主要是广义相对论的奠基,还有理论物理形式)
5、偏微分方程;
(第4、5都是大三的课程,我是去跟大三一起上的)
6、离散数学。
一维弹簧的运动(上)
By 苏剑林 | 2014-03-11 | 28568位读者 | 引用《教材如何写》:对于教材写法的一点考虑
By 苏剑林 | 2011-04-16 | 23837位读者 | 引用转载自:eaglefantasy.com
有感于Matrix67神牛的这篇文章(强烈建议大家去读一读),我也发表一下自己对于教材编写的一点看法。
1.对线性代数的吐槽
(没学过线性代数的同学请忽略下面3段往后接着看。)
我一直觉得线性代数用那种严格公理化的语言写成课本根本不适合初学者学习,一开始学习线性代数的时候,我本人对很多概念的直观意义根本就是完全不知道。我们的课本是丘维声的《简明线性代数》,我在此毫不掩饰的表示对这本教材的鄙视:这本教材居然是按照这样的顺序讲线性代数的:线性方程组->行列式->线性方程组的进一步讨论->矩阵的运算->一大堆东西->线性空间->线性映射->一大堆东西。这个狗屁顺序直接导致我前半个学期一直以为线性代数就是研究怎么解线性方程组的,我心想,这么简单的问题,具体问题谁都会解,值得这么大动干戈的定义出这么大堆东西么。。。一直到线性空间那一个章节以前,我完全就不知道线性代数整个是在干什么..后来学的多了我才知道,其实线性代数就是研究线性空间和线性映射的嘛,什么线性方程组,根本没那么重要。一个更加合理的顺序是:先讲线性空间、线性映射,其中明确说明矩阵就是线性映射,然后再讲行列式,然后线性方程组只作为一个例子出现就可以了。
最近评论