14 Jun

通向概率分布之路:盘点Softmax及其替代品

不论是在基础的分类任务中,还是如今无处不在的注意力机制中,概率分布的构建都是一个关键步骤。具体来说,就是将一个$n$维的任意向量,转换为一个$n$元的离散型概率分布。众所周知,这个问题的标准答案是Softmax,它是指数归一化的形式,相对来说比较简单直观,同时也伴有很多优良性质,从而成为大部分场景下的“标配”。

尽管如此,Softmax在某些场景下也有一些不如人意之处,比如不够稀疏、无法绝对等于零等,因此很多替代品也应运而生。在这篇文章中,我们将简单总结一下Softmax的相关性质,并盘点和对比一下它的部分替代方案。

Softmax回顾

首先引入一些通用记号:$\boldsymbol{x} = (x_1,x_2,\cdots,x_n)\in\mathbb{R}^n$是需要转为概率分布的$n$维向量,它的分量可正可负,也没有限定的上下界。$\Delta^{n-1}$定义为全体$n$元离散概率分布的集合,即
\begin{equation}\Delta^{n-1} = \left\{\boldsymbol{p}=(p_1,p_2,\cdots,p_n)\left|\, p_1,p_2,\cdots,p_n\geq 0,\sum_{i=1}^n p_i = 1\right.\right\}\end{equation}
之所以标注$n-1$而不是$n$,是因为约束$\sum\limits_{i=1}^n p_i = 1$定义了$n$维空间中的一个$n-1$维子平面,再加上$p_i\geq 0$的约束,$(p_1,p_2,\cdots,p_n)$的集合就只是该平面的一个子集,即实际维度只有$n-1$。

点击阅读全文...

20 Jun

重温SSM(三):HiPPO的高效计算(S4)

前面我们用两篇文章《重温SSM(一):线性系统和HiPPO矩阵》《重温SSM(二):HiPPO的一些遗留问题》介绍了HiPPO的思想和推导——通过正交函数基对持续更新的函数进行实时逼近,其拟合系数的动力学正好可以表示为一个线性ODE系统,并且对于特定的基底以及逼近方式,我们可以将线性系统的关键矩阵精确地算出来。此外,我们还讨论了HiPPO的离散化和相关性质等问题,这些内容奠定了后续的SSM工作的理论基础。

接下来,我们将介绍HiPPO的后续应用篇《Efficiently Modeling Long Sequences with Structured State Spaces》(简称S4),它利用HiPPO的推导结果作为序列建模的基本工具,并从新的视角探讨了高效的计算和训练方式,最后在不少长序列建模任务上验证了它的有效性,可谓SSM乃至RNN复兴的代表作之一。

基本框架

S4使用的序列建模框架,是如下的线性ODE系统:
\begin{equation}\begin{aligned}
x'(t) =&\, A x(t) + B u(t) \\
y(t) =&\, C^* x(t) + D u(t)
\end{aligned}\end{equation}

点击阅读全文...

1 Mar

科学空间|Scientific Spaces 介绍

中山大学基础数学研究生,本科为华南师范大学。93年从奥尔特星云移民地球,因忘记回家路线,遂仰望星空,希望找到时空之路。同时兼爱各种科学,热衷钻牛角尖,因此经常碰壁,但偶然把牛角钻穿,也乐在其中。偏爱物理、天文、计算机,喜欢思考,虽擅长理性分析,但也容易感情用事,崇拜Feynman。爱好阅读,没事偷懒玩玩象棋,闲时爱好进入厨房做几道小菜,偶尔也开开数据“挖掘机”。明明要学基础数学,偏偏不务正业,沉溺神经网络,妄想人工智能,曾未在ACL、AAAI、COLING等会议上发表一篇文章。近期还挣扎在NLP大坑,在科学空间(https://kexue.fm)期待大家的拯救。

历史内容

华南师范大学数学系学生。93年从奥尔特星云移民地球,因忘记回家路线,遂仰望星空,希望找到时空之路。同时兼爱各种科学,热衷钻牛角尖,因此经常碰壁,但偶然把牛角钻穿,也乐在其中。偏爱物理、天文,喜欢思考,虽擅长理性分析,但也容易感情用事,崇拜费曼。长期阅读《天文爱好者》和《环球科学》,没事偷懒玩玩象棋,闲时爱好进入厨房做几道小菜,偶尔也当当电工。近期主要学习理论物理,在科学空间期待大家的指教。

名称:科学空间|Scientific Spaces
网址:http://kexue.fm

站长:苏剑林
信念:探索我们的世界,聆听我们的自然

网站历史

2009.03.01 网站初步建立,刚开始的时候使用的是BoBlog以及宇宙驿站的空间,内容定位:科学转载。

2009.03.28 开始进行大规模推广,访问量开始提高

2009.03-05 期间进行过多次改变,特别是Blog程序的转换,内容上的改革等

点击阅读全文...

8 Jul

古老的火山爆发造成地球冰期?

翻译语录:总的来说,这篇文章的翻译还是比较顺利,不懂的词查一下软件就OK,所以这次要说一下翻译以外的问题:众所周知,二氧化碳会造成温室效应,而二氧化硫能够抑制温室效应。不过糟糕的是,几乎所有大气环境治理手段都将把其它污染性气体转变成二氧化碳为目标,包括处理二氧化硫。这就造成了约治理环境,温室效应越强的问题。这时我们的环境学家也应考虑下两者的均衡问题了

图片说明:俄罗斯Kamtchatka火山爆发

图片说明:俄罗斯Kamtchatka火山爆发

点击阅读全文...

9 Jul

植物拯救了地球,阻止寒冷灭绝之灾!

笔者语录:现在温室效应愈演愈烈。不过,在千万年前,情况正好相反,二氧化碳含量的急剧下降,使地球越来越冷。而一个“救星”的出现挽救了地球!这个伟大的“救星”,就是我们随处可见的植物。现在,就让我们随着《新科学家》的脚步,去看看那远古的“救星”!

图片说明:原始森林。来自搜索引擎,图片有可能经过PS。

图片说明:原始森林。来自搜索引擎,图片有可能经过PS。

点击阅读全文...

26 Jul

企图减缓美国数学进展的“阴谋”

宇宙中存在所谓的“黑洞”,只要你步入了它的视界之内,就永远也出不去了(除非你能够超光速)。在数学中,也有类似的规则,只要把一个自然数代入这个规则,都无一不会陷入无限的循环之中,这样称之为“数字黑洞”。有一个“数字黑洞”,它令人十分着迷,甚至有人称它为“企图减缓美国数学进展的阴谋”——这就是“冰雹猜想”。

冰雹猜想:
任选一个自然数。当选定的自然数是偶数,将它除以2,如是奇数,将它乘以3加上1;当变换后的自然数成了偶数,再将它除以2,如成了奇数,再将它乘以3加上1,连续进行下去,最后都“落叶归根”——变成了1。

点击阅读全文...

30 Jul

冥王星呀,你究竟是什么?

Stephen Battersby 文 Shea 编译

太阳系中有多少颗行星?官方的回答是八颗——除非你碰巧住在美国伊利诺斯州。2009年初,“目中无人”的伊利诺斯州政府宣布,为”行星”制定标准的国际天文学联合会(IAU)其实是不公正地剥夺了冥王星的”行星”头衔。

三年前,IAU决定为“行星”一词起草首个科学上的定义。

在捷克首都布拉格召开的IAU大会上经过数天的激烈争论,与会代表投票通过了一个行星的定义。根据这个定义,冥王星被排除在了行星的行列之外,降级为“矮行星”。

[图片说明]:冥王星系统的想象画。

[图片说明]:冥王星系统的想象画。

点击阅读全文...

7 Aug

湖泊沉积物引来争议:是否彗星造成冰期灾难?

笔者:翻译完这篇文章,感觉可以用一个字来形容:累!的确,这篇文章的不少句子都让人很模糊,我也只是意译+请教+google出来的,有任何的错误欢迎指出!翻译过程中,不断地使用了词典、Google,加上向人请教,才勉强完成了。 冰期、史前文明、灭绝、天体撞击,这些被谈论得越来越多了,究竟真相如何呢?又或者会不会发生在我们的将来呢?

点击阅读全文...