标签信息下的文章 - 科学空间|Scientific Spaces

25 Apr

注意力和Softmax的两点有趣发现：鲁棒性和信息量

By 苏剑林 | 2023-04-25 | 51319位读者 | 引用

最近几周笔者一直都在思考注意力机制的相关性质，在这个过程中对注意力及Softmax有了更深刻的理解。在这篇文章中，笔者简单分享其中的两点：

1、Softmax注意力天然能够抵御一定的噪声扰动；
2、从信息熵角度也可以对初始化问题形成直观理解。

鲁棒性

基于Softmax归一化的注意力机制，可以写为
\begin{equation}o = \frac{\sum\limits_{i=1}^n e^{s_i} v_i}{\sum\limits_{i=1}^n e^{s_i}}\end{equation}
有一天笔者突然想到一个问题：如果往$s_i$中加入独立同分布的噪声会怎样？

点击阅读全文...

分类：数学研究标签：信息, 熵, attention 阅读全文 19 评论

20 Feb

熵的形象来源与熵的妙用

By 苏剑林 | 2016-02-20 | 40641位读者 | 引用

在拙作《“熵”不起：从熵、最大熵原理到最大熵模型（一）》中，笔者从比较“专业”的角度引出了熵，并对熵做了诠释。当然，熵作为不确定性的度量，应该具有更通俗、更形象的来源，本文就是试图补充这一部分，并由此给出一些妙用。

熵的形象来源

我们考虑由0-9这十个数字组成的自然数，如果要求小于10000的话，那么很自然有10000个，如果我们说“某个小于10000的自然数”，那么0～9999都有可能出现，那么10000便是这件事的不确定性的一个度量。类似地，考虑$n$个不同元素（可重复使用）组成的长度为$m$的序列，那么这个序列有$n^m$种情况，这时$n^m$也是这件事情的不确定性的度量。

$n^m$是指数形式的，数字可能异常地大，因此我们取了对数，得到$m\log n$，这也可以作为不确定性的度量，它跟我们原来熵的定义是一致的。因为
$$m\log n=-\sum_{i=1}^{n^m} \frac{1}{n^m}\log \frac{1}{n^m}$$

读者可能会疑惑，$n^m$和$m\log n$都算是不确定性的度量，那么究竟是什么原因决定了我们用$m\log n$而不是用$n^m$呢？答案是可加性。取对数后的度量具有可加性，方便我们运算。当然，可加性只是便利的要求，并不是必然的。如果使用$n^m$形式，那么就相应地具有可乘性。

点击阅读全文...

分类：数学研究标签：信息, 熵阅读全文 4 评论

23 Mar

【通知转载】国家天文台信息技术类人才招聘

By 苏剑林 | 2010-03-23 | 21003位读者 | 引用

文章来源：国家天文台

国家天文台LAMOST大科学工程面向全社会招聘信息技术类人才若干名，主要从事数据密集型天文学研究、数据库设计开发、天文应用软件服务开发、数据处理、数据挖掘、数值模拟、高性能计算、算法优化、网站网页设计维护、天文数据整理与管理、网络科普教育等工作。大天区面积多目标光纤光谱天文望远镜（LAMOST）是一项国家重大科学工程项目。该工程项目于2008年底竣工，2009年6月通过国家验收，正处于观测试运行阶段。LAMOST天文望远镜是我国已建成的最大、最先进的天文观测设备，是世界上光谱观测效率最高的望远镜，4米口径5度视场，每次可观测4000个目标，每晚可观测数万个目标，获得数十GB的数据，每年可获得数TB的科学数据。如何处理、分析、管理、发布、挖掘如此海量的数据，就是诚聘的上述人才所要面临的挑战。

点击阅读全文...

分类：千奇百怪标签：天文台, 转载, 信息阅读全文抢沙发

21 Aug