2 Jan

为什么梯度裁剪的默认模长是1?

我们知道,梯度裁剪(Gradient Clipping)是让模型训练更加平稳的常用技巧。常用的梯度裁剪是根据所有参数的梯度总模长来对梯度进行裁剪,其运算可以表示为
\begin{equation}\text{clip}(\boldsymbol{g},\tau)=\left\{\begin{aligned}&\boldsymbol{g}, &\Vert\boldsymbol{g}\Vert\leq \tau \\
&\frac{\tau}{\Vert\boldsymbol{g}\Vert}\boldsymbol{g},&\Vert\boldsymbol{g}\Vert > \tau
\end{aligned}\right.\end{equation}
这样一来,$\text{clip}(\boldsymbol{g},\tau)$保持跟$\boldsymbol{g}$相同的方向,但模长不超过$\tau$。注意这里的$\Vert\boldsymbol{g}\Vert$是整个模型所有的参数梯度放在一起视为单个向量所算的模长,也就是所谓的Global Gradient Norm。

不知道大家有没有留意到一个细节:不管是数百万参数还是数百亿参数的模型,$\tau$的取值在很多时候都是1。这意味着什么呢?是单纯地复用默认值,还是背后隐含着什么深刻的原理呢?

点击阅读全文...

12 Jan

低秩近似之路(五):CUR

再次回到低秩近似之路上。在《低秩近似之路(四):ID》中,我们介绍了“插值分解(Interpolative Decomposition,ID)”,这是为矩阵$\boldsymbol{M}\in\mathbb{R}^{n\times m}$寻找$\boldsymbol{C}\boldsymbol{Z}$形式的近似的过程,其中$\boldsymbol{C}\in\mathbb{R}^{n\times r}$是矩阵$\boldsymbol{M}$的若干列,而$\boldsymbol{Z}\in\mathbb{R}^{r\times m}$是任意矩阵。

这篇文章我们将介绍CUR分解,它跟插值分解的思想一脉相承,都是以原始矩阵的行、列为“骨架”来构建原始矩阵的近似,跟ID只用行或列之一不同,CUR分解同时用到了行和列。

基本定义

其实这不是本站第一次出现CUR分解了。早在《Nyströmformer:基于矩阵分解的线性化Attention方案》我们就介绍过矩阵的Nyström近似,它实际上就是CUR分解,后来在《利用CUR分解加速交互式相似度模型的检索》还介绍了CUR分解在降低交互式相似度模型的检索复杂度的应用。

点击阅读全文...

8 Jul

百科翻译:氢氧化钠(NaOH)的详细介绍

对于我们来说,维基百科是一个难得的资料库,但是与其英文版相比,中文版就相形见绌了,就好像本文中所讲的氢氧化钠,在中文版的资料为http://zh.wikipedia.org/w/index.php?title=NaOH&variant=zh-cn;而在英文版的资料为http://en.wikipedia.org/wiki/NaOH 可见英文版本是多么丰富。为了使大家能够更多地了解到科学,笔者特地翻译了一些英文版的维基百科中一些资料。

点击阅读全文...

8 Jul

百科翻译:臭氧的性质

臭氧对于我们来说是极为重要的,可以说,没有臭氧,我们都会死于紫外线的强烈照射之下!这里翻译了一些关于臭氧的信息,来源于http://en.wikipedia.org/wiki/Ozone,中文维基为http://zh.wikipedia.org/w/index.php?title=%E8%87%AD%E6%B0%A7&variant=zh-cn

臭氧,英文名为Ozone或trioxygen,化学式$O_3$,每个臭氧分子含有3个氧原子,属于三原子分子。与氧气是同素异形体(组成元素相同,但是结构不同,所表现出来的性质也不同),但比氧气更不稳定。在地表上的臭氧是一种空气污染物,对人和动物的呼吸道系统会产生有害影响。而大气层上部的臭氧层则能够吸收大量的紫外线,使地球的生物不受过量紫外线的侵害。

点击阅读全文...

8 Jul

古老的火山爆发造成地球冰期?

翻译语录:总的来说,这篇文章的翻译还是比较顺利,不懂的词查一下软件就OK,所以这次要说一下翻译以外的问题:众所周知,二氧化碳会造成温室效应,而二氧化硫能够抑制温室效应。不过糟糕的是,几乎所有大气环境治理手段都将把其它污染性气体转变成二氧化碳为目标,包括处理二氧化硫。这就造成了约治理环境,温室效应越强的问题。这时我们的环境学家也应考虑下两者的均衡问题了

图片说明:俄罗斯Kamtchatka火山爆发

图片说明:俄罗斯Kamtchatka火山爆发

点击阅读全文...

9 Jan

增强typecho的搜索功能

科学空间是使用typecho程序搭建的博客,侧边栏提供了搜索功能,然而typecho内置搜索功能仅仅是基于字符串的全匹配查找,因此导致很多合理的查询都没法得到结果,比如“2018天象”、“新词算法”都没法给出结果,原因就是文章中都不包含这些字符串。

于是就萌生了加强搜索功能的想法,之前也有读者建议过这个事情。这两天搜索了一下,本来计划用Python下的Whoosh库来建立一个全文检索引擎,但感觉整合和后期维护的工作量太大,还是放弃了。后来想到在typecho自身的搜索上加强,在公司同事(大佬)的帮助下,完成了这个改进。

由于是直接修改typecho源文件实现的改进,因此如果typecho升级后就可能被覆盖,因此在这里做个备忘。

探索

通过在Github检索我发现,typecho的搜索功能是在var/Widget/Archive.php中实现的,具体代码大概在1185~1192行:

点击阅读全文...

12 Jul

预报日食——当一回天文学家

预报天象,一般只是专业的天文研究人员的事情,我们这些业余的一般只是查找相关信息而已。但是,自从有了计算机(PC)以后,个人预报天象是完全可能的。现在,就发布我在1个多月前写好的一篇关于“日全食”的文章,教大家如何使用Stellarium来精确地预报自己所在地的天象情况。现在,就让我们当一回天文学家。

图片说明:中国日食带,图片来自新浪

图片说明:中国日食带,图片来自新浪

点击阅读全文...

17 Jul

初中生活结束了(友谊地久天长)

07.15,是我们作为初中生的最后日子,过了那天,我们就远离了初中。 我还清楚地记得,中考那几天,大家的依依不舍 在这之前,对于离别,我总是潇潇洒洒,无牵无挂 可是,在这一次的分离中,我却有点伤感 也许已经长大了,对友谊有着更深的感悟,更加珍惜

愿友谊地久天长!

点击阅读全文...