28 Apr

在bert4keras中使用混合精度和XLA加速训练

之前笔者一直都是聚焦于模型的构思和实现,鲜有关注模型的训练加速,像混合精度和XLA这些技术,虽然也有听过,但没真正去实践过。这两天折腾了一番,成功在bert4keras中使用了混合精度和XLA来加速训练,在此做个简单的总结,供大家参考。

本文的多数经验结论并不只限于bert4keras中使用,之所以在标题中强调bert4keras,只不过bert4keras中的模型实现相对较为规整,因此启动这些加速技巧所要做的修改相对更少。

实验环境

本文的实验显卡为3090,使用的docker镜像为nvcr.io/nvidia/tensorflow:21.09-tf1-py3,其中自带的tensorflow版本为1.15.5。另外,实验所用的bert4keras版本为0.11.3。其他环境也可以参考着弄,要注意有折腾精神,不要指望着无脑调用。

顺便提一下,3090、A100等卡只能用cuda11,而tensorflow官网的1.15版本是不支持cuda11的,如果还想用tensorflow 1.x,那么只能用nvidia亲自维护的nvidia-tensorflow,或者用其构建的docker镜像。用nvidia而不是google维护的tensorflow,除了能让你在最新的显卡用上1.x版本外,还有nvidia专门做的一些额外优化,具体文档可以参考这里

点击阅读全文...

9 Jan

局部余弦相似度大,全局余弦相似度一定也大吗?

在分析模型的参数时,有些情况下我们会将模型的所有参数当成一个整体的向量,有些情况下我们则会将不同的参数拆开来看。比如,一个7B大小的LLAMA模型所拥有的70亿参数量,有时候我们会将它当成“一个70亿维的向量”,有时候我们会按照模型的实现方式将它看成“数百个不同维度的向量”,最极端的情况下,我们也会将它看成是“七十亿个1维向量”。既然有不同的看待方式,那么当我们要算一些统计指标时,也就会有不同的计算方式,即局部计算和全局计算,这引出了局部计算的指标与全局计算的指标有何关联的问题。

本文我们关心两个向量的余弦相似度。如果两个大向量的维度被拆成了若干组,同一组对应的子向量余弦相似度都很大,那么两个大向量的余弦相似度是否一定就大呢?答案是否定的。特别地,这还跟著名的“辛普森悖论”有关。

问题背景

这个问题源于笔者对优化器的参数增量导致的损失函数变化量的分析。具体来说,假设优化器的更新规则是:
\begin{equation}\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \eta_t \boldsymbol{u}_t\end{equation}

点击阅读全文...

16 Aug

从费马大定理谈起(三):高斯整数

为了拓展整数的概念,我们需要了解关于环和域这两个代数结构,这些知识在网上或者相应的抽象代数教程中都会有。抽象地提出这两个代数结构,是为了一般地处理不同的数环、数域中的性质。在自然数集$\mathbb{N}$中,可以很方便定义和比较两个数字的大小,并且任意一个自然数的子集,都存在最小元素,这两点综合起来,我们就说$\mathbb{N}$是“良序”的(这也是数学归纳法的基础)。在良序的结构中,很多性质的证明变得很简单,比如算术基本定理。然而,一般的数环、数域并没有这样的“良序”,比如任意两个复数就不能比较大小。因此,一般的、不基于良序的思想就显得更为重要了。

环和域

关于环(Ring)的定义,可以参考维基百科上面的“环(代数)”条目。简单来说,环指的是这样一个集合,它的元素之间可以进行加法和乘法,并满足一些必要的性质,比如运算封闭性、加法可交换性等。而数论中大多数情况下研究的是数环,它指的是集合是数集的情况,并且通常来说,元素间的加法和乘法就是普通的数的加法和乘法。比如所有的实整数就构成一个数环$\mathbb{Z}$,这个数环是无限的;所有的偶整数也构成一个数环$2\mathbb{Z}$;对于素数$p$,在模$p$之下,数集$\{0,1,2,\dots,p-1\}$也构成了一个环,更特别的,它还是一个数域。

点击阅读全文...

19 Aug

从费马大定理谈起(六):n=4(2)

上一篇文章中,笔者提到似乎证明n=4时必须要证明$x^4+y^4=z^2$无解而不能只证明$x^4+y^4=z^4$无解。不过,在今天中午研究的时候,笔者发现了另外一个n=4的证明,它同样是在$\mathbb{Z}[i]$中,但是,证明的则是指数全是4的形式,但是,又不单单是$x^4+y^4=z^4$的形式,而是$\varepsilon x^4+y^4=z^4$,$\varepsilon$是单位数。这个证明过程,我觉得应该更接近n等于其他奇素数时的证明,遂补充了这篇文章,供大家参考。读者可以对比着上一篇文章进行比较阅读。

引理

用$\varepsilon_1,\varepsilon_2,\varepsilon_3,\varepsilon$表示$\mathbb{Z}[i]$中的单位数,下面先证明

如果方程$\varepsilon_1 x'^4 +\varepsilon_2 y'^4+\varepsilon_3 z'^4=0$在$\mathbb{Z}[i]$中有全不为0的解,那么在经过适当的化简和整理之后,方程必有形式$\varepsilon x^4+y^4=z^4$,其中$(x,y,z)$是$(x',y',z')$的某个置换,$\xi^2|x$。

点击阅读全文...

27 Feb

从Knotsevich在黑板上写的级数题目谈起

某天在浏览高教社的“i数学”编辑的微博时候,发现上面有一道Knotsevich在黑板上写的他认为很有意思的题目,原始网址是:http://weibo.com/3271276117/BBrL5foVz

Knotsevich在黑板上写的级数题目

Knotsevich在黑板上写的级数题目

题目是这样的
$$\sum_{n=0}^{\infty} \frac{n! (20n)!}{(4n)!(7n)!(10n)!}x^n\tag{1}$$
大概的目的是找出原函数的表达式吧。

点击阅读全文...

3 Oct

不在家的国庆

在生活上,我是一个比较传统的人,因此每到节日我都会尽量回家跟家人团聚。也许会让大家比较吃惊的是,今年的国庆是我第一个不在家的国庆。的确,从小学到高中,上学的地方离家都比较近,每周回去一次都是不成问题的。现在来到了广州,就不能太随心了。虽然跟很多同学相比,我离家还是比较近的,但是来回也要考虑车费、时间等等。国庆假期时间虽然很长,但是中秋已经回去一趟了,所以我决定国庆就不再回去了。

对我来说,中秋跟国庆相比,中秋的意义更大些。所以我选择了国庆不回家。对家人而言,看到自己平安就好,因此哪一天回去他们都会很高兴,当然,对于农村人来说,中秋的味道更浓,更希望团聚。

点击阅读全文...

27 Jun

哈哈,我的“《圣经》”到了

之前已经稍微提及到了MTW的《引力论》,这本由C.W.麦思纳(Charles W.Misner)、K.S.索恩(Kip S.Thorne)、J.A.惠勒(John Archibald Wheeler)联合编写的广义相对论教材,被誉为引力中的“《圣经》”。自从我看到它的信息开始,我就一直对它念念不忘,一直希望能找到那本台湾翻译的中文版。无奈天朝的各种因素,让我难以如愿。通过翻墙到PChome的全球购物,结合各种手段,我终于买到了这本《圣经》!

引力论1

引力论1

点击阅读全文...

7 Jul

百科翻译:草原上的狐狸(Swift Fox)

“维基百科”翻译又开始了,这次我们来关注下北美洲的一种珍贵动物——草原狐。
这个条目在中文的维基上没有出现过,但英文上有,现在我把它翻译过来了。由于只有两年的初中生物学习经验,所以一定有很多翻译不当的地方,请大家多提意见!谢谢

图片说明:草原狐,来自“维击百科”

图片说明:草原狐,来自“维击百科”

点击阅读全文...