包含关键字从动力学角度看优化算法的文章

10 Apr

从JL引理看熵不变性Attention

By 苏剑林 | 2023-04-10 | 34628位读者 | 引用

在《从熵不变性看Attention的Scale操作》、《熵不变性Softmax的一个快速推导》中笔者提出了熵不变性Softmax，简单来说就是往Softmax之前的Attention矩阵多乘上一个$\log n$，理论上有助于增强长度外推性，其中$n$是序列长度。$\log n$这个因子让笔者联系到了JL引理（Johnson-Lindenstrauss引理），因为JL引理告诉我们编码$n$个向量只需要$\mathcal{O}(\log n)$的维度就行了，大家都是$\log n$，这两者有没有什么关联呢？

熵不变性

我们知道，熵是不确定性的度量，用在注意力机制中，我们将它作为“集中注意力的程度”。所谓熵不变性，指的是不管序列长度$n$是多少，我们都要将注意力集中在关键的几个token上，而不要太过分散。为此，我们提出的熵不变性Attention形式为
\begin{equation}Attention(Q,K,V) = softmax\left(\frac{\log_{512} n}{\sqrt{d}}QK^{\top}\right)V\label{eq:core}\end{equation}

点击阅读全文...

分类：数学研究,信息时代标签：熵, attention 阅读全文 14 评论

8 Feb

MoE环游记：1、从几何意义出发

By 苏剑林 | 2025-02-08 | 21220位读者 | 引用

前两年福至心灵之下，开了一个“Transformer升级之路”系列，陆续分享了主流Transformer架构的一些改进工作和个人思考，得到了部份读者的认可。这篇文章开始，我们沿着同样的风格，介绍当前另一个主流架构MoE（Mixture of Experts）。

MoE的流行自不必多说，近来火出圈的DeepSeek-V3便是MoE架构，传言GPT-4也是MoE架构，国内最近出的一些模型也有不少用上了MoE。然而，虽然MoE的研究由来已久，但其应用长时间内都不愠不火，大致上是从去年初的《Mixtral of Experts》开始，MoE才逐渐吸引大家的注意力，其显著优点是参数量大，但训练和推理成本都显著低。

但同时MoE也有一些难题，如训练不稳定、负载不均衡、效果不够好等，这也是它早年没有流行起来的主要原因。不过随着这两年关注度的提升，这些问题在很大程度上已经得到解决，我们在接下来的介绍中会逐一谈到这些内容。

点击阅读全文...

分类：信息时代标签：模型, 几何, 稀疏, moe 阅读全文 49 评论

29 Aug

计算夏至的精确时刻2——提高精确度

By 苏剑林 | 2010-08-29 | 17029位读者 | 引用

之前曾经得到过一条计算夏至精确时间的公式，现在检验一下（之前推导是根据了2009年的数据）

公元Y年的夏至日期为该年的6月
$$21.9938+0.2422Y-\lfloor Y/4 \rfloor-\lfloor Y/400 \rfloor+\lfloor Y/100 \rfloor$$
其中$\lfloor x \rfloor$表示整数部分。

点击阅读全文...

分类：天文探索标签：节气, 夏至, 计算阅读全文抢沙发

4 Feb

[更新]将向量乘法“退化”到复数

By 苏剑林 | 2011-02-04 | 61266位读者 | 引用

向量有两个乘法：点乘和叉乘，其结果又分别叫做数量积和向量积。在很多情况下，用这两个定义的乘法运算都能够给我们带来很大的方便（其实它就是在实际问题中抽象出来的）。不过，也有相当一部分的二维问题用复数来描述更为简洁。于是，为了整合两者的巧妙之处，有必要把向量的两个乘法运算“退化”到复数中去（为什么用“退化”？因为向量是多维的，可以是3维、4维等，而复数运算只是二维的，很明显这是一种“退化”而不是“拓展”^_^）

运算法则：

点乘：
总法则：$Z_1 \cdot Z_2=|Z_1||Z_2|\cos(arg\frac{Z_2}{Z_1})$
$$\begin{aligned}1\cdot i=0 \\ i\cdot i=1 \\ \exp(i\theta)\cdot \exp(i\varphi)=\cos(\varphi -\theta) \\ iexp(i\theta)\cdot \exp(i\varphi)=-\sin(\theta-\varphi ) \\ Z_1 \cdot Z_2=Z_1 \bar{Z}_2+Z_2 \bar{Z}_1\end{aligned}$$

点击阅读全文...

分类：数学研究标签：向量, 复数阅读全文 10 评论

28 Sep

开始学习数学软件Scilab

By 苏剑林 | 2012-09-28 | 41907位读者 | 引用

其实很早之前我就想学习一款数学软件的使用，以前很感兴趣的是mathematica，也玩弄过一阵子，但毕竟在高中没有多大需要，也就没有坚持下来。更重要的是，这些软件都是要收费的。上了大学后，听了师兄姐对数学建模的讲述，发现他们基本上也是用mathematica或者matlab的，但这两个软件都是要收费的，我不大想用破解版本。既然我都已经用上了ubuntu了，那么我就该好好利用它。据说命令跟matlab很相似的软件是scilab，还有octave，不同的是这些都是开源免费的。

出于熟悉代码操作和数学软件编程的目的，我选择了学习scilab。虽然网上说octave与matlab的相似程度更高，但是我感觉scilab比octave用的更广一些，所以就用它。所谓“一理通百理明”，先专心学好一个。

下面是我编写的第一个scialb程序，利用威尔逊方法来进行素性测试。这个代码的主要目的是练习条件语句和循环语句，以及一些输出输入的技巧而已。程序本身比较丑陋。

//我的第一个scilab程序
//完成于2012.09.27

label1=['p:';];  //定义标签
B=x_mdialog(['本程序使用威尔逊方法判断进行素数测试。';'请输入要判断的数'],label1,['127';]);  //输入框
p=evstr(B(1));  //提取输入框里边的数字进行赋值
i=1;
j=1;
q=p-1;
while i<q
    j=j*i;
    j=modulo(j,p);//这个是模函数。
    i=i+1;
end
if j==1
    messagebox(['这是一个素数';],['测试结果']);  //输出，其中后边的“测试结果”是输入框的标题
else
    messagebox(['这是一个合数';],['测试结果']);
end

点击阅读全文...

分类：数学研究标签：编程, 代码, 数学软件, 开发, scilab 阅读全文 6 评论

17 Oct

两百万素数之和与“电脑病”

By 苏剑林 | 2014-10-17 | 16039位读者 | 引用

原则上来讲，同样的算法，如果分别在Python和C++上实现，那么Python的速度肯定比不上C++的。但是Python还被称为“胶水语言”，它允许我们把主要计算的部分用C或C++等高效的语言编写好，然后它作为“粘合剂”把两者粘合在一起。正因为如此，Python才有了各种各样的扩展库，这些库中有不少是用C语言编写的。因此，我们在编写Python程序的时候，如果可以用这些现成的库，速度会快很多。本文就是用Numpy来改进之前的《两百万前素数之和与前两百万素数之和》的计算。

算法本身是没有变的，只是用了Numpy来处理数组计算，代码如下：

点击阅读全文...

分类：生活/情感标签：python 阅读全文抢沙发

17 Jun

OCR技术浅探：1. 全文简述

By 苏剑林 | 2016-06-17 | 46391位读者 | 引用

写在前面：前面的博文已经提过，在上个月我参加了第四届泰迪杯数据挖掘竞赛，做的是A题，跟OCR系统有些联系，还承诺过会把最终的结果开源。最近忙于毕业、搬东西，一直没空整理这些内容，现在抽空整理一下。

把结果发出来，并不是因为结果有多厉害、多先进（相反，当我对比了百度的这篇论文《基于深度学习的图像识别进展：百度的若干实践》之后，才发现论文的内容本质上还是传统那一套，远远还跟不上时代的潮流），而是因为虽然OCR技术可以说比较成熟了，但网络上根本就没有对OCR系统进行较为详细讲解的文章，而本文就权当补充这部分内容吧。我一直认为，技术应该要开源才能得到发展（当然，在中国这一点也确实值得商榷，因为开源很容易造成山寨），不管是数学物理研究还是数据挖掘，我大多数都会发表到博客中，与大家交流。

点击阅读全文...

分类：信息时代标签：图像, 数据挖掘, OCR 阅读全文 7 评论

26 Jun

OCR技术浅探：9. 代码共享(完)

By 苏剑林 | 2016-06-26 | 72562位读者 | 引用

文件说明：

1. image.py——图像处理函数，主要是特征提取；
2. model_training.py——训练CNN单字识别模型（需要较高性能的服务器，最好有GPU加速，否则真是慢得要死）；
3. ocr.py——识别函数，包括单字分割、前面训练好的模型进行单字识别、动态规划提升效果；
4. main.py——主文件，用来调用1、3两个文件。
5、我们的模型中包含的字.txt(UTF-8编码)

点击阅读全文...

分类：信息时代标签：代码, 图像, OCR 阅读全文 18 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

从JL引理看熵不变性Attention

熵不变性

MoE环游记：1、从几何意义出发

计算夏至的精确时刻2——提高精确度

[更新]将向量乘法“退化”到复数

开始学习数学软件Scilab

两百万素数之和与“电脑病”

OCR技术浅探：1. 全文简述

OCR技术浅探：9. 代码共享(完)

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接