包含关键字从费马大定理谈起的文章 - 科学空间|Scientific Spaces

19 Dec

让炼丹更科学一些（一）：SGD的平均损失收敛

By 苏剑林 | 2023-12-19 | 35282位读者 | 引用

很多时候我们将深度学习模型的训练过程戏称为“炼丹”，因为整个过程跟古代的炼丹术一样，看上去有一定的科学依据，但整体却给人一种“玄之又玄”的感觉。尽管本站之前也关注过一些优化器相关的工作，甚至也写过《从动力学角度看优化算法》系列，但都是比较表面的介绍，并没有涉及到更深入的理论。为了让以后的炼丹更科学一些，笔者决定去补习一些优化相关的理论结果，争取让炼丹之路多点理论支撑。

在本文中，我们将学习随机梯度下降（SGD）的一个非常基础的收敛结论。虽然现在看来，该结论显得很粗糙且不实用，但它是优化器收敛性证明的一次非常重要的尝试，特别是它考虑了我们实际使用的是随机梯度下降（SGD）而不是全量梯度下降（GD）这一特性，使得结论更加具有参考意义。

问题设置

设损失函数是$L(\boldsymbol{x},\boldsymbol{\theta})$，其实$\boldsymbol{x}$是训练集，而$\boldsymbol{\theta}\in\mathbb{R}^d$是训练参数。受限于算力，我们通常只能执行随机梯度下降（SGD），即每步只能采样一个训练子集来计算损失函数并更新参数，假设采样是独立同分布的，第$t$步采样到的子集为$\boldsymbol{x}_t$，那么我们可以合理地认为实际优化的最终目标是
\begin{equation}L(\boldsymbol{\theta}) = \lim_{T\to\infty}\frac{1}{T}\sum_{t=1}^T L(\boldsymbol{x}_t,\boldsymbol{\theta})\label{eq:loss}\end{equation}

点击阅读全文...

分类：信息时代标签：不等式, 优化器, sgd, 炼丹阅读全文 6 评论

24 May

重温SSM（一）：线性系统和HiPPO矩阵

By 苏剑林 | 2024-05-24 | 38294位读者 | 引用

前几天，笔者看了几篇介绍SSM（State Space Model）的文章，才发现原来自己从未认真了解过SSM，于是打算认真去学习一下SSM的相关内容，顺便开了这个新坑，记录一下学习所得。

SSM的概念由来已久，但这里我们特指深度学习中的SSM，一般认为其开篇之作是2021年的S4，不算太老，而SSM最新最火的变体大概是去年的Mamba。当然，当我们谈到SSM时，也可能泛指一切线性RNN模型，这样RWKV、RetNet还有此前我们在《Google新作试图“复活”RNN：RNN能否再次辉煌？》介绍过的LRU都可以归入此类。不少SSM变体致力于成为Transformer的竞争者，尽管笔者并不认为有完全替代的可能性，但SSM本身优雅的数学性质也值得学习一番。

尽管我们说SSM起源于S4，但在S4之前，SSM有一篇非常强大的奠基之作《HiPPO: Recurrent Memory with Optimal Polynomial Projections》（简称HiPPO），所以本文从HiPPO开始说起。

点击阅读全文...

分类：数学研究标签：微分方程, 线性, RNN, ssm 阅读全文 41 评论

26 Sep

利用“熄火保护 + 通断器”实现燃气灶智能关火

By 苏剑林 | 2024-09-26 | 12050位读者 | 引用

燃气灶智能化主要有两个方向：一是检测开关火状态，实现跟抽油烟机等其他设备的联动；二是实现智能关火，这包括定时关火以及接入米家（或者其他智能家居）实现语音关火、远程关火等。目前带有这两点功能的燃气灶选择并不多，并且相比普通燃气灶贵不少，单纯为了这两点功能而换一个新燃气灶并不划算，所以就出现了一些将普通燃气灶智能化的的魔改方案。

接入方案示意图

本文主要分享基于燃气灶自带的熄火保护装置，利用通断器将燃气灶接入米家，实现智能关火功能。

点击阅读全文...

分类：生活/情感标签：生活, 智能家居, 米家阅读全文 3 评论

6 Nov

VQ的又一技巧：给编码表加一个线性变换

By 苏剑林 | 2024-11-06 | 4347位读者 | 引用

在《VQ的旋转技巧：梯度直通估计的一般推广》中，我们介绍了VQ（Vector Quantization）的Rotation Trick，它的思想是通过推广VQ的STE（Straight-Through Estimator）来为VQ设计更好的梯度，从而缓解VQ的编码表坍缩、编码表利用率低等问题。

无独有偶，昨天发布在arXiv上的论文《Addressing Representation Collapse in Vector Quantized Models with One Linear Layer》提出了改善VQ的另一个技巧：给编码表加一个线性变换。这个技巧单纯改变了编码表的参数化方式，不改变VQ背后的理论框架，但实测效果非常优异，称得上是简单有效的经典案例。

点击阅读全文...

分类：数学研究,信息时代标签：生成模型, 编码, 梯度, 离散化阅读全文 5 评论

20 Sep

一道从小学到高中都可能考到的题目

By 苏剑林 | 2009-09-20 | 35106位读者 | 引用

这是一道很多时候都会考到的题目：
比较$n^{n+1}$与$(n+1)^n$的大小（其中n非负）。

在小学我们会使用直接计算；
在初中我们会从一些例子找规律；
在高中我们就会直接去证明了。

点击阅读全文...

分类：数学研究标签：证明, 不等式, 指数, 对数阅读全文 5 评论

7 Oct

背景资料：从数字看诺贝尔物理学奖

By 苏剑林 | 2009-10-07 | 15022位读者 | 引用

2009年诺贝尔物理学奖于6日公布，英国华裔科学家高锟以及美国科学家威拉德·博伊尔和乔治·史密斯摘得桂冠。以下是关于诺贝尔物理学奖的一些数字：

1、诺贝尔物理学奖从1901年开始颁奖，但并非年年颁奖，1916年、1931年、1934年、1940年、1941年和1942年都没有颁奖。之所以这6年没颁奖，是因为第一次世界大战和第二次世界大战的发生，或因为没有人符合获得诺贝尔奖的那些条件。

2、到今年为止，一名科学家独享诺贝尔物理学奖有47次，而两名科学家和三名科学家分享诺贝尔物理学奖的次数相同，都是28次。按诺贝尔基金会的规定，不会有3人以上同时获得一个奖项。

点击阅读全文...

分类：千奇百怪标签：物理, 诺贝尔奖专题阅读全文抢沙发

17 Jun

从牛顿力学角度研究宇宙学

By 苏剑林 | 2010-06-17 | 47117位读者 | 引用

Universe_expansion

不少天文爱好者对宇宙学这方面的内容“听而生畏”，觉得没有爱因斯坦的广义相对论等复杂理论基础是不可理解的。的确，这种观点没有错，当前的宇宙学对宇宙的精确描述，的确是建立在广义相对论和量子力学等理论的基础之上的。BoJone也只是在书上略略浏览，根本谈不上有什么了解。但是，对于一般的天文爱好者来说，只要对牛顿力学和微积分有一定的了解，就可以对我们的宇宙有一个大概的描述，也能够得出很多令人惊喜的结论。相信进行了这项工作之后，很多爱好者都会改观：原来宇宙学也并不是那么难...并且能够得出这样的一个结论：广义相对论虽然对牛顿引力理论进行了彻底的改革，但是从数学的角度来讲，它仅仅对牛顿力学进行了修正。

点击阅读全文...

分类：天文探索标签：力学, 宇宙学阅读全文 10 评论

13 Jan

当概率遇上复变：从二项分布到泊松分布

By 苏剑林 | 2015-01-13 | 24487位读者 | 引用

泊松分布，适合于描述单位时间内随机事件发生的次数的概率分布，如某一服务设施在一定时间内受到的服务请求的次数、汽车站台的候客人数等。^{[维基百科]}泊松分布也可以作为小概率的二项分布的近似，其推导过程在一般的概率论教材都会讲到。可是一般教材上给出的证明并不是那么让人赏心悦目，如《概率论与数理统计教程》（第二版，茆诗松等编）的第98页就给出的证明过程。那么，哪个证明过程才更让人点赞呢？我认为是利用母函数的证明。

二项分布的母函数为
$$\begin{equation}(q+px)^n,\quad q=1-p\end{equation}$$

点击阅读全文...

分类：数学研究标签：概率, 生成函数阅读全文抢沙发

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

让炼丹更科学一些（一）：SGD的平均损失收敛

问题设置

重温SSM（一）：线性系统和HiPPO矩阵

利用“熄火保护 + 通断器”实现燃气灶智能关火

VQ的又一技巧：给编码表加一个线性变换

一道从小学到高中都可能考到的题目

背景资料：从数字看诺贝尔物理学奖

从牛顿力学角度研究宇宙学

当概率遇上复变：从二项分布到泊松分布

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接