包含关键字《自然极值》系列的文章 - 科学空间|Scientific Spaces

27 Jun

从动力学角度看优化算法（一）：从SGD到动量加速

By 苏剑林 | 2018-06-27 | 170151位读者 | 引用

在这个系列中，我们来关心优化算法，而本文的主题则是SGD（stochastic gradient descent，随机梯度下降），包括带Momentum和Nesterov版本的。对于SGD，我们通常会关心的几个问题是：

SGD为什么有效？
SGD的batch size是不是越大越好？
SGD的学习率怎么调？
Momentum是怎么加速的？
Nesterov为什么又比Momentum稍好？
...

这里试图从动力学角度分析SGD，给出上述问题的一些启发性理解。

梯度下降

既然要比较谁好谁差，就需要知道最好是什么样的，也就是说我们的终极目标是什么？

训练目标分析

假设全部训练样本的集合为$\boldsymbol{S}$，损失度量为$L(\boldsymbol{x};\boldsymbol{\theta})$，其中$\boldsymbol{x}$代表单个样本，而$\boldsymbol{\theta}$则是优化参数，那么我们可以构建损失函数
$$L(\boldsymbol{\theta}) = \frac{1}{|\boldsymbol{S}|}\sum_{\boldsymbol{x}\in\boldsymbol{S}} L(\boldsymbol{x};\boldsymbol{\theta})\tag{1}$$
而训练的终极目标，则是找到$L(\boldsymbol{\theta})$的一个全局最优点（这里的最优是“最小”的意思）。

点击阅读全文...

分类：数学研究标签：微分方程, 动力学, 数值计算, 优化器阅读全文 43 评论

2 Dec

最小熵原理（四）：“物以类聚”之从图书馆到词向量

By 苏剑林 | 2018-12-02 | 98798位读者 | 引用

从第一篇看下来到这里，我们知道所谓“最小熵原理”就是致力于降低学习成本，试图用最小的成本完成同样的事情。所以整个系列就是一个“偷懒攻略”。那偷懒的秘诀是什么呢？答案是“套路”，所以本系列又称为“套路宝典”。

本篇我们介绍图书馆里边的套路。

先抛出一个问题：词向量出现在什么时候？是2013年Mikolov的Word2Vec？还是是2003年Bengio大神的神经语言模型？都不是，其实词向量可以追溯到千年以前，在那古老的图书馆中...

图书馆一角（图片来源于百度搜索）

走进图书馆

图书馆里有词向量？还是千年以前？在哪本书？我去借来看看。

放书的套路

其实不是哪本书，而是放书的套路。

很明显，图书馆中书的摆放是有“套路”的：它们不是随机摆放的，而是分门别类地放置的，比如数学类放一个区，文学类放一个区，计算机类也放一个区；同一个类也有很多子类，比如数学类中，数学分析放一个子区，代数放一个子区，几何放一个子区，等等。读者是否思考过，为什么要这么分类放置？分类放置有什么好处？跟最小熵又有什么关系？

点击阅读全文...

分类：信息时代标签：熵, 聚类, 词向量, 无监督, 最小熵阅读全文 20 评论

26 Jul

一道自然数的数学题

By 苏剑林 | 2009-07-26 | 31185位读者 | 引用

感觉题目有点像抽屉原理，不过似乎复杂一点：

有12个互不相等的自然数，它们均小于37，求证：这些自然数两两相减的差中，至少有3个相等

我的解答：

点击阅读全文...

分类：数学研究标签：自然数, 抽屉原理阅读全文 3 评论

21 Feb

大自然的隐身术——保护色

By 苏剑林 | 2010-02-21 | 37679位读者 | 引用

草蜢

保护色（Crypsis）和拟态现象都表现为与环境色彩相似，不易被识别，保护色表现为与环境色彩相似，这里的“环境色彩”应是环境中主要的占优势的色彩，如春夏的草坪是绿色，冬天的雪地是白色；拟态是与环境中某种生物或非生物相似，而这种生物或非生物的颜色等特征并不一定在环境中占优势，并非主要色彩，保护色则与运动状态基本无关，如枯叶蝶停息在树枝上的模样像枯叶，“停息”状态才像枯叶，一旦飞舞起来就不像了。而我们捕捉昆虫也许都有这种体验：有时看到昆虫由这里飞向另一个地方，但马上在另一个地方搜寻，却不能立即找到。

点击阅读全文...

分类：生物自然标签：动物, 昆虫阅读全文抢沙发

23 Jan

分享一个slide：花式自然语言处理

By 苏剑林 | 2018-01-23 | 86083位读者 | 引用

花式自然语言处理

这是前两天在华南师范大学进行交流的时候所用的slide，主要介绍了自然语言处理的一些技巧。

这个slide的出发点是：国内高校很多搞NLP的小组基本都停留在RNN的思维中，所以我介绍了CNN、Attention的一些内容，并且介绍了模型训练的一些技巧，等等。内容其实比较简短，但考虑到不少概念对于多数同学来说都是新的，因此信息量还是蛮大的。

这也是我第一次尝试用$\LaTeX$来做slide，感觉也没有想象中那么难，做出来的效果还是挺清新明了的，以后要多练习～

点击阅读全文...

分类：信息时代标签：深度学习, 自然语言处理阅读全文 14 评论

20 Sep

自然数集中 N = ab + c 时 a + b + c 的最小值

By 苏剑林 | 2023-09-20 | 41887位读者 | 引用

前天晚上微信群里有群友提出了一个问题：

对于一个任意整数$N > 100$，求一个近似算法，使得$N=a\times b+c$（其中$a,b,c$都是非负整数），并且令$a+b+c$尽量地小。

初看这道题，笔者第一感觉就是“这还需要算法？”，因为看上去自由度太大了，应该能求出个解析解才对，于是简单分析了一下之后就给出了个“答案”，结果很快就有群友给出了反例。这时，笔者才意识到这题并非那么平凡，随后正式推导了一番，总算得到了一个可行的算法。正当笔者以为这个问题已经结束时，另一个数学群的群友精妙地构造了新的参数化，证明了算法的复杂度还可以进一步下降！

整个过程波澜起伏，让笔者获益匪浅，遂将过程记录在此，与大家分享。

点击阅读全文...

分类：数学研究,问题百科标签：最优, 问题阅读全文 14 评论

30 Apr

蘑菇的最优形状模型

By 苏剑林 | 2011-04-30 | 48577位读者 | 引用

淡白口蘑

达尔文的进化学说告诉我们，自然界总是在众多的生物中挑出最能够适应环境的物种，赋予它们更高的生存几率，久而久之，这些物种经过亿万年的“优胜劣汰”，进化成了今天的千奇百怪的生物。无疑，经过长期的选择，优良的形状会被累积下来，换句话讲，这些物种在某些环境适应能力方面已经达到最优或近乎最优的状态（又是一个极值问题了）。好，现在我们来考虑蘑菇。

蘑菇是一种真菌生物，一般生长在阴暗潮湿的环境中。喜欢湿润的它自然也不希望散失掉过多的水分，因此，它努力地调整自身的形状，使它的“失水”尽可能地少。假设单位面积的蘑菇的失水速度是一致的，那么问题就变成了使一个给定体积的立体表面积尽可能少的问题了。并且考虑到水平各向同性生长的问题，理想的蘑菇形状应该就是一个平面图形的旋转体。那么这个旋转体是什么呢？聪明的你是否想到了是一个球体（的一部分）呢？

点击阅读全文...

分类：数学研究,生物自然标签：模型, 自然, 最优, 变分, 进化阅读全文 7 评论

11 Dec

“熵”不起：从熵、最大熵原理到最大熵模型（二）

By 苏剑林 | 2015-12-11 | 88596位读者 | 引用

上集回顾

在第一篇中，笔者介绍了“熵”这个概念，以及它的一些来龙去脉。熵的公式为
$$S=-\sum_x p(x)\log p(x)\tag{1}$$
或
$$S=-\int p(x)\log p(x) dx\tag{2}$$
并且在第一篇中，我们知道熵既代表了不确定性，又代表了信息量，事实上它们是同一个概念。

说完了熵这个概念，接下来要说的是“最大熵原理”。最大熵原理告诉我们，当我们想要得到一个随机事件的概率分布时，如果没有足够的信息能够完全确定这个概率分布（可能是不能确定什么分布，也可能是知道分布的类型，但是还有若干个参数没确定），那么最为“保险”的方案是选择使得熵最大的分布。

最大熵原理

承认我们的无知

很多文章在介绍最大熵原理的时候，会引用一句著名的句子——“不要把鸡蛋放在同一个篮子里”——来通俗地解释这个原理。然而，笔者窃以为这句话并没有抓住要点，并不能很好地体现最大熵原理的要义。笔者认为，对最大熵原理更恰当的解释是：承认我们的无知！

点击阅读全文...

分类：数学研究标签：概率, 极值, 最大熵, 熵阅读全文 19 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

从动力学角度看优化算法（一）：从SGD到动量加速

梯度下降

训练目标分析

最小熵原理（四）：“物以类聚”之从图书馆到词向量

走进图书馆

放书的套路

一道自然数的数学题

大自然的隐身术——保护色

分享一个slide：花式自然语言处理

自然数集中 N = ab + c 时 a + b + c 的最小值

蘑菇的最优形状模型

“熵”不起：从熵、最大熵原理到最大熵模型（二）

上集回顾

最大熵原理

承认我们的无知

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接