包含关键字从动力学角度看优化算法的文章

25 Oct

从费马大定理谈起（十二）：再谈谈切线法

By 苏剑林 | 2014-10-25 | 26493位读者 | 引用

首先谈点题外话，关于本系列以及本博客的写作。其实本博客的写作内容，代表了笔者在这段时间附近的研究成果。也就是说，我此时在写这篇文章，其实表明我这段时间正在研究这个问题。而接下来的研究是否有结果，有怎样的结果，则是完全不知道的。所以，我在写这篇文章的时候，并不确定下一篇文章会写些什么。有些类似的话题，我会放在同一个系列去写。但不管怎样，这些文章可能并不遵循常规的教学或者学习思路，有些内容还可能与主流的思想方法有相当出入，请读者见谅，望大家继续支持！

上一篇我们谈到了切线法来求二次和三次曲线的有理点。切线法在寻找不高于三次的曲线上的有理点是很成功的，可是对于更高次的曲线有没有类似的方法呢？换句话说，有没有推广的可能性。我们从纯代数的角度来回复一下切线法生效的原因。切线法，更一般的是割线法，能够起作用，主要是因为如果有理系数的三次方程有两个有理数的根，那么第三个根肯定是有理数。如果只有一个已知的有理根，那么就可以让两个根重合为已知的那个根，从而割线变成了切线。

点击阅读全文...

分类：数学研究标签：几何, 数论, 不定方程, 费马大定理, 有理点阅读全文 1 评论

13 Jan

当概率遇上复变：从二项分布到泊松分布

By 苏剑林 | 2015-01-13 | 25744位读者 | 引用

泊松分布，适合于描述单位时间内随机事件发生的次数的概率分布，如某一服务设施在一定时间内受到的服务请求的次数、汽车站台的候客人数等。^{[维基百科]}泊松分布也可以作为小概率的二项分布的近似，其推导过程在一般的概率论教材都会讲到。可是一般教材上给出的证明并不是那么让人赏心悦目，如《概率论与数理统计教程》（第二版，茆诗松等编）的第98页就给出的证明过程。那么，哪个证明过程才更让人点赞呢？我认为是利用母函数的证明。

二项分布的母函数为
$$\begin{equation}(q+px)^n,\quad q=1-p\end{equation}$$

点击阅读全文...

分类：数学研究标签：概率, 生成函数阅读全文抢沙发

21 Jul

从“0.999...等于1”说开来

By 苏剑林 | 2015-07-21 | 62874位读者 | 引用

从小学到大学都可能被问到的但却又不容易很好地回答的问题中，“0.999...究竟等不等于1”肯定也算是相当经典的一个。然而，要清楚地回答这个问题并不容易，很多时候被提问者都会不自觉地弄晕，甚至有些“民科”还以这个问题“创造了新数学”。

本文试图就这个问题，给出比较通俗但比较严谨的回答。

什么是相等？

要回答0.999...等不等于1，首先得定义“相等”！什么才算相等？难道真的要写出来一模一样才叫相等吗？如果是这样的话，那么2-1都不等于1了，因为2-1跟1看起来都不一样啊。

显然我们需要给“相等”做出比较严格但是又让人公认的定义，才能对相等进行判断，显然，下面的定义是能够让很多人接受的：

$a = b$等切仅当$|a-b|=0$。

点击阅读全文...

分类：数学研究标签：函数, 分析阅读全文 11 评论

1 Dec

“熵”不起：从熵、最大熵原理到最大熵模型（一）

By 苏剑林 | 2015-12-01 | 87210位读者 | 引用

熵的概念

作为一名物理爱好者，我一直对统计力学中“熵”这个概念感到神秘和好奇。因此，当我接触数据科学的时候，我也对最大熵模型产生了浓厚的兴趣。

熵是什么？在通俗的介绍中，熵一般有两种解释：（1）熵是不确定性的度量；（2）熵是信息的度量。看上去说的不是一回事，其实它们说的就是同一个意思。首先，熵是不确定性的度量，它衡量着我们对某个事物的“无知程度”。熵为什么又是信息的度量呢？既然熵代表了我们对事物的无知，那么当我们从“无知”到“完全认识”这个过程中，就会获得一定的信息量，我们开始越无知，那么到达“完全认识”时，获得的信息量就越大，因此，作为不确定性的度量的熵，也可以看作是信息的度量，说准确点，是我们能从中获得的最大的信息量。

点击阅读全文...

分类：数学研究标签：概率, 最大熵, 熵阅读全文 13 评论

11 Dec

“熵”不起：从熵、最大熵原理到最大熵模型（二）

By 苏剑林 | 2015-12-11 | 88787位读者 | 引用

上集回顾

在第一篇中，笔者介绍了“熵”这个概念，以及它的一些来龙去脉。熵的公式为
$$S=-\sum_x p(x)\log p(x)\tag{1}$$
或
$$S=-\int p(x)\log p(x) dx\tag{2}$$
并且在第一篇中，我们知道熵既代表了不确定性，又代表了信息量，事实上它们是同一个概念。

说完了熵这个概念，接下来要说的是“最大熵原理”。最大熵原理告诉我们，当我们想要得到一个随机事件的概率分布时，如果没有足够的信息能够完全确定这个概率分布（可能是不能确定什么分布，也可能是知道分布的类型，但是还有若干个参数没确定），那么最为“保险”的方案是选择使得熵最大的分布。

最大熵原理

承认我们的无知

很多文章在介绍最大熵原理的时候，会引用一句著名的句子——“不要把鸡蛋放在同一个篮子里”——来通俗地解释这个原理。然而，笔者窃以为这句话并没有抓住要点，并不能很好地体现最大熵原理的要义。笔者认为，对最大熵原理更恰当的解释是：承认我们的无知！

点击阅读全文...

分类：数学研究标签：概率, 极值, 最大熵, 熵阅读全文 19 评论

14 Oct

【理解黎曼几何】2. 从勾股定理到黎曼度量

By 苏剑林 | 2016-10-14 | 78132位读者 | 引用

黎曼度量

几何，英文名是Geometry，原意是大地测量。既然是测量，就必须有参考物，还有得知道如何计算距离。

有了参照物，我们就可以建立坐标系，把每个点的坐标都写下来，至于计算距离，我们有伟大的勾股定理：
$$ds^2 = dx^2 + dy^2 \tag{1} $$
但这里我们忽略了两个问题。

第一个问题是，我们不一定使用直角坐标系，如果使用极坐标，那么应该是
$$ds^2 = dr^2 + r^2 d\theta^2 \tag{2} $$
因此可以联想，最一般的形式应该是
$$ds^2 = E(x^1, x^2)(dx^1)^2 + 2F(x^1, x^2)dx^1 dx^2 + G(x^1, x^2)(dx^2)^2 \tag{3} $$
这里的$x^1,x^2$是广义坐标，使用上标而不是下标来标记序号，是为了跟传统的教材记号一致。那这公式是什么意思呢？其实很简单，正如我们没理由要求全世界都使用人民币一样，我们没必要要求世界各地都使用同一个坐标系，而更合理的做法是，每一处地方都使用自己的坐标系（局部坐标系），然后给出当地计算距离的方法。因此，上述公式正是说，在位置$(x^1, x^2)$处计算向量$(dx^1, dx^2)$的长度的公式（当地的勾股定理）是$ds^2 = E(x^1, x^2)(dx^1)^2 + 2F(x_1, x_2)dx^1 dx^2 + G(x^1, x^2)(dx^2)^2$。

点击阅读全文...

分类：数学研究标签：变换, 几何, 黎曼几何阅读全文 8 评论

8 Jun

互怼的艺术：从零直达WGAN-GP

By 苏剑林 | 2017-06-08 | 310554位读者 | 引用

前言

GAN，全称Generative Adversarial Nets，中文名是生成对抗式网络。对于GAN来说，最通俗的解释就是“伪造者-鉴别者”的解释，如艺术画的伪造者和鉴别者。一开始伪造者和鉴别者的水平都不高，但是鉴别者还是比较容易鉴别出伪造者伪造出来的艺术画。但随着伪造者对伪造技术的学习后，其伪造的艺术画会让鉴别者识别错误；或者随着鉴别者对鉴别技术的学习后，能够很简单的鉴别出伪造者伪造的艺术画。这是一个双方不断学习技术，以达到最高的伪造和鉴别水平的过程。然而，稍微深入了解的读者就会发现，跟现实中的造假者不同，造假者会与时俱进地使用新材料新技术来造假，而GAN最神奇而又让人困惑的地方是它能够将随机噪声映射为我们所希望的正样本，有噪声就有正样本，这不是无本生意吗，多划算～

另一个情况是，自从WGAN提出以来，基本上GAN的主流研究都已经变成了WGAN上去了，但WGAN的形式事实上已经跟“伪造者-鉴别者”差得比较远了。而且WGAN虽然最后的形式并不复杂，但是推导过程却用到了诸多复杂的数学，使得我无心研读原始论文。这迫使我要找从一条简明直观的线索来理解GAN。幸好，经过一段时间的思考，有点收获。

点击阅读全文...

分类：信息时代标签：概率, 无监督, GAN, 生成模型阅读全文 110 评论

7 Jul

从SamplePairing到mixup：神奇的正则项

By 苏剑林 | 2018-07-07 | 83653位读者 | 引用

SamplePairing和mixup是两种一脉相承的图像数据扩增手段，它们看起来很不合理，而操作则非常简单，但结果却非常漂亮：在多个图像分类任务中都表明它们能提高最终分类模型的精度。

某些读者会困惑于一个问题：为什么如此不合理的数据扩增手段，能得到如此好的效果？而本文则要表明，它们看起来是一种数据扩增方法，事实上它们是对模型的一种正则化方案。正如周星驰的电影《国产凌凌漆》的一句经典台词：

表面上看这是一个吹风机，其实它是一个刮胡刀。

数据扩增

让我们从数据扩增说起。数据扩增是指我们在对原始数据做一些简单的变换后，它们对应的类别往往不会变化，所以我们可以在原来数据的基础上，“造”出更多的数据来。比如一幅小狗的照片，将它水平翻转、轻微的旋转、裁剪、平移等操作后，我们认为它的类别没有变化，它还是原来的那只狗。这样一来，从一个样本我们可以衍生出好几个样本，从而增加了训练样本量。

狗

旋转的狗

点击阅读全文...

分类：信息时代标签：模型阅读全文 15 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

从费马大定理谈起（十二）：再谈谈切线法

当概率遇上复变：从二项分布到泊松分布

从“0.999...等于1”说开来

什么是相等？

“熵”不起：从熵、最大熵原理到最大熵模型（一）

熵的概念

“熵”不起：从熵、最大熵原理到最大熵模型（二）

上集回顾

最大熵原理

承认我们的无知

【理解黎曼几何】2. 从勾股定理到黎曼度量

黎曼度量

互怼的艺术：从零直达WGAN-GP

前言

从SamplePairing到mixup：神奇的正则项

数据扩增

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接