包含关键字从动力学角度看优化算法的文章

15 Feb

积分估计的极值原理——变分原理的初级版本

By 苏剑林 | 2016-02-15 | 37437位读者 | 引用

如果一直关注科学空间的朋友会发现，笔者一直对极值原理有偏爱。比如，之前曾经写过一系列《自然极值》的文章，介绍一些极值问题和变分法；在物理学中，笔者偏爱最小作用量原理的形式；在数据挖掘中，笔者也因此对基于最大熵原理的最大熵模型有浓厚的兴趣；最近，在做《量子力学与路径积分》的习题中，笔者也对第十一章所说的变分原理产生了很大的兴趣。

对于一样新东西，笔者的学习方法是以一个尽可能简单的例子搞清楚它的原理和思想，然后再逐步复杂化，这样子我就不至于迷失了。对于变分原理，它是估算路径积分的一个很强大的方法，路径积分是泛函积分，或者说，无穷维积分，那么很自然想到，对于有限维的积分估计，比如最简单的一维积分，有没有类似的估算原理呢？事实上是有的，它并不复杂，弄懂它有助于了解变分原理的核心思想。很遗憾，我并没有找到已有的资料描述这个简化版的原理，可能跟我找的资料比较少有关。

从高斯型积分出发

变分原理本质上是Jensen不等式的应用。我们从下述积分出发
$$\begin{equation}\label{jifen}I(\epsilon)=\int_{-\infty}^{\infty}e^{-x^2-\epsilon x^4}dx\end{equation}$$

点击阅读全文...

分类：数学研究标签：不等式, 积分, 极值阅读全文 2 评论

18 May

调侃：万有引力与爱因斯坦的理论

By 苏剑林 | 2016-05-18 | 51281位读者 | 引用

我不是研究引力的，也没有很好地学习过引力。在理论物理方面，我学习经典力学和量子力学比学习广义相对论要多得多。因此，本来我是不应该谈引力的，以免误人子弟。不过，在一次坐车的途中，司机的刹车和加速让我联想到了一些跟引力有关的东西，自我感觉比较有趣，所以发给大家分享一下，也请大家指正。

等效原理

坐汽车

引力，准确来说应该是“万有引力”。所谓“万有”，有两个含义：1、所有物体都能够产生引力；2、所有物体都被引力影响。一个力居然是“万有”的，这让爱因斯坦感觉到非常奇怪，这也是四种基本力之中，引力跟其他力区别最明显的地方。相比之下，电磁相互作用力就只能存在于有“电”的地方，弱相互作用只存在于费米子，等等。

除了引力之外，我们平时还遇到过什么“万有”的力吗？貌似没有。但是我们想象一下，当你坐在一辆长途大巴匀速前进时，突然司机来了一个急刹车，在刹车的那一瞬间，所有人都往前倾了，不仅如此，可能你的行李箱、你的随身物品都往前移的，事实上，车上所有东西都受到了一个往前的力！对于那辆车上的人和物来说，刹车的那一瞬间，就存在着一个“万有”的力！

点击阅读全文...

分类：物理化学标签：引力, 相对论, 力学阅读全文 7 评论

9 Jun

路径积分系列：5.例子和综述

By 苏剑林 | 2016-06-09 | 23620位读者 | 引用

路径积分方法为解决某些随机问题带来了新视角.

一个例子：股票价格模型

考虑有风险资产(如股票)，在$t$时刻其价格为$S_t$，考虑的时间区间为$[0,T]$，0表示初始时间，$T$表示为到期日. $S_t$看作是随时间变化的连续时间变量，并服从下列随机微分方程:
$$dS_t^0=rS_t^0 dt;\quad dS_t=S_t(\mu dt+\sigma dW_t).\tag{70}$$
其中，$\mu$和$\sigma$是两个常量，$W_t$是一个标准布朗运动.

关于$S_t$的方程是一个随机微分方程，一般解决思路是通过随机微积分. 随机微积分有别于一般的微积分的地方在于，随机微积分在做一阶展开的时候，不能忽略$dS_t^2$项，因为$dW_t^2=dt$. 比如，设$S_t=e^{x_t}$，则$x_t=\ln S_t$
$$\begin{aligned}dx_t=&\ln(S_t+dS_t)-\ln S_t=\frac{dS_t}{S_t}-\frac{dS_t^2}{2S_t^2}\\
=&\frac{S_t(\mu dt+\sigma dW_t)}{S_t}-\frac{[S_t(\mu dt+\sigma dW_t)]^2}{2S_t^2}\\
=&\mu dt+\sigma dW_t-\frac{1}{2}\sigma^2 dW_t^2\quad(\text{其余项均低于}dt\text{阶})\\
=&\left(\mu-\frac{1}{2}\sigma^2\right) dt+\sigma dW_t\end{aligned}
,\tag{71}$$

点击阅读全文...

分类：数学研究标签：微分方程, 微分, 路径积分, 金融阅读全文抢沙发

2 Nov

【理解黎曼几何】8. 处处皆几何 (力学几何化)

By 苏剑林 | 2016-11-02 | 61576位读者 | 引用

黎曼几何在广义相对论中的体现和应用，虽然不能说家喻户晓，但想必大部分读者都有所听闻。一谈到黎曼几何在物理学中的应用，估计大家的第一反应就是广义相对论。常见的观点是，广义相对论的发现大大推动了黎曼几何的发展。诚然，这是事实，然而，大多数人不知道的事，哪怕经典的牛顿力学中，也有黎曼几何的身影。

本文要谈及的内容，就是如何将力学几何化，从而使用黎曼几何的概念来描述它们。整个过程事实上是提供了一种框架，它可以将不少其他领域的理论纳入到黎曼几何体系中。

黎曼几何的出发点就是黎曼度量，通过黎曼度量可以通过变分得到测地线。从这个意义上来看，黎曼度量提供了一个变分原理。那反过来，一个变分原理，能不能提供一个黎曼度量呢？众所周知，不少学科的基础原理都可以归结为一个极值原理，而有了极值原理就不难导出变分原理（泛函极值），如物理中就有最小作用量原理、最小势能原理，概率论中有最大熵原理，等等。如果有一个将变分原理导出黎曼度量的方法，那么就可以用几何的方式来描述它。幸运的是，对于二次型的变分原理，是可以做到的。

点击阅读全文...

分类：数学研究,物理化学标签：力学, 几何, 作用量, 黎曼几何阅读全文 6 评论

18 Oct

【理解黎曼几何】5. 黎曼曲率

By 苏剑林 | 2016-10-18 | 57634位读者 | 引用

现在我们来关注黎曼曲率。总的来说，黎曼曲率提供了一种方案，让身处空间内部的人也能计算自身所处空间的弯曲程度。俗话说，“不识庐山真面目，只缘身在此山中”，还有“当局者迷，旁观者清”，等等，因此，能够身处空间之中而发现空间中的弯曲与否，是一件很了不起的事情，就好像我们已经超越了我们现有的空间，到了更高维的空间去“居高临下”那样。真可谓“心有多远，路就有多远，世界就有多远”。

如果站在更高维空间的角度看，就容易发现空间的弯曲。比如弯曲空间中有一条测地线，从更高维的空间看，它就是一条曲线，可以计算曲率等，但是在原来的空间看，它就是直的，测地线就是直线概念的一般化，因此不可能通过这种途径发现空间的弯曲性，必须有一些迂回的途径。可能一下子不容易想到，但是各种途径都殊途同归后，就感觉它是显然的了。

怎么更好地导出黎曼曲率来，使得它能够明显地反映出弯曲空间跟平直空间的本质区别呢？为此笔者思考了很长时间，看了不少参考书（《引力与时空》、《场论》、《引力论》等），比较了几种导出黎曼曲率的方式，简要叙述如下。

点击阅读全文...

分类：数学研究标签：几何, 曲率, 黎曼几何阅读全文抢沙发

6 Nov

【外微分浅谈】5. 几何意义

By 苏剑林 | 2016-11-06 | 74262位读者 | 引用

对于前面所述的外微分，包括后面还略微涉及到的微分形式的积分，都是纯粹代数定义的内容，本身不具有任何的几何意义。但是，我们可以将某些公式或者定义，与一些几何内容对应起来，使我们更深刻地理解它，并且更灵活运用它。但是，它仅仅是一种对应，而且取决于我们的诠释。比如，我们说外微分公式
$$\int_{\partial D} Pdx+Qdy = \int_{D} \left(\frac{\partial Q}{\partial x}-\frac{\partial P}{\partial y}\right)dx\land dy \tag{32} $$
对应于格林公式
$$\int_{\partial D} Pdx+Qdy = \int_{D} \left(\frac{\partial Q}{\partial x}-\frac{\partial P}{\partial y}\right)dxdy \tag{33} $$
。这是没问题的，但它们并不等价，它们仅仅是形式上刚好一样。因为格林公式是描述闭合曲线的积分跟面积分的联系，而外微分的公式是一种纯粹的代数运算。因为你完全可以将$dx\land dy$对应于$-dxdy$而不是$dxdy$，这样就得到另外一种几何的对应。

更深刻的问题是：为什么恰好有这个对应？也就是说，为什么经过一些调整和诠释后，就能够得到与积分公式的对应？首先要明确的是外积与普通的数的乘积，除了反对称性之外，是没有任何区别的，因此不少性质得以保留；其次，还应该要回到反对称本身来考虑，矩阵的行列式代表着矩阵所对应的向量组张成的$n$维立体的体积，然而行列式是反对称的，这就意味着反对称运算跟体积、积分等有着先天的联系。当然，更细致的认识，笔者也还没做到。

此外，我们说寻求微分形式的几何意义，通常只是针对不超过3维的空间来讨论的，更高维的几何图像我们很难想象出来，尤其是高维的曲面积分，一般只是类比，但类比是否成立，有时还需要进一步商榷。因此，这种情况下，倒不如干脆点，说微分形式描述的东西就是几何，而不再去寻找所谓的几何意义了。也就是说，反过来，将微分形式和外微分作为公理式的第一性原理来定义几何。

甚至，你可以只将外微分当作是一种记忆各种微分、积分公式的有效途径，比如现在我要大家默写三维空间中的斯托克斯公式，大家估计会乱，因为不一定记得是哪个减哪个。但是在外微分框架下，可以很快地将它推导一遍。好比式$(11)$，如果非要寻求几何解释，那就是开普勒第二定律：单位时间内扫过的面积相等；然而没有几何解释，你依旧可以把方程解下去。

点击阅读全文...

分类：数学研究标签：积分, 几何, 外微分阅读全文 9 评论

19 Nov

更别致的词向量模型(三)：描述相关的模型

By 苏剑林 | 2017-11-19 | 125844位读者 | 引用

几何词向量

上述“月老”之云虽说只是幻想，但所面临的问题却是真实的。按照传统NLP的手段，我们可以统计任意两个词的共现频率以及每个词自身的频率，然后去算它们的相关度，从而得到一个“相关度矩阵”。然而正如前面所说，这个共现矩阵太庞大了，必须压缩降维，同时还要做数据平滑，给未出现的词对的相关度赋予一个合理的估值。

在已有的机器学习方案中，我们已经有一些对庞大的矩阵降维的经验了，比如SVD和pLSA，SVD是对任意矩阵的降维，而pLSA是对转移概率矩阵$P(j|i)$的降维，两者的思想是类似的，都是将一个大矩阵$\boldsymbol{A}$分解为两个小矩阵的乘积$\boldsymbol{A}\approx\boldsymbol{B}\boldsymbol{C}$，其中$\boldsymbol{B}$的行数等于$\boldsymbol{A}$的行数，$\boldsymbol{C}$的列数等于$\boldsymbol{A}$的列数，而它们本身的大小则远小于$\boldsymbol{A}$的大小。如果对$\boldsymbol{B},\boldsymbol{C}$不做约束，那么就是SVD；如果对$\boldsymbol{B},\boldsymbol{C}$做正定归一化约束，那就是pLSA。

但是如果是相关度矩阵，那么情况不大一样，它是正定的但不是归一的，我们需要为它设计一个新的压缩方案。借鉴矩阵分解的经验，我们可以设想把所有的词都放在$n$维空间中，也就是用$n$维空间中的一个向量来表示，并假设它们的相关度就是内积的某个函数（为什么是内积？因为矩阵乘法本身就是不断地做内积）：
\[\frac{P(w_i,w_j)}{P(w_i)P(w_j)}=f\big(\langle \boldsymbol{v}_i, \boldsymbol{v}_j\rangle\big)\tag{8}\]
其中加粗的$\boldsymbol{v}_i, \boldsymbol{v}_j$表示词$w_i,w_j$对应的词向量。从几何的角度看，我们就是把词语放置到了$n$维空间中，用空间中的点来表示一个词。

因为几何给我们的感觉是直观的，而语义给我们的感觉是复杂的，因此，理想情况下我们希望能够通过几何关系来反映语义关系。下面我们就根据我们所希望的几何特性，来确定待定的函数$f$。事实上，glove词向量的那篇论文中做过类似的事情，很有启发性，但glove的推导实在是不怎么好看。请留意，这里的观点是新颖的——从我们希望的性质，来确定我们的模型，而不是反过来有了模型再推导性质。

机场-飞机+火车=火车站

点击阅读全文...

分类：信息时代标签：词向量, glove 阅读全文 27 评论

29 Nov

Dropout视角下的MLM和MAE：一些新的启发

By 苏剑林 | 2021-11-29 | 79841位读者 | 引用

大家都知道，BERT的MLM（Masked Language Model）任务在预训练和微调时的不一致，也就是预训练出现了[MASK]而下游任务微调时没有[MASK]，是经常被吐槽的问题，很多工作都认为这是影响BERT微调性能的重要原因，并针对性地提出了很多改进，如XL-NET、ELECTRA、MacBERT等。本文我们将从Dropout的角度来分析MLM的这种不一致性，并且提出一种简单的操作来修正这种不一致性。

同样的分析还可以用于何凯明最近提出的比较热门的MAE（Masked Autoencoder）模型，结果是MAE相比MLM确实具有更好的一致性，由此我们可以引出一种可以能加快训练速度的正则化手段。

Dropout

首先，我们重温一下Dropout。从数学上来看，Dropout是通过伯努利分布来为模型引入随机噪声的操作，所以我们也简单复习一下伯努利分布。

点击阅读全文...

分类：信息时代标签：模型, 概率, 分析, 优化阅读全文 19 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

积分估计的极值原理——变分原理的初级版本

从高斯型积分出发

调侃：万有引力与爱因斯坦的理论

等效原理

路径积分系列：5.例子和综述

一个例子：股票价格模型

【理解黎曼几何】8. 处处皆几何 (力学几何化)

【理解黎曼几何】5. 黎曼曲率

【外微分浅谈】5. 几何意义

更别致的词向量模型(三)：描述相关的模型

几何词向量

机场-飞机+火车=火车站

Dropout视角下的MLM和MAE：一些新的启发

Dropout

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接