包含关键字变分自编码器的文章 - 科学空间|Scientific Spaces

11 Jan

几何的数与数的几何：超复数的浅探究

By 苏剑林 | 2014-01-11 | 50813位读者 | 引用

这也是我的期末论文之一...全文共17页，包括了四元数的构造方法，初等应用等。附录包括行列式与体积、三维旋转的描述等。使用LaTex进行写作（LaTex会让你爱上数学写作的）

几何的数与数的几何
――超复数的浅探究

摘要
今天，不论是数学还是物理的高维问题，都采用向量分析为基本工具，数学物理中难觅四元数的影子。然而在历史上，四元数的发展有着重要的意义。四元数（Quaternion）运算实际上是向量分析的“鼻祖”，向量点积和叉积的概念也首先出现在四元数的运算中，四元数的诞生还标记着非交换代数的开端。即使是现在，四元数还是计算机描述三维空间旋转问题最简单的工具。另外，作为复数的推广，四元数还为某些复数问题的一般化提供了思路。

本文把矩阵与几何适当地结合起来，利用矩阵行列式$\det (AB) =(\det A)(\det B)$这一性质得出了四元数以及更高维的超复数的生成规律，并讨论了它的一些性质以及它在描述旋转方面的应用。部分证明细节和不完善的思想放到了附录之中。

点击阅读全文...

分类：数学研究标签：代数, 几何, 复数, 矩阵阅读全文 10 评论

27 Jan

三个相切圆的公切圆

By 苏剑林 | 2014-01-27 | 63593位读者 | 引用

在学车的时候，我堂大哥曾问我一道作圆的问题：

三圆的外切圆和内切圆 (1)
平面上给出三个两两相切的圆以及它们的圆心，求作一个圆与这三个圆都相切（尺规作图）。

如果从纯几何的途径入手，我们甚至很难判断这样的圆是否存在。但是我之前似乎已经看过类似的题目，于是很快想到一个名词：反演。反演可以将圆反演成直线（圆过反演点），也可以将圆反演成圆（圆不过反演点），而其他的相切、相交等关系保持不变。对反演后的图形进行相同的反演，就变回原来的图形。本题的难点在于圆太多，利用反演，我们可以将它变为两条直线和一个圆的问题。

假设读者已经有了反演的基本知识，如果没有，请到
http://zh.wikipedia.org/wiki/反演

阅读相关内容。

点击阅读全文...

分类：数学研究,问题百科标签：尺规作图, 几何, 反演阅读全文 4 评论

19 Mar

一本对称闯物理：相对论力学(一)

By 苏剑林 | 2014-03-19 | 26784位读者 | 引用

简单说说

《可畏的对称》

笔者最近陶醉于从李对称的角度来理解力学和场论，并且计算得到一些比较有趣的结果，遂想在此与大家分享。我发现，仅仅需要一个描述对称的无穷小生成元和一些最基本的假设，几乎就可以完成地推导出整个相对论力学来，甚至推导出整个（经典）场论理论来。这确实是不可思议的，我现在能基本体会到当年徐一鸿大师写的《可畏的对称》的含义了。对称的威力如此之大，以至于我们真的不得不敬畏它。而在构思本文题目的时候，我也曾想到过用“可畏的对称”为题，但不免有抄袭和老套之嫌。后来想到曾有一部漫画叫《一本漫画闯天涯》，遂将“漫画”改成“对称”，“天涯”改成“物理”，似乎也能表达我对“对称”的感觉。

对称就是在某种变换下保持不变的性质，比如狭义相对论要求所有物理定律在所有惯性系中保持不变，这相对于要求描述物理定律的方程在匀速运动的坐标变换下保持不变，结合光速不变的要求，我们就可以推导出洛伦兹变换，从而完成地描述了狭义相对论里边的对称。然而，并不是任何时候都可以想推导洛伦兹变换那样，能够把一个完整的变换推导出来的。幸好，李对称的不需要完整的对称描述，它只需要“无穷小变换”（意味着我们可以忽略掉高阶项），对应地产生一个“无穷小生成元”，用这个无穷小生成元，就足以完整构建出我们所需要的物理来。这种“无穷小”决定“广泛”、“局部”决定“全局”的奇妙至今仍让我觉得不可思议。（关于李对称、无穷小生成元的基本概念，不妨先阅读：《求解微分方程的李对称方法》）

点击阅读全文...

分类：物理化学标签：相对论, 力学, 对称阅读全文 3 评论

27 Feb

从Knotsevich在黑板上写的级数题目谈起

By 苏剑林 | 2015-02-27 | 25125位读者 | 引用

某天在浏览高教社的“i数学”编辑的微博时候，发现上面有一道Knotsevich在黑板上写的他认为很有意思的题目，原始网址是：http://weibo.com/3271276117/BBrL5foVz。

Knotsevich在黑板上写的级数题目

题目是这样的
$$\sum_{n=0}^{\infty} \frac{n! (20n)!}{(4n)!(7n)!(10n)!}x^n\tag{1}$$
大概的目的是找出原函数的表达式吧。

点击阅读全文...

分类：数学研究标签：级数, 积分阅读全文 2 评论

2 May

寻求一个光滑的最大值函数

By 苏剑林 | 2015-05-02 | 100161位读者 | 引用

在最优化问题中，求一个函数的最大值或最小值，最直接的方法是求导，然后比较各阶极值的大小。然而，我们所要优化的函数往往不一定可导，比如函数中含有最大值函数$\max(x,y)$的。这时候就得求助于其他思路了。有一个很巧妙的思路是，将这些不可导函数用一个可导的函数来近似它，从而我们用求极值的方法来求出它近似的最优值。本文的任务，就是探究一个简单而有用的函数，它能够作为最大值函数的近似，并且具有多阶导数。下面是笔者给出的一个推导过程。

在数学分析中，笔者已经学习过一个关于最大值函数的公式，即当$x \geq 0, y \geq 0$时，我们有
$$\max(x,y)=\frac{1}{2}\left(|x+y|+|x-y|\right)\tag{1}$$
那么，为了寻求一个最大值的函数，我们首先可以考虑寻找一个能够近似表示绝对值$|x|$的函数，这样我们就把问题从二维降低到一维了。那么，哪个函数可以使用呢？

点击阅读全文...

分类：数学研究标签：函数, 极值, 光滑阅读全文 38 评论

13 Jun

“噪声对比估计”杂谈：曲径通幽之妙

By 苏剑林 | 2018-06-13 | 148547位读者 | 引用

说到噪声对比估计，或者“负采样”，大家可能立马就想到了Word2Vec。事实上，它的含义远不止于此，噪音对比估计（NCE, Noise Contrastive Estimation）是一个迂回但却异常精美的技巧，它使得我们在没法直接完成归一化因子（也叫配分函数）的计算时，就能够去估算出概率分布的参数。本文就让我们来欣赏一下NCE的曲径通幽般的美妙。

注：由于出发点不同，本文所介绍的“噪声对比估计”实际上更偏向于所谓的“负采样”技巧，但两者本质上是一样的，在此不作区分。

问题起源

问题的根源是难分难舍的指数概率分布～

指数族分布

在很多问题中都会出现指数族分布，即对于某个变量$\boldsymbol{x}$的概率$p(\boldsymbol{x})$，我们将其写成
$$p(\boldsymbol{x}) = \frac{e^{G(\boldsymbol{x})}}{Z}\tag{1}$$
其中$G(\boldsymbol{x})$是$\boldsymbol{x}$的某个“能量”函数，而$Z=\sum_{\boldsymbol{x}} e^{G(\boldsymbol{x})}$则是归一化常数，也叫配分函数。这种分布也称为“玻尔兹曼分布”。

点击阅读全文...

分类：数学研究标签：概率, 词向量, 估计阅读全文 73 评论

29 Nov

Dropout视角下的MLM和MAE：一些新的启发

By 苏剑林 | 2021-11-29 | 59552位读者 | 引用

大家都知道，BERT的MLM（Masked Language Model）任务在预训练和微调时的不一致，也就是预训练出现了[MASK]而下游任务微调时没有[MASK]，是经常被吐槽的问题，很多工作都认为这是影响BERT微调性能的重要原因，并针对性地提出了很多改进，如XL-NET、ELECTRA、MacBERT等。本文我们将从Dropout的角度来分析MLM的这种不一致性，并且提出一种简单的操作来修正这种不一致性。

同样的分析还可以用于何凯明最近提出的比较热门的MAE（Masked Autoencoder）模型，结果是MAE相比MLM确实具有更好的一致性，由此我们可以引出一种可以能加快训练速度的正则化手段。

Dropout

首先，我们重温一下Dropout。从数学上来看，Dropout是通过伯努利分布来为模型引入随机噪声的操作，所以我们也简单复习一下伯努利分布。

点击阅读全文...

分类：信息时代标签：模型, 概率, 分析, 优化阅读全文 19 评论

19 Jun

简述无偏估计和有偏估计

By 苏剑林 | 2019-06-19 | 68596位读者 | 引用

对于大多数读者（包括笔者）来说，他们接触到的第一个有偏估计量，应该是方差
\begin{equation}\hat{\sigma}^2_{\text{有偏}} = \frac{1}{n}\sum_{i=1}^n \left(x_i - \hat{\mu}\right)^2,\quad \hat{\mu} = \frac{1}{n}\sum_{i=1}^n x_i\label{eq:youpianfangcha}\end{equation}
然后又了解到对应的无偏估计应该是
\begin{equation}\hat{\sigma}^2_{\text{无偏}} = \frac{1}{n-1}\sum_{i=1}^n \left(x_i - \hat{\mu}\right)^2\label{eq:wupianfangcha}\end{equation}
在很多人的眼里，公式$\eqref{eq:youpianfangcha}$才是合理的，怎么就有偏了？公式$\eqref{eq:wupianfangcha}$将$n$换成反直觉的$n-1$，反而就无偏了？

下面试图用尽量清晰的语言讨论一下无偏估计和有偏估计两个概念。

点击阅读全文...

分类：数学研究标签：统计, 概率, 估计阅读全文 12 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

几何的数与数的几何：超复数的浅探究

三个相切圆的公切圆

一本对称闯物理：相对论力学(一)

从Knotsevich在黑板上写的级数题目谈起

寻求一个光滑的最大值函数

“噪声对比估计”杂谈：曲径通幽之妙

问题起源

指数族分布

Dropout视角下的MLM和MAE：一些新的启发

Dropout

简述无偏估计和有偏估计

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接