包含关键字 %E7%BB%86%E6%B0%B4%E9%95%BFflow 的文章

15 Feb

能量视角下的GAN模型（二）：GAN＝“分析”＋“采样”

By 苏剑林 | 2019-02-15 | 109574位读者 | 引用

在这个系列中，我们尝试从能量的视角理解GAN。我们会发现这个视角如此美妙和直观，甚至让人拍案叫绝。

上一篇文章里，我们给出了一个直白而用力的能量图景，这个图景可以让我们轻松理解GAN的很多内容，换句话说，通俗的解释已经能让我们完成大部分的理解了，并且把最终的结论都已经写了出来。在这篇文章中，我们继续从能量的视角理解GAN，这一次，我们争取把前面简单直白的描述，用相对严密的数学语言推导一遍。

跟第一篇文章一样，对于笔者来说，这个推导过程依然直接受启发于Bengio团队的新作《Maximum Entropy Generators for Energy-Based Models》。

原作者的开源实现：https://github.com/ritheshkumar95/energy_based_generative_models

本文的大致内容如下：

1、推导了能量分布下的正负相对抗的更新公式；
2、比较了理论分析与实验采样的区别，而将两者结合便得到了GAN框架；
3、导出了生成器的补充loss，理论上可以防止mode collapse；
4、简单提及了基于能量函数的MCMC采样。

点击阅读全文...

分类：信息时代标签：概率, 能量, GAN, 生成模型阅读全文 41 评论

27 Feb

“n次方程有n个根”的证明

By 苏剑林 | 2010-02-27 | 60055位读者 | 引用

代数基本定理：任何一个一元复系数多项式都至少有一个复数根。也就是说，复数域是代数封闭的。

虽说这有其名，但却无其实，它并不是最基本的代数定理；因为在那个时候，代数基本上就是关于解实系数或复系数多项式方程，所以才被命名为代数基本定理(Fundamental theorem of algebra)。

建立在此前提上，我们可以推出：

一元复系数n次代数方程在复数范围内都有n个根（有可能是共轨复根）。

点击阅读全文...

分类：数学研究标签：方程, 代数阅读全文 6 评论

19 Nov

[欧拉数学]素数定理及加强

By 苏剑林 | 2011-11-19 | 37259位读者 | 引用

1798年法国数学家勒让德提出：
$$\pi(n)\sim\frac{n}{\ln n}$$

这个式子被成为“素数定理”(the Prime Number Theorem, PNT)。它表达的是什么意思呢？其中$\pi(N)$指的是不大于N的素数个数，$\frac{N}{\ln N}$是一个计算结果，符号~叫做“渐近趋于”，整个式子意思就是“不大于N的素数个数渐近趋于$\frac{N}{\ln N}$”；简单来讲，就是说$\frac{N}{\ln N}$是$\pi(N)$的一个近似估计。也许有的读者会问为什么不用≈而用~呢？事实上，~包含的意思还有：
$$\lim_{N-\infty} \frac{\pi(N) \ln N}{N}=1$$

点击阅读全文...

分类：数学研究标签：素数, 欧拉数学阅读全文 5 评论

22 Oct

从梯度最大化看Attention的Scale操作

By 苏剑林 | 2023-10-22 | 43937位读者 | 引用

我们知道，Scaled Dot-Product Attention的Scale因子是$\frac{1}{\sqrt{d}}$，其中$d$是$\boldsymbol{q},\boldsymbol{k}$的维度。这个Scale因子的一般解释是：如果不除以$\sqrt{d}$，那么初始的Attention就会很接近one hot分布，这会造成梯度消失，导致模型训练不起来。然而，可以证明的是，当Scale等于0时同样也会有梯度消失问题，这也就是说Scale太大太小都不行。

那么多大的Scale才适合呢？$\frac{1}{\sqrt{d}}$是最佳的Scale了吗？本文试图从梯度角度来回答这个问题。

已有结果

在《浅谈Transformer的初始化、参数化与标准化》中，我们已经推导过标准的Scale因子$\frac{1}{\sqrt{d}}$，推导的思路很简单，假设初始阶段$\boldsymbol{q},\boldsymbol{k}\in\mathbb{R}^d$都采样自“均值为0、方差为1”的分布，那么可以算得
\begin{equation}\mathbb{V}ar[\boldsymbol{q}\cdot\boldsymbol{k}] = d\end{equation}

点击阅读全文...

分类：数学研究,信息时代标签：优化, 梯度, attention 阅读全文 23 评论

27 Aug

fashion mnist的一个baseline (MobileNet 95%)

By 苏剑林 | 2017-08-27 | 70834位读者 | 引用

浅尝

昨天简单试了一下在fashion mnist的gan模型，发现还能work，当然那个尝试也没什么技术水平，就是把原来的脚本改一下路径跑了就完事。今天回到fashion mnist本身的主要任务——10分类，用Keras测了一下一些模型在上面的分类效果，最后得到了94.5%左右的准确率，加上随机翻转的数据扩增能做到95%。

首先随便手写了一些模型的组合，测试发现准确率都不大好，看来对于这个数据集来说，自己构思模型是比较困难的了，于是想着用现成的模型结构。一说到现成的cnn模型，基本上我们都会想到VGG、ResNet、inception、Xception等，但这些模型为解决imagenet的1000分类问题而设计，用到这个入门级别的数据集上似乎过于庞大了，而且也容易过拟合。后来突然想起，Keras好像自带了个叫MobileNet的模型，查看了一下模型权重，发现参数量不大，但是容量应该还是可以的，故选用MobileNet做实验。

深究

点击阅读全文...

分类：信息时代标签：神经网络, 深度学习阅读全文 12 评论

18 Nov

[欧拉数学]黎曼ζ函数

By 苏剑林 | 2011-11-18 | 44614位读者 | 引用

欧拉数学的魅力在于，它运用类比的方法，把各个看似毫无关联的领域联系了起来，生动而巧妙地得出了正确的结果。他对$\frac{1}{1^2}+\frac{1}{2^2}+\frac{1}{3^2}+\frac{1}{4^2}+...=\frac{\pi^2}{6}$的计算便是一个典型的例子。虽然论证过程未必严谨，但是那“神奇”的推导已经令我们拍案叫绝，而且往往发人深思。这种效果通常是严格论证难以实现的，它不仅给予我们答案，而且还给予了我们启迪：新的思想，新的方向；有时，它还揭示了各个学科之间内在而深刻的联系。下面我们来观察一下数论中的“黎曼ζ函数”和“金钥匙”！

黎曼ζ函数指的是：
$$\xi (s)=\sum_{n=1}^{\infty} \frac{1}{n^s}=\frac{1}{1^s}+\frac{1}{2^s}+\frac{1}{3^s}+\frac{1}{4^s}+...$$
本来s应该是一个实数，但是将复分析引入数论后，将s推广至复数具有更大的研究价值。

点击阅读全文...

分类：数学研究标签：素数, 函数, 数论, 欧拉数学阅读全文 4 评论

15 Mar

从最大似然到EM算法：一致的理解方式

By 苏剑林 | 2018-03-15 | 121654位读者 | 引用

最近在思考NLP的无监督学习和概率图相关的一些内容，于是重新把一些参数估计方法理了一遍。在深度学习中，参数估计是最基本的步骤之一了，也就是我们所说的模型训练过程。为了训练模型就得有个损失函数，而如果没有系统学习过概率论的读者，能想到的最自然的损失函数估计是平均平方误差，它也就是对应于我们所说的欧式距离。而理论上来讲，概率模型的最佳搭配应该是“交叉熵”函数，它来源于概率论中的最大似然函数。

最大似然

合理的存在

何为最大似然？哲学上有句话叫做“存在就是合理的”，最大似然的意思是“存在就是最合理的”。具体来说，如果事件$X$的概率分布为$p(X)$，如果一次观测中具体观测到的值分别为$X_1,X_2,\dots,X_n$，并假设它们是相互独立，那么
$$\mathcal{P} = \prod_{i=1}^n p(X_i)\tag{1}$$
是最大的。如果$p(X)$是一个带有参数$\theta$的概率分布式$p_{\theta}(X)$，那么我们应当想办法选择$\theta$，使得$\mathcal{L}$最大化，即
$$\theta = \mathop{\arg\max}_{\theta} \mathcal{P}(\theta) = \mathop{\arg\max}_{\theta}\prod_{i=1}^n p_{\theta}(X_i)\tag{2}$$

点击阅读全文...

分类：数学研究标签：概率, 优化, 聚类阅读全文 38 评论

3 May

从动力学角度看优化算法（四）：GAN的第三个阶段

By 苏剑林 | 2019-05-03 | 79286位读者 | 引用

在对GAN的学习和思考过程中，我发现我不仅学习到了一种有效的生成模型，而且它全面地促进了我对各种模型各方面的理解，比如模型的优化和理解视角、正则项的意义、损失函数与概率分布的联系、概率推断等等。GAN不单单是一个“造假的玩具”，而是具有深刻意义的概率模型和推断方法。

作为事后的总结，我觉得对GAN的理解可以粗糙地分为三个阶段：

1、样本阶段：在这个阶段中，我们了解了GAN的“鉴别者-造假者”诠释，懂得从这个原理出发来写出基本的GAN公式（如原始GAN、LSGAN），比如判别器和生成器的loss，并且完成简单GAN的训练；同时，我们知道GAN有能力让图片更“真”，利用这个特性可以把GAN嵌入到一些综合模型中。
2、分布阶段：在这个阶段中，我们会从概率分布及其散度的视角来分析GAN，典型的例子是WGAN和f-GAN，同时能基本理解GAN的训练困难问题，比如梯度消失和mode collapse等，甚至能基本地了解变分推断，懂得自己写出一些概率散度，继而构造一些新的GAN形式。
3、动力学阶段：在这个阶段中，我们开始结合优化器来分析GAN的收敛过程，试图了解GAN是否能真的达到理论的均衡点，进而理解GAN的loss和正则项等因素如何影响的收敛过程，由此可以针对性地提出一些训练策略，引导GAN模型到达理论均衡点，从而提高GAN的效果。

点击阅读全文...

分类：信息时代标签：微分方程, 动力学, GAN, 生成模型, 优化器阅读全文 24 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

能量视角下的GAN模型（二）：GAN＝“分析”＋“采样”

“n次方程有n个根”的证明

[欧拉数学]素数定理及加强

从梯度最大化看Attention的Scale操作

已有结果

fashion mnist的一个baseline (MobileNet 95%)

浅尝

深究

[欧拉数学]黎曼ζ函数

从最大似然到EM算法：一致的理解方式

最大似然

合理的存在

从动力学角度看优化算法（四）：GAN的第三个阶段

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接