包含关键字 DS vs DN 的文章 - 科学空间|Scientific Spaces

20 Jan

从Wasserstein距离、对偶理论到WGAN

By 苏剑林 | 2019-01-20 | 221894位读者 | 引用

推土机哪家强？成本最低找Wasserstein

2017年的时候笔者曾写过博文《互怼的艺术：从零直达WGAN-GP》，从一个相对通俗的角度来介绍了WGAN，在那篇文章中，WGAN更像是一个天马行空的结果，而实际上跟Wasserstein距离没有多大关系。

在本篇文章中，我们再从更数学化的视角来讨论一下WGAN。当然，本文并不是纯粹地讨论GAN，而主要侧重于Wasserstein距离及其对偶理论的理解。本文受启发于著名的国外博文《Wasserstein GAN and the Kantorovich-Rubinstein Duality》，内容跟它大体上相同，但是删除了一些冗余的部分，对不够充分或者含糊不清的地方作了补充。不管怎样，在此先对前辈及前辈的文章表示致敬。

（注：完整理解本文，应该需要多元微积分、概率论以及线性代数等基础知识。还有，本文确实长，数学公式确实多，但是，真的不复杂、不难懂，大家不要看到公式就吓怕了～）

点击阅读全文...

分类：数学研究标签：对偶, 优化, GAN, 生成模型阅读全文 83 评论

19 Oct

最小熵原理（五）：“层层递进”之社区发现与聚类

By 苏剑林 | 2019-10-19 | 159645位读者 | 引用

让我们不厌其烦地回顾一下：最小熵原理是一个无监督学习的原理，“熵”就是学习成本，而降低学习成本是我们的不懈追求，所以通过“最小化学习成本”就能够无监督地学习出很多符合我们认知的结果，这就是最小熵原理的基本理念。

这篇文章里，我们会介绍一种相当漂亮的聚类算法，它同样也体现了最小熵原理，或者说它可以通过最小熵原理导出来，名为InfoMap，或者MapEquation。事实上InfoMap已经是2007年的成果了，最早的论文是《Maps of random walks on complex networks reveal community structure》，虽然看起来很旧，但我认为它仍是当前最漂亮的聚类算法，因为它不仅告诉了我们“怎么聚类”，更重要的是给了我们一个“为什么要聚类”的优雅的信息论解释，并从这个解释中直接导出了整个聚类过程。

一个复杂有向图网络示意图。图片来自InfoMap最早的论文《Maps of random walks on complex networks reveal community structure》

当然，它的定位并不仅仅局限在聚类上，更准确地说，它是一种图网络上的“社区发现”算法。所谓社区发现（Community Detection），大概意思是给定一个有向/无向图网络，然后找出这个网络上的“抱团”情况，至于详细含义，大家可以自行搜索一下。简单来说，它跟聚类相似，但是比聚类的含义更丰富。（还可以参考《什么是社区发现?》）

点击阅读全文...

分类：信息时代标签：熵, 聚类, 无监督, 最小熵阅读全文 58 评论

24 Jun

VQ-VAE的简明介绍：量子化自编码器

By 苏剑林 | 2019-06-24 | 338575位读者 | 引用

印象中很早之前就看到过VQ-VAE，当时对它并没有什么兴趣，而最近有两件事情重新引起了我对它的兴趣。一是VQ-VAE-2实现了能够匹配BigGAN的生成效果（来自机器之心的报道）；二是我最近看一篇NLP论文《Unsupervised Paraphrasing without Translation》时发现里边也用到了VQ-VAE。这两件事情表明VQ-VAE应该是一个颇为通用和有意思的模型，所以我决定好好读读它。

个人复现的VQ-VAE在CelebA上的重构效果。可以留意到细节保留得还不错，但稍微放大后能留意到仍有一些模糊感。

点击阅读全文...

分类：信息时代标签：无监督, 生成模型, 编码, 离散化阅读全文 145 评论

26 Aug

HSIC简介：一个有意思的判断相关性的思路

By 苏剑林 | 2019-08-26 | 103297位读者 | 引用

前几天，在机器之心看到这样的一个推送《彻底解决梯度爆炸问题，新方法不用反向传播也能训练ResNet》，当然，媒体的标题党作风我们暂且无视，主要看内容即可。机器之心的这篇文章，介绍的是论文《The HSIC Bottleneck: Deep Learning without Back-Propagation》的成果，里边提出了一种通过HSIC Bottleneck来训练神经网络的算法。

坦白说，这篇论文笔者还没有看明白，因为对笔者来说里边的新概念有点多了。不过论文中的“HSIC”这个概念引起了笔者的兴趣。经过学习，终于基本地理解了这个HSIC的含义和来龙去脉，于是就有了本文，试图给出HSIC的一个尽可能通俗（但可能不严谨）的理解。

背景

HSIC全称“Hilbert-Schmidt independence criterion”，中文可以叫做“希尔伯特-施密特独立性指标”吧，跟互信息一样，它也可以用来衡量两个变量之间的独立性。

点击阅读全文...

分类：数学研究标签：概率, 互信息, 核方法阅读全文 29 评论

16 Jan

从几何视角来理解模型参数的初始化策略

By 苏剑林 | 2020-01-16 | 100624位读者 | 引用

对于复杂模型来说，参数的初始化显得尤为重要。糟糕的初始化，很多时候已经不单是模型效果变差的问题了，还更有可能是模型根本训练不动或者不收敛。在深度学习中常见的自适应初始化策略是Xavier初始化，它是从正态分布$\mathcal{N}\left(0,\frac{2}{fan_{in} + fan_{out}}\right)$中随机采样而构成的初始权重，其中$fan_{in}$是输入的维度而$fan_{out}$是输出的维度。其他初始化策略基本上也类似，只不过假设有所不同，导致最终形式略有差别。

标准的初始化策略的推导是基于概率统计的，大概的思路是假设输入数据的均值为0、方差为1，然后期望输出数据也保持均值为0、方差为1，然后推导出初始变换应该满足的均值和方差条件。这个过程理论上没啥问题，但在笔者看来依然不够直观，而且推导过程的假设有点多。本文则希望能从几何视角来理解模型的初始化方法，给出一个更直观的推导过程。

信手拈来的正交

前者时间笔者写了《n维空间下两个随机向量的夹角分布》，其中的一个推论是

推论1：高维空间中的任意两个随机向量几乎都是垂直的。

点击阅读全文...

分类：数学研究标签：模型, 概率, 几何, 优化阅读全文 37 评论

1 Mar

对抗训练浅谈：意义、方法和思考（附Keras实现）

By 苏剑林 | 2020-03-01 | 235335位读者 | 引用

当前，说到深度学习中的对抗，一般会有两个含义：一个是生成对抗网络（Generative Adversarial Networks，GAN），代表着一大类先进的生成模型；另一个则是跟对抗攻击、对抗样本相关的领域，它跟GAN相关，但又很不一样，它主要关心的是模型在小扰动下的稳健性。本博客里以前所涉及的对抗话题，都是前一种含义，而今天，我们来聊聊后一种含义中的“对抗训练”。

本文包括如下内容：

1、对抗样本、对抗训练等基本概念的介绍；
2、介绍基于快速梯度上升的对抗训练及其在NLP中的应用；
3、给出了对抗训练的Keras实现（一行代码调用）；
4、讨论了对抗训练与梯度惩罚的等价性；
5、基于梯度惩罚，给出了一种对抗训练的直观的几何理解。

点击阅读全文...

分类：信息时代标签：GAN, keras, 对抗训练, 泛化阅读全文 100 评论

20 Apr

EAE：自编码器 + BN + 最大熵 = 生成模型

By 苏剑林 | 2020-04-20 | 61365位读者 | 引用

生成模型一直是笔者比较关注的主题，不管是NLP和CV的生成模型都是如此。这篇文章里，我们介绍一个新颖的生成模型，来自论文《Batch norm with entropic regularization turns deterministic autoencoders into generative models》，论文中称之为EAE（Entropic AutoEncoder）。它要做的事情给变分自编码器（VAE）基本一致，最终效果其实也差不多（略优），说它新颖并不是它生成效果有多好，而是思路上的新奇，颇有别致感。此外，借着这个机会，我们还将学习一种统计量的估计方法——$k$邻近方法，这是一种很有用的非参数估计方法。

自编码器vs生成模型

普通的自编码器是一个“编码-解码”的重构过程，如下图所示：

典型自编码器示意图

其loss一般为
\begin{equation}L_{AE} = \mathbb{E}_{x\sim \tilde{p}(x)}\left[\left\Vert x - \hat{x}\right\Vert^2\right] = \mathbb{E}_{x\sim \tilde{p}(x)}\left[\left\Vert x - D(E(x))\right\Vert^2\right]\end{equation}

点击阅读全文...

分类：信息时代标签：最大熵, 熵, 无监督, 生成模型阅读全文 21 评论

1 Jun

泛化性乱弹：从随机噪声、梯度惩罚到虚拟对抗训练

By 苏剑林 | 2020-06-01 | 101166位读者 | 引用

提高模型的泛化性能是机器学习致力追求的目标之一。常见的提高泛化性的方法主要有两种：第一种是添加噪声，比如往输入添加高斯噪声、中间层增加Dropout以及进来比较热门的对抗训练等，对图像进行随机平移缩放等数据扩增手段某种意义上也属于此列；第二种是往loss里边添加正则项，比如$L_1, L_2$惩罚、梯度惩罚等。本文试图探索几种常见的提高泛化性能的手段的关联。

随机噪声

我们记模型为$f(x)$，$\mathcal{D}$为训练数据集合，$l(f(x), y)$为单个样本的loss，那么我们的优化目标是
\begin{equation}\mathop{\text{argmin}}_{\theta} L(\theta)=\mathbb{E}_{(x,y)\sim \mathcal{D}}[l(f(x), y)]\end{equation}
$\theta$是$f(x)$里边的可训练参数。假如往模型输入添加噪声$\varepsilon$，其分布为$q(\varepsilon)$，那么优化目标就变为
\begin{equation}\mathop{\text{argmin}}_{\theta} L_{\varepsilon}(\theta)=\mathbb{E}_{(x,y)\sim \mathcal{D}, \varepsilon\sim q(\varepsilon)}[l(f(x + \varepsilon), y)]\end{equation}
当然，可以添加噪声的地方不仅仅是输入，也可以是中间层，也可以是权重$\theta$，甚至可以是输出$y$（等价于标签平滑），噪声也不一定是加上去的，比如Dropout是乘上去的。对于加性噪声来说，$q(\varepsilon)$的常见选择是均值为0、方差固定的高斯分布；而对于乘性噪声来说，常见选择是均匀分布$U([0,1])$或者是伯努利分布。

添加随机噪声的目的很直观，就是希望模型能学会抵御一些随机扰动，从而降低对输入或者参数的敏感性，而降低了这种敏感性，通常意味着所得到的模型不再那么依赖训练集，所以有助于提高模型泛化性能。

点击阅读全文...

分类：信息时代标签：概率, GAN, 对抗训练, 泛化阅读全文 30 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

从Wasserstein距离、对偶理论到WGAN

最小熵原理（五）：“层层递进”之社区发现与聚类

VQ-VAE的简明介绍：量子化自编码器

HSIC简介：一个有意思的判断相关性的思路

背景

从几何视角来理解模型参数的初始化策略

信手拈来的正交

对抗训练浅谈：意义、方法和思考（附Keras实现）

EAE：自编码器 + BN + 最大熵 = 生成模型

自编码器vs生成模型

泛化性乱弹：从随机噪声、梯度惩罚到虚拟对抗训练

随机噪声

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接