变分自编码器 = 最小化先验分布 + 最大化互信息
By 苏剑林 | 2018-10-10 | 123823位读者 | 引用这篇文章很简短,主要描述的是一个很有用、也不复杂、但是我居然这么久才发现的事实~
在《深度学习的互信息:无监督提取特征》一文中,我们通过先验分布和最大化互信息两个loss的加权组合来得到Deep INFOMAX模型最后的loss。在那篇文章中,虽然把故事讲完了,但是某种意义上来说,那只是个拼凑的loss。而本文则要证明那个loss可以由变分自编码器自然地导出来。
过程
不厌其烦地重复一下,变分自编码器(VAE)需要优化的loss是
\begin{equation}\begin{aligned}&KL(\tilde{p}(x)p(z|x)\Vert q(z)q(x|z))\\
=&\iint \tilde{p}(x)p(z|x)\log \frac{\tilde{p}(x)p(z|x)}{q(x|z)q(z)} dzdx\end{aligned}\end{equation}
相关的论述在本博客已经出现多次了。VAE中既包含编码器,又包含解码器,如果我们只需要编码特征,那么再训练一个解码器就显得很累赘了。所以重点是怎么将解码器去掉。
其实再简单不过了,把VAE的loss分开两部分
局部余弦相似度大,全局余弦相似度一定也大吗?
By 苏剑林 | 2024-01-09 | 33542位读者 | 引用在分析模型的参数时,有些情况下我们会将模型的所有参数当成一个整体的向量,有些情况下我们则会将不同的参数拆开来看。比如,一个7B大小的LLAMA模型所拥有的70亿参数量,有时候我们会将它当成“一个70亿维的向量”,有时候我们会按照模型的实现方式将它看成“数百个不同维度的向量”,最极端的情况下,我们也会将它看成是“七十亿个1维向量”。既然有不同的看待方式,那么当我们要算一些统计指标时,也就会有不同的计算方式,即局部计算和全局计算,这引出了局部计算的指标与全局计算的指标有何关联的问题。
本文我们关心两个向量的余弦相似度。如果两个大向量的维度被拆成了若干组,同一组对应的子向量余弦相似度都很大,那么两个大向量的余弦相似度是否一定就大呢?答案是否定的。特别地,这还跟著名的“辛普森悖论”有关。
问题背景
这个问题源于笔者对优化器的参数增量导致的损失函数变化量的分析。具体来说,假设优化器的更新规则是:
\begin{equation}\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \eta_t \boldsymbol{u}_t\end{equation}
网站本次改版感悟...
By 苏剑林 | 2009-07-08 | 39675位读者 | 引用《巨眼问苍穹》:讲述望远镜的400年
By 苏剑林 | 2010-01-26 | 19982位读者 | 引用《巨眼问苍穹》是国际天文学联合会推出的庆祝望远镜400周年的书籍和电影,也是2009年美狄亚评委会特别奖获奖片
这部影片具有多个名称,其中中文名译为《巨眼问苍穹》、《望远镜的400年》或者《400年的故事-望远镜》等,英文名为《400 Years Of Telescope》,但也发现名为《Eyes On The Skies》的称呼。也不知道哪个更准确一点,不管他了,内容实质是一样的。片长60分钟,有英文、德文和中文配音,并有33种语言的字幕。目前已有30万个DVD免费分发到科学中心、天文馆、天文爱好者俱乐部的教育机构。该书132页,有英文,德文,芬兰文,韩文、日文和中文等多种语言(书籍站长还没有看过,影片就看了一下)。
寒假结束,今天上学了
By 苏剑林 | 2010-02-21 | 28631位读者 | 引用越来越佩服前人,说出了“光阴似箭,日月如梭”的真理。是呀,期末考试仿佛只是在昨天,今天已经又要上学了;俯仰之间,一个月的时间就过去了。
毫无疑问,又因为我的懒惰和不坚持,浪费了我很多的时间。回想一下寒假,我究竟收获了什么呢?主要是两个方面吧:学术和情感。
学术上,主要是数学和天文学里面的内容。数学我主要是深入了微积分方面的内容,把微积分的思想深刻了一点点,把微分方程(组)熟悉了一点点。我有一种很熟悉的感觉:现在自学高等数学,就好比我之前在小学时间学习中学数学。那时候超傻,书本上说了$\lim_{\Delta x->0} f'(x)=\frac{f(x+\Delta x)-f(x)}{\Delta x}$,我看不懂这个式子,整天郁闷$f(x)$是不是指$f\cdot (x)$。不过尽管那时候不懂这些,还是懂应用,我用导数最基本的定义去求极值,得出了一些有趣的发现,使我的兴趣倍增。现在学习微积分也是这样的感觉,我觉得我仅仅是很显浅地接触到,还有很多等待仔细琢磨....
路径积分系列:4.随机微分方程
By 苏剑林 | 2016-06-09 | 28635位读者 | 引用本章将路径积分用于随机微分方程,并且得到了与不对称随机游走一样的结果,从而证明了它与该模型的等价性.
将路径积分用于随机微分方程的研究,这一思路由来已久. 费曼在他的著作[5]中,已经建立了路径积分与线性随机微分方程的关系. 而对于非线性的情况,也有不少研究,但比较混乱,如文献[8]甚至给出了错误的结果.
本文从路径积分的离散化概念出发,明确地建立了两个路径积分微元的雅可比行列式关系,从而对非线性随机微分方程也建立了路径积分. 本文的结果跟文献[9]的结果是一致的.
概念
本文所研究的仅仅是随机常微分方程,它与一般的常微分方程的区别在于布朗运动项的引入,如常见的一类随机微分方程为
$$dx(t)=p(x(t),t)dt + \sqrt{\alpha} dW_t.\tag{48}$$
其中$W_t$代表着一个标准的布朗运动. 由于引入了随机项,所以解$x(t)$不再是确定的,而是有一定的概率分布.
在对随机微分方程中,感兴趣的量有很多,比如关于$x$的某个量的期望、方差,或者稳定性,等等. 随机微分方程领域中有各种分析的技巧,但是显然,直接求出$x(t)$的概率分布后对概率分布进行研究,是最理想最容易的方案. 路径积分正是给出了求概率分布的一个方法.
网站统计总结|来访信息综合
By 苏剑林 | 2009-08-21 | 25306位读者 | 引用行动起来!共同应对全球气候变暖
By 苏剑林 | 2009-08-29 | 16153位读者 | 引用8月28日是距离哥本哈根气候大会召开倒数100天的日子。
在这个特殊的日子,绿色和平将以特别的行动,邀请了广大的中国公众一起关注全球变暖,参与拯救气候的伟大使命。
11点至16点这五个小时内,“我在乎”和观众们一起来观看见证了这些“冰孩子”们的命运:
中国 — 8月28日,无数双眼睛见证了这样的一幕:绿色和平取自长江、黄河和恒河三条大江源头的冰川融水在北京制作而成冰雕孩子,同印度新德里雕刻成数字“100”的冰雕遥相呼应。冰小孩的在北京和印度新德里的迅速“消失”,告诉我们喜马拉雅—青藏高原地区冰川的加速消融,影响最大的当然是亚洲国家人民的生活。
最近评论