一道比较函数大小的题目
By 苏剑林 | 2011-07-08 | 20333位读者 | 引用2012年全年天象大观
By 苏剑林 | 2011-10-23 | 32689位读者 | 引用Astronomy Calendar of Celestial Events
2012年全年天象
翻译自NASA:http://eclipse.gsfc.nasa.gov/SKYCAL/SKYCAL.html
(北京时间)
[备份]全国大学生数学建模竞赛论文LaTex模板
By 苏剑林 | 2014-09-11 | 38465位读者 | 引用变分自编码器 = 最小化先验分布 + 最大化互信息
By 苏剑林 | 2018-10-10 | 119482位读者 | 引用这篇文章很简短,主要描述的是一个很有用、也不复杂、但是我居然这么久才发现的事实~
在《深度学习的互信息:无监督提取特征》一文中,我们通过先验分布和最大化互信息两个loss的加权组合来得到Deep INFOMAX模型最后的loss。在那篇文章中,虽然把故事讲完了,但是某种意义上来说,那只是个拼凑的loss。而本文则要证明那个loss可以由变分自编码器自然地导出来。
过程
不厌其烦地重复一下,变分自编码器(VAE)需要优化的loss是
\begin{equation}\begin{aligned}&KL(\tilde{p}(x)p(z|x)\Vert q(z)q(x|z))\\
=&\iint \tilde{p}(x)p(z|x)\log \frac{\tilde{p}(x)p(z|x)}{q(x|z)q(z)} dzdx\end{aligned}\end{equation}
相关的论述在本博客已经出现多次了。VAE中既包含编码器,又包含解码器,如果我们只需要编码特征,那么再训练一个解码器就显得很累赘了。所以重点是怎么将解码器去掉。
其实再简单不过了,把VAE的loss分开两部分
局部余弦相似度大,全局余弦相似度一定也大吗?
By 苏剑林 | 2024-01-09 | 31225位读者 | 引用在分析模型的参数时,有些情况下我们会将模型的所有参数当成一个整体的向量,有些情况下我们则会将不同的参数拆开来看。比如,一个7B大小的LLAMA模型所拥有的70亿参数量,有时候我们会将它当成“一个70亿维的向量”,有时候我们会按照模型的实现方式将它看成“数百个不同维度的向量”,最极端的情况下,我们也会将它看成是“七十亿个1维向量”。既然有不同的看待方式,那么当我们要算一些统计指标时,也就会有不同的计算方式,即局部计算和全局计算,这引出了局部计算的指标与全局计算的指标有何关联的问题。
本文我们关心两个向量的余弦相似度。如果两个大向量的维度被拆成了若干组,同一组对应的子向量余弦相似度都很大,那么两个大向量的余弦相似度是否一定就大呢?答案是否定的。特别地,这还跟著名的“辛普森悖论”有关。
问题背景
这个问题源于笔者对优化器的参数增量导致的损失函数变化量的分析。具体来说,假设优化器的更新规则是:
\begin{equation}\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \eta_t \boldsymbol{u}_t\end{equation}
网站本次改版感悟...
By 苏剑林 | 2009-07-08 | 37951位读者 | 引用《巨眼问苍穹》:讲述望远镜的400年
By 苏剑林 | 2010-01-26 | 19343位读者 | 引用《巨眼问苍穹》是国际天文学联合会推出的庆祝望远镜400周年的书籍和电影,也是2009年美狄亚评委会特别奖获奖片
这部影片具有多个名称,其中中文名译为《巨眼问苍穹》、《望远镜的400年》或者《400年的故事-望远镜》等,英文名为《400 Years Of Telescope》,但也发现名为《Eyes On The Skies》的称呼。也不知道哪个更准确一点,不管他了,内容实质是一样的。片长60分钟,有英文、德文和中文配音,并有33种语言的字幕。目前已有30万个DVD免费分发到科学中心、天文馆、天文爱好者俱乐部的教育机构。该书132页,有英文,德文,芬兰文,韩文、日文和中文等多种语言(书籍站长还没有看过,影片就看了一下)。
寒假结束,今天上学了
By 苏剑林 | 2010-02-21 | 27717位读者 | 引用越来越佩服前人,说出了“光阴似箭,日月如梭”的真理。是呀,期末考试仿佛只是在昨天,今天已经又要上学了;俯仰之间,一个月的时间就过去了。
毫无疑问,又因为我的懒惰和不坚持,浪费了我很多的时间。回想一下寒假,我究竟收获了什么呢?主要是两个方面吧:学术和情感。
学术上,主要是数学和天文学里面的内容。数学我主要是深入了微积分方面的内容,把微积分的思想深刻了一点点,把微分方程(组)熟悉了一点点。我有一种很熟悉的感觉:现在自学高等数学,就好比我之前在小学时间学习中学数学。那时候超傻,书本上说了$\lim_{\Delta x->0} f'(x)=\frac{f(x+\Delta x)-f(x)}{\Delta x}$,我看不懂这个式子,整天郁闷$f(x)$是不是指$f\cdot (x)$。不过尽管那时候不懂这些,还是懂应用,我用导数最基本的定义去求极值,得出了一些有趣的发现,使我的兴趣倍增。现在学习微积分也是这样的感觉,我觉得我仅仅是很显浅地接触到,还有很多等待仔细琢磨....
最近评论