【搜出来的文本】⋅(二)从MCMC到模拟退火
By 苏剑林 | 2021-01-14 | 53652位读者 | 引用在上一篇文章中,我们介绍了“受限文本生成”这个概念,指出可以通过量化目标并从中采样的方式来无监督地完成某些带条件的文本生成任务。同时,上一篇文章还介绍了“重要性采样”和“拒绝采样”两个方法,并且指出对于高维空间而言,它们所依赖的易于采样的分布往往难以设计,导致它们难以满足我们的采样需求。
此时,我们就需要引入采样界最重要的算法之一“Markov Chain Monte Carlo(MCMC)”方法了,它将马尔可夫链和蒙特卡洛方法结合起来,使得(至少理论上是这样)我们从很多高维分布中进行采样成为可能,也是后面我们介绍的受限文本生成应用的重要基础算法之一。本文试图对它做一个基本的介绍。
马尔可夫链
马尔可夫链实际上就是一种“无记忆”的随机游走过程,它以转移概率$p(\boldsymbol{y}\leftarrow\boldsymbol{x})$为基础,从一个初始状态$\boldsymbol{x}_0$出发,每一步均通过该转移概率随机选择下一个状态,从而构成随机状态列$\boldsymbol{x}_0, \boldsymbol{x}_1, \boldsymbol{x}_2, \cdots, \boldsymbol{x}_t, \cdots $,我们希望考察对于足够大的步数$t$,$\boldsymbol{x}_t$所服从的分布,也就是该马尔可夫链的“平稳分布”。
低秩近似之路(一):伪逆
By 苏剑林 | 2024-09-15 | 22374位读者 | 引用可能很多读者跟笔者一样,对矩阵的低秩近似有种熟悉而又陌生的感觉。熟悉是因为,低秩近似的概念和意义都不难理解,加之目前诸如LoRA等基于低秩近似的微调技术遍地开花,让低秩近似的概念在耳濡目染间就已经深入人心;然而,低秩近似所覆盖的内容非常广,在低秩近似相关的论文中时常能看到一些不熟悉但又让我们叹为观止的新技巧,这就导致了一种似懂非懂的陌生感。
因此,在这个系列文章中,笔者将试图系统梳理一下矩阵低秩近似相关的理论内容,以补全对低秩近似的了解。而在第一篇文章中,我们主要介绍低秩近似系列中相对简单的一个概念——伪逆。
优化视角
伪逆(Pseudo Inverse),也称“广义逆(Generalized Inverse)”,顾名思义就是“广义的逆矩阵”,它实际上是“逆矩阵”的概念对于不可逆矩阵的推广。
两道无穷级数:自然数及其平方的倒数和
By 苏剑林 | 2009-08-05 | 63170位读者 | 引用以自然数幂为系数的幂级数
By 苏剑林 | 2010-10-16 | 32215位读者 | 引用$\sum_{i=0}^{\infty} a_i x^i=a_0+a_1 x+a_2 x^2+a_3 x^3+...$
最近为了数学竞赛,我研究了有关数列和排列组合的相关问题。由于我讨厌为某个问题而设计专门的技巧,所以我偏爱通用的方法,哪怕过程相对麻烦。因此,我对数学归纳法(递推法)和生成函数法情有独钟。前者只需要列出问题的递归关系,而不用具体分析,最终把问题转移到解函数方程上来。后者则巧妙地把数列${a_n}$与幂级数$\sum_{i=0}^{\infty} a_i x^i$一一对应,巧妙地通过代数运算或微积分运算等得到结果。这里我们不用考虑该级数的敛散性,只需要知道它对应着哪一个“母函数”(母函数展开泰勒级数后得到了级数$\sum_{i=0}^{\infty} a_i x^i$)。显然,这两种方法的最终,都是把问题归结为代数问题。
寒假结束,今天上学了
By 苏剑林 | 2010-02-21 | 29491位读者 | 引用越来越佩服前人,说出了“光阴似箭,日月如梭”的真理。是呀,期末考试仿佛只是在昨天,今天已经又要上学了;俯仰之间,一个月的时间就过去了。
毫无疑问,又因为我的懒惰和不坚持,浪费了我很多的时间。回想一下寒假,我究竟收获了什么呢?主要是两个方面吧:学术和情感。
学术上,主要是数学和天文学里面的内容。数学我主要是深入了微积分方面的内容,把微积分的思想深刻了一点点,把微分方程(组)熟悉了一点点。我有一种很熟悉的感觉:现在自学高等数学,就好比我之前在小学时间学习中学数学。那时候超傻,书本上说了$\lim_{\Delta x->0} f'(x)=\frac{f(x+\Delta x)-f(x)}{\Delta x}$,我看不懂这个式子,整天郁闷$f(x)$是不是指$f\cdot (x)$。不过尽管那时候不懂这些,还是懂应用,我用导数最基本的定义去求极值,得出了一些有趣的发现,使我的兴趣倍增。现在学习微积分也是这样的感觉,我觉得我仅仅是很显浅地接触到,还有很多等待仔细琢磨....
本文我们来探讨下列积分的极值曲线:
$$S=\int f(x,y)\sqrt{dx^2+dy^2}=\int f(x,y)ds$$
这本质上也是一个短程线问题。但是它形式比较简答,物理含义也更加明显。比如,如果$f(x,y)$是势函数的话,那么这就是一个求势能最小的二维问题;如果$f(x,y)$是摩擦力函数,那么这就是寻找摩擦力最小的路径问题。不管是哪一种,该问题都有相当的实用价值。下面将其变分:
$$\begin{aligned} \delta S =&\int \delta[f(x,y)\sqrt{dx^2+dy^2}] \\ =&\int [ds\delta f(x,y)+f(x,y)\frac{\delta (dx^2+dy^2)}{2ds}]\\ =&\int ds(\frac{\partial f}{\partial x}\delta x+\frac{\partial}{\partial y}\delta y)+f \frac{dx d(\delta x)+dy d(\delta y)}{ds} \\=&\int ds(\frac{\partial f}{\partial x}\delta x+\frac{\partial}{\partial y}\delta y)+f \frac{dx}{ds} d(\delta x)+\frac{dy}{ds} d(\delta y) \end{aligned}$$
今天升级了Blog(欢迎大家来“顶”!)
By 苏剑林 | 2009-07-27 | 65434位读者 | 引用正十七边形的尺规作图
By 苏剑林 | 2009-08-28 | 42083位读者 | 引用为何正17边形能够用尺规作出来?要如何作?先别急,请看下面的解释:
一个正质数多边形可以用标尺作图的充分和必要条件是,该多边形的边数必定是一个费马质数。换句话说,只有正三边形、正五边形、正十七边形、正257边形和正63357边形可以用尺规作出来,其它的正质数多边形就不可以了。(除非我们再发现另一个费马质数。)
正17边形的尺规作法是高斯在1796年得出的,他也因此决心要成为数学家。关于费马质数,是指形如$2^{2^n}+1$的质数,一开始费马认为对于所有的n,这种形式的数都是质数。可是这似乎是上天的玩笑,目前只发现了当n=0,1,2,3,4的时候$2^{2^n}+1$是质数,其余都是合数。
最近评论