包含关键字变分自编码器的文章 - 科学空间|Scientific Spaces

20 Dec

从动力学角度看优化算法（二）：自适应学习率算法

By 苏剑林 | 2018-12-20 | 52107位读者 | 引用

在《从动力学角度看优化算法（一）：从SGD到动量加速》一文中，我们提出SGD优化算法跟常微分方程（ODE）的数值解法其实是对应的，由此还可以很自然地分析SGD算法的收敛性质、动量加速的原理等等内容。

在这篇文章中，我们继续沿着这个思路，去理解优化算法中的自适应学习率算法。

RMSprop

首先，我们看一个非常经典的自适应学习率优化算法：RMSprop。RMSprop虽然不是最早提出的自适应学习率的优化算法，但是它却是相当实用的一种，它是诸如Adam这样的更综合的算法的基石，通过它我们可以观察自适应学习率的优化算法是怎么做的。

算法概览

一般的梯度下降是这样的：
$$\begin{equation}\boldsymbol{\theta}_{n+1}=\boldsymbol{\theta}_{n} - \gamma \nabla_{\boldsymbol{\theta}} L(\boldsymbol{\theta}_{n})\end{equation}$$
很明显，这里的$\gamma$是一个超参数，便是学习率，它可能需要在不同阶段做不同的调整。

而RMSprop则是
$$\begin{equation}\begin{aligned}\boldsymbol{g}_{n+1} =& \nabla_{\boldsymbol{\theta}} L(\boldsymbol{\theta}_{n})\\
\boldsymbol{G}_{n+1}=&\lambda \boldsymbol{G}_{n} + (1 - \lambda) \boldsymbol{g}_{n+1}\otimes \boldsymbol{g}_{n+1}\\
\boldsymbol{\theta}_{n+1}=&\boldsymbol{\theta}_{n} - \frac{\tilde{\gamma}}{\sqrt{\boldsymbol{G}_{n+1} + \epsilon}}\otimes \boldsymbol{g}_{n+1}
\end{aligned}\end{equation}$$

点击阅读全文...

分类：数学研究标签：微分方程, 动力学, 数值计算, 优化器阅读全文 11 评论

26 Dec

“非自回归”也不差：基于MLM的阅读理解问答

By 苏剑林 | 2019-12-26 | 90428位读者 | 引用

前段时间写了《万能的seq2seq：基于seq2seq的阅读理解问答》，探索了以最通用的seq2seq的方式来做阅读理解式问答，并且取得相当不错的成绩（单模型0.77，超过参加比赛时精调的最佳模型）。这篇文章我们继续做这个任务，不过换一个思路，直接基于MLM模型来做，最终成绩基本一致，但能提高预测速度。

用MLM做阅读理解的模型图示（其中[M]表示[MASK]标记）

点击阅读全文...

分类：信息时代标签：问答, 语言模型, 生成模型, 文本生成阅读全文 23 评论

25 May

Google新作Synthesizer：我们还不够了解自注意力

By 苏剑林 | 2020-05-25 | 100576位读者 | 引用

深度学习这个箱子，远比我们想象的要黑。

写在开头

据说物理学家费曼说过一句话^[来源]：“谁要是说他懂得量子力学，那他就是真的不懂量子力学。”我现在越来越觉得，这句话中的“量子力学”也可以替换为“深度学习”。尽管深度学习已经在越来越多的领域证明了其有效性，但我们对它的解释性依然相当无力。当然，这几年来已经有不少工作致力于打开深度学习这个黑箱，但是很无奈，这些工作基本都是“马后炮”式的，也就是在已有的实验结果基础上提出一些勉强能说服自己的解释，无法做到自上而下的构建和理解模型的原理，更不用说提出一些前瞻性的预测。

本文关注的是自注意力机制。直观上来看，自注意力机制算是解释性比较强的模型之一了，它通过自己与自己的Attention来自动捕捉了token与token之间的关联，事实上在《Attention is All You Need》那篇论文中，就给出了如下的看上去挺合理的可视化效果：

《Attention is All You Need》一文中对Attention的可视化例子

但自注意力机制真的是这样生效的吗？这种“token对token”的注意力是必须的吗？前不久Google的新论文《Synthesizer: Rethinking Self-Attention in Transformer Models》对自注意力机制做了一些“异想天开”的探索，里边的结果也许会颠覆我们对自注意力的认知。

点击阅读全文...

分类：信息时代标签：语言模型, attention 阅读全文 35 评论

3 Apr

P-tuning：自动构建模版，释放语言模型潜能

By 苏剑林 | 2021-04-03 | 162979位读者 | 引用

在之前的文章《必须要GPT3吗？不，BERT的MLM模型也能小样本学习》中，我们介绍了一种名为Pattern-Exploiting Training（PET）的方法，它通过人工构建的模版与BERT的MLM模型结合，能够起到非常好的零样本、小样本乃至半监督学习效果，而且该思路比较优雅漂亮，因为它将预训练任务和下游任务统一起来了。然而，人工构建这样的模版有时候也是比较困难的，而且不同的模版效果差别也很大，如果能够通过少量样本来自动构建模版，也是非常有价值的。

P-tuning直接使用[unused]来构建模版，不关心模版的自然语言性

最近Arxiv上的论文《GPT Understands, Too》提出了名为P-tuning的方法，成功地实现了模版的自动构建。不仅如此，借助P-tuning，GPT在SuperGLUE上的成绩首次超过了同等级别的BERT模型，这颠覆了一直以来“GPT不擅长NLU”的结论，也是该论文命名的缘由。

点击阅读全文...

分类：信息时代标签：语言模型, NLP 阅读全文 64 评论

19 Mar

为什么需要残差？一个来自DeepNet的视角

By 苏剑林 | 2022-03-19 | 67911位读者 | 引用

在《训练1000层的Transformer究竟有什么困难？》中我们介绍了微软提出的能训练1000层Transformer的DeepNet技术。而对于DeepNet，读者一般也有两种反应，一是为此感到惊叹而点赞，另一则是觉得新瓶装旧酒没意思。出现后一种反应的读者，往往是因为DeepNet所提出的两个改进点——增大恒等路径权重和降低残差分支初始化——实在过于稀松平常，并且其他工作也出现过类似的结论，因此很难有什么新鲜感。

诚然，单从结论来看，DeepNet实在算不上多有意思，但笔者觉得，DeepNet的过程远比结论更为重要，它有意思的地方在于提供了一个简明有效的梯度量级分析思路，并可以用于分析很多相关问题，比如本文要讨论的“为什么需要残差”，它就可以给出一个比较贴近本质的答案。

增量爆炸

为什么需要残差？答案是有了残差才更好训练深层模型，这里的深层可能是百层、千层甚至万层。那么问题就变成了为什么没有残差就不容易训练深层模型呢？

点击阅读全文...

分类：信息时代标签：模型, 优化, 深度学习, 梯度阅读全文 24 评论

30 Nov

用热传导方程来指导自监督学习

By 苏剑林 | 2022-11-30 | 34728位读者 | 引用

用理论物理来卷机器学习已经不是什么新鲜事了，比如上个月介绍的《生成扩散模型漫谈（十三）：从万有引力到扩散模型》就是经典一例。最近一篇新出的论文《Self-Supervised Learning based on Heat Equation》，顾名思义，用热传导方程来做（图像领域的）自监督学习，引起了笔者的兴趣。这种物理方程如何在机器学习中发挥作用？同样的思路能否迁移到NLP中？让我们一起来读读论文。

基本方程

如下图，左边是物理中热传导方程的解，右端则是CAM、积分梯度等显著性方法得到的归因热力图，可以看到两者有一定的相似之处，于是作者认为热传导方程可以作为好的视觉特征的一个重要先验。

热方程的热力图（左）和视觉模型的热力图（右）

点击阅读全文...

分类：信息时代标签：物理, 无监督阅读全文 9 评论

14 Mar

缓解交叉熵过度自信的一个简明方案

By 苏剑林 | 2023-03-14 | 37384位读者 | 引用

众所周知，分类问题的常规评估指标是正确率，而标准的损失函数则是交叉熵，交叉熵有着收敛快的优点，但它并非是正确率的光滑近似，这就带来了训练和预测的不一致性问题。另一方面，当训练样本的预测概率很低时，交叉熵会给出一个非常巨大的损失（趋于$-\log 0^{+}=\infty$），这意味着交叉熵会特别关注预测概率低的样本——哪怕这个样本可能是“脏数据”。所以，交叉熵训练出来的模型往往有过度自信现象，即每个样本都给出较高的预测概率，这会带来两个副作用：一是对脏数据的过度拟合带来的效果下降，二是预测的概率值无法作为不确定性的良好指标。

围绕交叉熵的改进，学术界一直都有持续输出，目前这方面的研究仍处于“八仙过海，各显神通”的状态，没有标准答案。在这篇文章中，我们来学习一下论文《Tailoring Language Generation Models under Total Variation Distance》给出的该问题的又一种简明的候选方案。

点击阅读全文...

分类：信息时代标签：优化, 损失函数, 光滑阅读全文 14 评论

20 Sep

自然数集中 N = ab + c 时 a + b + c 的最小值

By 苏剑林 | 2023-09-20 | 43079位读者 | 引用

前天晚上微信群里有群友提出了一个问题：

对于一个任意整数$N > 100$，求一个近似算法，使得$N=a\times b+c$（其中$a,b,c$都是非负整数），并且令$a+b+c$尽量地小。

初看这道题，笔者第一感觉就是“这还需要算法？”，因为看上去自由度太大了，应该能求出个解析解才对，于是简单分析了一下之后就给出了个“答案”，结果很快就有群友给出了反例。这时，笔者才意识到这题并非那么平凡，随后正式推导了一番，总算得到了一个可行的算法。正当笔者以为这个问题已经结束时，另一个数学群的群友精妙地构造了新的参数化，证明了算法的复杂度还可以进一步下降！

整个过程波澜起伏，让笔者获益匪浅，遂将过程记录在此，与大家分享。

点击阅读全文...

分类：数学研究,问题百科标签：最优, 问题阅读全文 14 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

从动力学角度看优化算法（二）：自适应学习率算法

RMSprop

算法概览

“非自回归”也不差：基于MLM的阅读理解问答

Google新作Synthesizer：我们还不够了解自注意力

写在开头

P-tuning：自动构建模版，释放语言模型潜能

为什么需要残差？一个来自DeepNet的视角

增量爆炸

用热传导方程来指导自监督学习

基本方程

缓解交叉熵过度自信的一个简明方案

自然数集中 N = ab + c 时 a + b + c 的最小值

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接