包含关键字 Transformer升级之路的文章 - 科学空间|Scientific Spaces

13 Jun

“噪声对比估计”杂谈：曲径通幽之妙

By 苏剑林 | 2018-06-13 | 187233位读者 | 引用

说到噪声对比估计，或者“负采样”，大家可能立马就想到了Word2Vec。事实上，它的含义远不止于此，噪音对比估计（NCE, Noise Contrastive Estimation）是一个迂回但却异常精美的技巧，它使得我们在没法直接完成归一化因子（也叫配分函数）的计算时，就能够去估算出概率分布的参数。本文就让我们来欣赏一下NCE的曲径通幽般的美妙。

注：由于出发点不同，本文所介绍的“噪声对比估计”实际上更偏向于所谓的“负采样”技巧，但两者本质上是一样的，在此不作区分。

问题起源

问题的根源是难分难舍的指数概率分布～

指数族分布

在很多问题中都会出现指数族分布，即对于某个变量$\boldsymbol{x}$的概率$p(\boldsymbol{x})$，我们将其写成
$$p(\boldsymbol{x}) = \frac{e^{G(\boldsymbol{x})}}{Z}\tag{1}$$
其中$G(\boldsymbol{x})$是$\boldsymbol{x}$的某个“能量”函数，而$Z=\sum_{\boldsymbol{x}} e^{G(\boldsymbol{x})}$则是归一化常数，也叫配分函数。这种分布也称为“玻尔兹曼分布”。

点击阅读全文...

分类：数学研究标签：概率, 词向量, 估计阅读全文 73 评论

9 Sep

重新写了之前的新词发现算法：更快更好的新词发现

By 苏剑林 | 2019-09-09 | 102492位读者 | 引用

新词发现是NLP的基础任务之一，主要是希望通过无监督发掘一些语言特征（主要是统计特征），来判断一批语料中哪些字符片段可能是一个新词。本站也多次围绕“新词发现”这个话题写过文章，比如：

《新词发现的信息熵方法与实现》
《【中文分词系列】 2. 基于切分的新词发现》
《【中文分词系列】 5. 基于语言模型的无监督分词》
《【中文分词系列】 7. 深度学习分词？只需一个词典！》
《【中文分词系列】 8. 更好的新词发现算法》
《分享一次专业领域词汇的无监督挖掘》

在这些文章之中，笔者觉得理论最漂亮的是《基于语言模型的无监督分词》，而作为新词发现算法来说综合性能比较好的应该是《更好的新词发现算法》，本文就是复现这篇文章的新词发现算法。

点击阅读全文...

分类：信息时代标签：分词, 无监督, NLP, 新词发现阅读全文 30 评论

18 Jan

多任务学习漫谈（一）：以损失之名

By 苏剑林 | 2022-01-18 | 165179位读者 | 引用

能提升模型性能的方法有很多，多任务学习（Multi-Task Learning）也是其中一种。简单来说，多任务学习是希望将多个相关的任务共同训练，希望不同任务之间能够相互补充和促进，从而获得单任务上更好的效果（准确率、鲁棒性等）。然而，多任务学习并不是所有任务堆起来就能生效那么简单，如何平衡每个任务的训练，使得各个任务都尽量获得有益的提升，依然是值得研究的课题。

最近，笔者机缘巧合之下，也进行了一些多任务学习的尝试，借机也学习了相关内容，在此挑部分结果与大家交流和讨论。

加权求和

从损失函数的层面看，多任务学习就是有多个损失函数$\mathcal{L}_1,\mathcal{L}_2,\cdots,\mathcal{L}_n$，一般情况下它们有大量的共享参数、少量的独立参数，而我们的目标是让每个损失函数都尽可能地小。为此，我们引入权重$\alpha_1,\alpha_2,\cdots,\alpha_n\geq 0$，通过加权求和的方式将它转化为如下损失函数的单任务学习
\begin{equation}\mathcal{L} = \sum_{i=1}^n \alpha_i \mathcal{L}_i\label{eq:w-loss}\end{equation}
在这个视角下，多任务学习的主要难点就是如何确定各个$\alpha_i$了。

点击阅读全文...

分类：信息时代标签：深度学习, 损失函数, 多任务阅读全文 59 评论

14 Feb

多任务学习漫谈（三）：分主次之序

By 苏剑林 | 2022-02-14 | 37856位读者 | 引用

多任务学习是一个很宽泛的命题，不同场景下多任务学习的目标不尽相同。在《多任务学习漫谈（一）：以损失之名》和《多任务学习漫谈（二）：行梯度之事》中，我们将多任务学习的目标理解为“做好每一个任务”，具体表现是“尽量平等地处理每一个任务”，我们可以称之为“平行型多任务学习”。然而，并不是所有多任务学习的目标都是如此，在很多场景下，我们主要还是想学好某一个主任务，其余任务都只是辅助，希望通过增加其他任务的学习来提升主任务的效果罢了，此类场景我们可以称为“主次型多任务学习”。

在这个背景下，如果还是沿用平行型多任务学习的“做好每一个任务”的学习方案，那么就可能会明显降低主任务的效果了。所以本文继续沿着“行梯度之事”的想法，探索主次型多任务学习的训练方案。

目标形式

在这篇文章中，我们假设读者已经阅读并且基本理解《多任务学习漫谈（二）：行梯度之事》里边的思想和方法，那么在梯度视角下，让某个损失函数保持下降的必要条件是更新量与其梯度夹角至少大于90度，这是贯穿全文的设计思想。

点击阅读全文...

分类：信息时代标签：深度学习, 损失函数, 梯度, 多任务阅读全文 7 评论

3 Aug

生成扩散模型漫谈（五）：一般框架之SDE篇

By 苏剑林 | 2022-08-03 | 223059位读者 | 引用

在写生成扩散模型的第一篇文章时，就有读者在评论区推荐了宋飏博士的论文《Score-Based Generative Modeling through Stochastic Differential Equations》，可以说该论文构建了一个相当一般化的生成扩散模型理论框架，将DDPM、SDE、ODE等诸多结果联系了起来。诚然，这是一篇好论文，但并不是一篇适合初学者的论文，里边直接用到了随机微分方程（SDE）、Fokker-Planck方程、得分匹配等大量结果，上手难度还是颇大的。

不过，在经过了前四篇文章的积累后，现在我们可以尝试去学习一下这篇论文了。在接下来的文章中，笔者将尝试从尽可能少的理论基础出发，尽量复现原论文中的推导结果。

随机微分

在DDPM中，扩散过程被划分为了固定的$T$步，还是用《生成扩散模型漫谈（一）：DDPM = 拆楼 + 建楼》的类比来说，就是“拆楼”和“建楼”都被事先划分为了$T$步，这个划分有着相当大的人为性。事实上，真实的“拆”、“建”过程应该是没有刻意划分的步骤的，我们可以将它们理解为一个在时间上连续的变换过程，可以用随机微分方程（Stochastic Differential Equation，SDE）来描述。

点击阅读全文...

分类：信息时代标签：微分方程, 生成模型, DDPM, 扩散阅读全文 167 评论

14 Jan

旁门左道之如何让Python的重试代码更加优雅

By 苏剑林 | 2024-01-14 | 42859位读者 | 引用

这篇文章我们讨论一个编程题：如何更优雅地在Python中实现重试。

在文章《新年快乐！记录一下 Cool Papers 的开发体验》中，笔者分享了开发Cool Papers的一些经验，其中就提到了Cool Papers所需要的一些网络通信步骤。但凡涉及到网络通信，就有失败的风险（谁也无法保证网络不会间歇性抽风），所以重试是网络通信的基本操作。此外，当涉及到多进程、数据库、硬件交互等操作时，通常也需要引入重试机制。

在Python中，实现重试并不难，但如何更加简单而又不失可读性地实现重试，还是有一定技巧的。接下来笔者分享一下自己的尝试。

循环重试

完整的重试流程大致上包含循环重试、异常处理、延时等待、后续操作等部分，其标准写法就是用for循环，用“try ... except ...”来捕捉异常，一个参考代码是：

点击阅读全文...

分类：信息时代标签：编程, 代码, python, 优化阅读全文 10 评论

2 Aug

互联网的虚拟操作系统：全球主操作系统

By 苏剑林 | 2009-08-02 | 16804位读者 | 引用

我们经常听到在政治、军事等问题上，以色列和巴勒斯坦有多少的冲突，打了多少的仗，这就是所谓的“巴以冲突”。可是，在IT技术领域，两国的技术人员却跨越隔离墙的重重障碍，携手开发出全球的又一个“第一”。

在经过了三年的开发之后，以色列的一家软件开发公司近日宣布推出全球首款基于互联网的虚拟操作系统。运用这一系统，用户可以在世界上任何地方直接读取自己个人电脑上的桌面和数据。

Ghost官方网站：http://g.ho.st

这款操作系统叫作“Ghost”，其中文名称为“精灵”，英文名，全称Global Hosted Operating System，意思是“全球主操作系统”，Ghost是全球首款基于网络的“云计算”操作系统。目前该系统可以提供包括简体中文在内的20种语言的版本，全球用户已经达到20万。

点击阅读全文...

分类：千奇百怪标签：系统, 互联网, 虚拟阅读全文抢沙发

18 Aug

如何在科学空间输入数学公式？——LaTeX帮助

By 苏剑林 | 2009-08-18 | 130512位读者 | 引用

$$\pi=\frac{426880\sqrt{10005}}{\sum_{n=0}^{\infty} \frac{(6n)!(545140134n+13591409)}{(n!)^3(3n)!(-640320)^{3n}}}$$

首先得感谢ASCIIMath Image Fallback网站，是他们开发出这个强大的js，使得在任何网站的输入数学公式成为可能。然后感谢“数学研发论坛”，是他们的站长郭先强完善了这个js文件，使其达到前所未有的强大化。

科学空间是通过调用一个js来显示数学公式的，只要在需要显示数学公式的网站加入代码以下代码，就可以实现支持数学公式的功能。

点击阅读全文...

分类：问题百科标签：数学, latex, 公式, 帮助阅读全文 37 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

“噪声对比估计”杂谈：曲径通幽之妙

问题起源

指数族分布

重新写了之前的新词发现算法：更快更好的新词发现

多任务学习漫谈（一）：以损失之名

加权求和

多任务学习漫谈（三）：分主次之序

目标形式

生成扩散模型漫谈（五）：一般框架之SDE篇

随机微分

旁门左道之如何让Python的重试代码更加优雅

循环重试

互联网的虚拟操作系统：全球主操作系统

如何在科学空间输入数学公式？——LaTeX帮助

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接