包含关键字生成扩散模型的文章 - 科学空间|Scientific Spaces

10 Sep

Saliency Maps for RNN

RNN是很多序列任务的不二法门，比如文本分类任务的常用方法就是“词向量+LSTM+全连接分类器”。如下图

RNN分类器

假如这样的一个模型可以良好地工作，那么现在考虑一个任务是：如何衡量输入$w_1,\dots,w_n$对最终的分类结果的影响的重要程度（Saliency）呢？例如假设这是一个情感分类任务，那么怎么找出是哪些词对最终的分类有较为重要的影响呢？本文给出了一个较为直接的思路。

思路的原理很简单，因为我们是将RNN最后一步的状态向量（也就是绿色阴影所代表的向量）传递给后面的分类器进行分类的，因此最后一步的状态向量$\boldsymbol{h}_n$就是一个目标向量。而RNN是一个递推的过程，

点击阅读全文...

分类：信息时代标签：深度学习阅读全文 6 评论

19 Nov

更别致的词向量模型(一)：simpler glove

By 苏剑林 | 2017-11-19 | 45451位读者 | 引用

如果问我哪个是最方便、最好用的词向量模型，我觉得应该是word2vec，但如果问我哪个是最漂亮的词向量模型，我不知道，我觉得各个模型总有一些不足的地方。且不说试验效果好不好（这不过是评测指标的问题），就单看理论也没有一个模型称得上漂亮的。

本文讨论了一些大家比较关心的词向量的问题，很多结论基本上都是实验发现的，缺乏合理的解释，包括：

如果去构造一个词向量模型？
为什么用余弦值来做近义词搜索？向量的内积又是什么含义？
词向量的模长有什么特殊的含义？
为什么词向量具有词类比性质？（国王-男人+女人=女王）
得到词向量后怎么构建句向量？词向量求和作为简单的句向量的依据是什么？

这些讨论既有其针对性，也有它的一般性，有些解释也许可以直接迁移到对glove模型和skip gram模型的词向量性质的诠释中，读者可以自行尝试。

围绕着这些问题的讨论，本文提出了一个新的类似glove的词向量模型，这里称之为simpler glove，并基于斯坦福的glove源码进行修改，给出了本文的实现，具体代码在Github上。

点击阅读全文...

分类：信息时代标签：词向量, glove 阅读全文 6 评论

19 Nov

从条件概率到互信息

目前，词向量模型的原理基本都是词的上下文的分布可以揭示这个词的语义，就好比“看看你跟什么样的人交往，就知道你是什么样的人”，所以词向量模型的核心就是对上下文的关系进行建模。除了glove之外，几乎所有词向量模型都是在对条件概率$P(w|context)$进行建模，比如Word2Vec的skip gram模型就是对条件概率$P(w_2|w_1)$进行建模。但这个量其实是有些缺点的，首先它是不对称的，即$P(w_2|w_1)$不一定等于$P(w_1|w_2)$，这样我们在建模的时候，就要把上下文向量和目标向量区分开，它们不能在同一向量空间中；其次，它是有界的、归一化的量，这就意味着我们必须使用softmax等方法将它压缩归一，这造成了优化上的困难。

事实上，在NLP的世界里，有一个更加对称的量比单纯的$P(w_2|w_1)$更为重要，那就是
\[\frac{P(w_1,w_2)}{P(w_1)P(w_2)}=\frac{P(w_2|w_1)}{P(w_2)}\tag{1}\]
这个量的大概意思是“两个词真实碰面的概率是它们随机相遇的概率的多少倍”，如果它远远大于1，那么表明它们倾向于共同出现而不是随机组合的，当然如果它远远小于1，那就意味着它们俩是刻意回避对方的。这个量在NLP界是举足轻重的，我们暂且称它为“相关度“，当然，它的对数值更加出名，大名为点互信息（Pointwise Mutual Information，PMI）：
\[\text{PMI}(w_1,w_2)=\log \frac{P(w_1,w_2)}{P(w_1)P(w_2)}\tag{2}\]

有了上面的理论基础，我们认为，如果能直接对相关度进行建模，会比直接对条件概率$P(w_2|w_1)$建模更加合理，所以本文就围绕这个角度进行展开。在此之前，我们先进一步展示一下互信息本身的美妙性质。

点击阅读全文...

分类：信息时代标签：词向量, 互信息, glove 阅读全文 9 评论

19 Nov

更别致的词向量模型(五)：有趣的结果

By 苏剑林 | 2017-11-19 | 97456位读者 | 引用

最后，我们来看一下词向量模型$(15)$会有什么好的性质，或者说，如此煞费苦心去构造一个新的词向量模型，会得到什么回报呢？

模长的含义

似乎所有的词向量模型中，都很少会关心词向量的模长。有趣的是，我们上述词向量模型得到的词向量，其模长还能在一定程度上代表着词的重要程度。我们可以从两个角度理解这个事实。

在一个窗口内的上下文，中心词重复出现概率其实是不大的，是一个比较随机的事件，因此可以粗略地认为
\[P(w,w) \sim P(w)\tag{24}\]
所以根据我们的模型，就有
\[e^{\langle\boldsymbol{v}_{w},\boldsymbol{v}_{w}\rangle} =\frac{P(w,w)}{P(w)P(w)}\sim \frac{1}{P(w)}\tag{25}\]
所以
\[\Vert\boldsymbol{v}_{w}\Vert^2 \sim -\log P(w)\tag{26}\]
可见，词语越高频（越有可能就是停用词、虚词等），对应的词向量模长就越小，这就表明了这种词向量的模长确实可以代表词的重要性。事实上，$-\log P(w)$这个量类似IDF，有个专门的名称叫ICF，请参考论文《TF-ICF: A New Term Weighting Scheme for Clustering Dynamic Data Streams》。

点击阅读全文...

分类：信息时代标签：词向量, glove, 语义阅读全文 21 评论

19 Nov

更别致的词向量模型(三)：描述相关的模型

By 苏剑林 | 2017-11-19 | 129104位读者 | 引用

几何词向量

上述“月老”之云虽说只是幻想，但所面临的问题却是真实的。按照传统NLP的手段，我们可以统计任意两个词的共现频率以及每个词自身的频率，然后去算它们的相关度，从而得到一个“相关度矩阵”。然而正如前面所说，这个共现矩阵太庞大了，必须压缩降维，同时还要做数据平滑，给未出现的词对的相关度赋予一个合理的估值。

在已有的机器学习方案中，我们已经有一些对庞大的矩阵降维的经验了，比如SVD和pLSA，SVD是对任意矩阵的降维，而pLSA是对转移概率矩阵$P(j|i)$的降维，两者的思想是类似的，都是将一个大矩阵$\boldsymbol{A}$分解为两个小矩阵的乘积$\boldsymbol{A}\approx\boldsymbol{B}\boldsymbol{C}$，其中$\boldsymbol{B}$的行数等于$\boldsymbol{A}$的行数，$\boldsymbol{C}$的列数等于$\boldsymbol{A}$的列数，而它们本身的大小则远小于$\boldsymbol{A}$的大小。如果对$\boldsymbol{B},\boldsymbol{C}$不做约束，那么就是SVD；如果对$\boldsymbol{B},\boldsymbol{C}$做正定归一化约束，那就是pLSA。

但是如果是相关度矩阵，那么情况不大一样，它是正定的但不是归一的，我们需要为它设计一个新的压缩方案。借鉴矩阵分解的经验，我们可以设想把所有的词都放在$n$维空间中，也就是用$n$维空间中的一个向量来表示，并假设它们的相关度就是内积的某个函数（为什么是内积？因为矩阵乘法本身就是不断地做内积）：
\[\frac{P(w_i,w_j)}{P(w_i)P(w_j)}=f\big(\langle \boldsymbol{v}_i, \boldsymbol{v}_j\rangle\big)\tag{8}\]
其中加粗的$\boldsymbol{v}_i, \boldsymbol{v}_j$表示词$w_i,w_j$对应的词向量。从几何的角度看，我们就是把词语放置到了$n$维空间中，用空间中的点来表示一个词。

因为几何给我们的感觉是直观的，而语义给我们的感觉是复杂的，因此，理想情况下我们希望能够通过几何关系来反映语义关系。下面我们就根据我们所希望的几何特性，来确定待定的函数$f$。事实上，glove词向量的那篇论文中做过类似的事情，很有启发性，但glove的推导实在是不怎么好看。请留意，这里的观点是新颖的——从我们希望的性质，来确定我们的模型，而不是反过来有了模型再推导性质。

机场-飞机+火车=火车站

点击阅读全文...

分类：信息时代标签：词向量, glove 阅读全文 27 评论

19 Nov

更别致的词向量模型(六)：代码、分享与结语

By 苏剑林 | 2017-11-19 | 99609位读者 | 引用

列表

更别致的词向量模型(一)：simpler glove
更别致的词向量模型(二)：对语言进行建模
更别致的词向量模型(三)：描述相关的模型
更别致的词向量模型(四)：模型的求解
更别致的词向量模型(五)：有趣的结果
更别致的词向量模型(六)：代码、分享与结语

代码

本文的实现位于：https://github.com/bojone/simpler_glove

点击阅读全文...

分类：信息时代标签：词向量, glove 阅读全文 17 评论

15 Apr

基于CNN的阅读理解式问答模型：DGCNN

By 苏剑林 | 2018-04-15 | 467947位读者 | 引用

2019.08.20更新：开源了一个Keras版（https://kexue.fm/archives/6906）

早在年初的《Attention is All You Need》的介绍文章中就已经承诺过会分享CNN在NLP中的使用心得，然而一直不得其便。这几天终于下定决心来整理一下相关的内容了。

背景

事不宜迟，先来介绍一下模型的基本情况。

模型特点

本模型——我称之为DGCNN——是基于CNN和简单的Attention的模型，由于没有用到RNN结构，因此速度相当快，而且是专门为这种WebQA式的任务定制的，因此也相当轻量级。SQUAD排行榜前面的模型，如AoA、R-Net等，都用到了RNN，并且还伴有比较复杂的注意力交互机制，而这些东西在DGCNN中基本都没有出现。

这是一个在GTX1060上都可以几个小时训练完成的模型！

截止到2018.04.14的排行榜

DGCNN，全名为Dilate Gated Convolutional Neural Network，即“膨胀门卷积神经网络”，顾名思义，融合了两个比较新的卷积用法：膨胀卷积、门卷积，并增加了一些人工特征和trick，最终使得模型在轻、快的基础上达到最佳的效果。在本文撰写之时，本文要介绍的模型还位于榜首，得分（得分是准确率与F1的平均）为0.7583，而且是到目前为止唯一一个一直没有跌出前三名、并且获得周冠军次数最多的模型。

点击阅读全文...

分类：信息时代标签：模型, 问答, 深度学习阅读全文 106 评论

29 Jul

基于GRU和AM-Softmax的句子相似度模型

By 苏剑林 | 2018-07-29 | 362670位读者 | 引用

搞计算机视觉的朋友会知道，AM-Softmax是人脸识别中的成果。所以这篇文章就是借鉴人脸识别的做法来做句子相似度模型，顺便介绍在Keras下各种margin loss的写法。

背景

细想之下会发现，句子相似度与人脸识别有很多的相似之处～

已有的做法

在我搜索到的资料中，深度学习做句子相似度模型，就只有两种做法：一是输入一对句子，然后输出一个0/1标签代表相似程度，也就是视为一个二分类问题，比如《Learning Text Similarity with Siamese Recurrent Networks》中的模型是这样的

将句子相似度视为二分类模型

包括今年拍拍贷的“魔镜杯”，也是这种格式。另外一种做法是输入一个三元组“（句子A，跟A相似的句子，跟A不相似的句子）”，然后用triplet loss的做法解决，比如文章《Applying Deep Learning To Answer Selection: A Study And An Open Task》中的做法。

这两种做法其实也可以看成是一种，本质上是一样的，只不过loss和训练方法有所差别。但是，这两种方法却都有一个很严重的问题：负样本采样严重不足，导致效果提升非常慢。

点击阅读全文...

分类：信息时代标签：语义, 损失函数, 相似度阅读全文 94 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

RNN模型中输入的重要性的评估

Saliency Maps for RNN

更别致的词向量模型(一)：simpler glove

更别致的词向量模型(二)：对语言进行建模

从条件概率到互信息

更别致的词向量模型(五)：有趣的结果

模长的含义

更别致的词向量模型(三)：描述相关的模型

几何词向量

机场-飞机+火车=火车站

更别致的词向量模型(六)：代码、分享与结语

列表

代码

基于CNN的阅读理解式问答模型：DGCNN

背景

模型特点

基于GRU和AM-Softmax的句子相似度模型

背景

已有的做法

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接