包含关键字条件随机场的文章 - 科学空间|Scientific Spaces

28 Feb

生成扩散模型漫谈（十八）：得分匹配 = 条件得分匹配

By 苏剑林 | 2023-02-28 | 33281位读者 | 引用

在前面的介绍中，我们多次提及“得分匹配”和“条件得分匹配”，它们是扩散模型、能量模型等经常出现的概念，特别是很多文章直接说扩散模型的训练目标是“得分匹配”，但事实上当前主流的扩散模型如DDPM的训练目标是“条件得分匹配”才对。

那么“得分匹配”与“条件得分匹配”具体是什么关系呢？它们两者是否等价呢？本文详细讨论这个问题。

得分匹配

首先，得分匹配（Score Matching）是指训练目标：
\begin{equation}\mathbb{E}_{\boldsymbol{x}_t\sim p_t(\boldsymbol{x}_t)}\left[\left\Vert\nabla_{\boldsymbol{x}_t}\log p_t(\boldsymbol{x}_t) - \boldsymbol{s}_{\boldsymbol{\theta}}(\boldsymbol{x}_t,t)\right\Vert^2\right]\label{eq:sm}\end{equation}
其中$\boldsymbol{\theta}$是训练参数。很明显，得分匹配是想学习一个模型$\boldsymbol{s}_{\boldsymbol{\theta}}(\boldsymbol{x}_t,t)$来逼近$\nabla_{\boldsymbol{x}_t}\log p_t(\boldsymbol{x}_t)$，这里的$\nabla_{\boldsymbol{x}_t}\log p_t(\boldsymbol{x}_t)$我们就称为“得分”。

点击阅读全文...

分类：数学研究,信息时代标签：概率, 分析, 生成模型, 扩散阅读全文 8 评论

23 Sep

圆满的句号——汽车站的邂逅

By 苏剑林 | 2010-09-23 | 33377位读者 | 引用

21日，是我从北京回家的日子。上午一切都很顺利，很早就赶到机场了，而且飞机也没有晚点。然而，事情却出现了一点意外——

原来由于台风影响，广东正在下暴雨，于是，飞机在广州上空盘旋了半个多小时，本来16:00就可以下的飞机，却到了近17:00才下。庆幸的是，这一次我没有把行李托运，于是下机后马上飞奔门口，乘坐机场快巴。还好，赶上了17:10的快巴。又是两个小时的路程，19:00左右，我到了肇庆汽车总站...

汽车站的售票人员说现在回新兴最早的班车是20:10的，距离现在还有一个小时，我犹豫了一下：这让我等太久了吧...抱着侥幸的心态，我打车到了肇庆的桥西汽车站，希望那儿会有早一点的班车。然而，结果是失望的：途径新兴的车都没有了。这时，在我前边的一个女孩出声了——

点击阅读全文...

分类：生活/情感标签：朋友, 回忆, 竞赛阅读全文 5 评论

18 Jul

记2011北京大学天文夏令营

By 苏剑林 | 2011-07-18 | 30200位读者 | 引用

转眼间，为期四天的北京大学天文夏令营就已经结束了。载着不舍的情绪，含着怀念的泪光，挥一挥道别的手，营员们各自踏上了自己归家的路。美好的时光总是如箭般飞逝，纵然有万般无奈与不舍，我们依然为能够拥有这段欢聚的宝贵时光而感到满足。是的，不管我们走到哪里，我们都不会忘记我们曾经相聚过，我们始终没有忘记，在星空的底下有一群人和我一样默默凝视着璀璨的银河；我们也一直在憧憬着，下一次天文聚会的到来。

闭上眼睛，相聚的日子仿佛就是昨天，相聚的情景仿佛就在眼前。一切都是那么美好，那么珍贵。

点击阅读全文...

分类：生活/情感标签：活动, 夏令营阅读全文 2 评论

1 May

【不可思议的Word2Vec】 4.不一样的“相似”

By 苏剑林 | 2017-05-01 | 150784位读者 | 引用

相似度的定义

当用Word2Vec得到词向量后，一般我们会用余弦相似度来比较两个词的相似程度，定义为
$$\cos (\boldsymbol{x}, \boldsymbol{y}) = \frac{\boldsymbol{x}\cdot\boldsymbol{y}}{|\boldsymbol{x}|\times|\boldsymbol{y}|}$$
有了这个相似度概念，我们既可以比较任意两个词之间的相似度，也可以找出跟给定词最相近的词语。这在gensim的Word2Vec中，由most_similar函数实现。

等等！我们很快给出了相似度的计算公式，可是我们居然还没有“定义”相似！连相似都没有定义，怎么就得到了评估相似度的数学公式了呢？

要注意，这不是一个可以随意忽略的问题。很多时候我们都不知道我们干的是什么，就直接去干了。好比上一篇文章说到提取关键词，相信很多人都未曾想过，什么是关键词，难道就仅仅说关键词就是很“关键”的词？而如果想到，关键词就是用来估计文章大概讲什么的，这样我们就得到一种很自然的关键词定义
$$keywords = \mathop{\text{argmax}}_{w\in s}p(s|w)$$
进而可以用各种方法对它建模。

回到本文的主题来，相似度怎么定义呢？答案是：看场景定义所需要的相似。

点击阅读全文...

分类：信息时代标签：词向量, Word2Vec, 互信息阅读全文 40 评论

5 Dec

智能家居之小爱同学控制极米投影仪的简单方案

By 苏剑林 | 2022-12-05 | 36476位读者 | 引用

前段时间买了一个极米投影仪，开始折腾才发现极米跟小米基本没啥关系，它根本无法跟小爱同学互动。在众多名字带“米”的品牌中，极米是为数不多的无法接入米家生态的品牌，想必有不少用户开始都会被极米这个名字误导，关键是极米投影仪还在小米商城上有得卖（捂脸）。

买都买了，还过了七天无理由，退是退不成了，只能试着折腾一下，看看能不能强行互动。

现有方案

首先网上搜了一下，网友给出的参考方案大体上有几种，一种是用“米家智能插座 + 上电自动开机”来控制开关机（事实上主要的联动就是开关机了），一种是接入Home Assistant后通过ADB控制，还有一种是修改遥控器，给遥控器加入红外模块，继而用小爱同学的红外遥控功能。

点击阅读全文...

分类：生活/情感标签：生活, 智能家居, 米家阅读全文 3 评论

15 Jul

科学空间：2010年7月重要天象

By 苏剑林 | 2010-07-15 | 24993位读者 | 引用

20100712(北京时间)日全食

与去年有些类似，今年7月也将因日全食的发生而带动又一轮天文热潮。遗憾的是，本次日食在我国境内观测不到，而且全食带覆盖的绝大多数地区是海洋，尽管如此，世界各地的许多天文爱好者依然会前去观测。此外，7月虽然没有较大流量的流星雨活动，但除水星外的几颗行星观测条件还都不错，其中金星、火星和土星日落时出现在西南方天空中，且彼此角距离在逐渐减小。木星于晚22时从东方升起，后半夜的观测条件较佳。

点击阅读全文...

分类：天文探索标签：天象, 日食阅读全文抢沙发

19 Nov

更别致的词向量模型(一)：simpler glove

By 苏剑林 | 2017-11-19 | 44134位读者 | 引用

如果问我哪个是最方便、最好用的词向量模型，我觉得应该是word2vec，但如果问我哪个是最漂亮的词向量模型，我不知道，我觉得各个模型总有一些不足的地方。且不说试验效果好不好（这不过是评测指标的问题），就单看理论也没有一个模型称得上漂亮的。

本文讨论了一些大家比较关心的词向量的问题，很多结论基本上都是实验发现的，缺乏合理的解释，包括：

如果去构造一个词向量模型？
为什么用余弦值来做近义词搜索？向量的内积又是什么含义？
词向量的模长有什么特殊的含义？
为什么词向量具有词类比性质？（国王-男人+女人=女王）
得到词向量后怎么构建句向量？词向量求和作为简单的句向量的依据是什么？

这些讨论既有其针对性，也有它的一般性，有些解释也许可以直接迁移到对glove模型和skip gram模型的词向量性质的诠释中，读者可以自行尝试。

围绕着这些问题的讨论，本文提出了一个新的类似glove的词向量模型，这里称之为simpler glove，并基于斯坦福的glove源码进行修改，给出了本文的实现，具体代码在Github上。

点击阅读全文...

分类：信息时代标签：词向量, glove 阅读全文 6 评论

19 Nov

更别致的词向量模型(三)：描述相关的模型

By 苏剑林 | 2017-11-19 | 125952位读者 | 引用

几何词向量

上述“月老”之云虽说只是幻想，但所面临的问题却是真实的。按照传统NLP的手段，我们可以统计任意两个词的共现频率以及每个词自身的频率，然后去算它们的相关度，从而得到一个“相关度矩阵”。然而正如前面所说，这个共现矩阵太庞大了，必须压缩降维，同时还要做数据平滑，给未出现的词对的相关度赋予一个合理的估值。

在已有的机器学习方案中，我们已经有一些对庞大的矩阵降维的经验了，比如SVD和pLSA，SVD是对任意矩阵的降维，而pLSA是对转移概率矩阵$P(j|i)$的降维，两者的思想是类似的，都是将一个大矩阵$\boldsymbol{A}$分解为两个小矩阵的乘积$\boldsymbol{A}\approx\boldsymbol{B}\boldsymbol{C}$，其中$\boldsymbol{B}$的行数等于$\boldsymbol{A}$的行数，$\boldsymbol{C}$的列数等于$\boldsymbol{A}$的列数，而它们本身的大小则远小于$\boldsymbol{A}$的大小。如果对$\boldsymbol{B},\boldsymbol{C}$不做约束，那么就是SVD；如果对$\boldsymbol{B},\boldsymbol{C}$做正定归一化约束，那就是pLSA。

但是如果是相关度矩阵，那么情况不大一样，它是正定的但不是归一的，我们需要为它设计一个新的压缩方案。借鉴矩阵分解的经验，我们可以设想把所有的词都放在$n$维空间中，也就是用$n$维空间中的一个向量来表示，并假设它们的相关度就是内积的某个函数（为什么是内积？因为矩阵乘法本身就是不断地做内积）：
\[\frac{P(w_i,w_j)}{P(w_i)P(w_j)}=f\big(\langle \boldsymbol{v}_i, \boldsymbol{v}_j\rangle\big)\tag{8}\]
其中加粗的$\boldsymbol{v}_i, \boldsymbol{v}_j$表示词$w_i,w_j$对应的词向量。从几何的角度看，我们就是把词语放置到了$n$维空间中，用空间中的点来表示一个词。

因为几何给我们的感觉是直观的，而语义给我们的感觉是复杂的，因此，理想情况下我们希望能够通过几何关系来反映语义关系。下面我们就根据我们所希望的几何特性，来确定待定的函数$f$。事实上，glove词向量的那篇论文中做过类似的事情，很有启发性，但glove的推导实在是不怎么好看。请留意，这里的观点是新颖的——从我们希望的性质，来确定我们的模型，而不是反过来有了模型再推导性质。

机场-飞机+火车=火车站

点击阅读全文...

分类：信息时代标签：词向量, glove 阅读全文 27 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

生成扩散模型漫谈（十八）：得分匹配 = 条件得分匹配

得分匹配

圆满的句号——汽车站的邂逅

记2011北京大学天文夏令营

【不可思议的Word2Vec】 4.不一样的“相似”

相似度的定义

智能家居之小爱同学控制极米投影仪的简单方案

现有方案

科学空间：2010年7月重要天象

更别致的词向量模型(一)：simpler glove

更别致的词向量模型(三)：描述相关的模型

几何词向量

机场-飞机+火车=火车站

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接