科学空间|Scientific Spaces

感谢国家天文台LAMOST项目之“宇宙驿站”提供网络空间和数据库资源! 感谢国家天文台崔辰州博士等人的多方努力和技术支持！

科学空间致力于知识分享，所以欢迎您转载本站文章，但转载本站内容必须遵循 署名-非商业用途-保持一致 的创作共用协议。

参与科学空间

为了保证你的利益，推荐你注册为本站会员。同时欢迎通过邮件或留言进行交流、建议或反馈科学空间的问题。
会员注册会员登录查看全站文章归档页

12 Jan

Transformer升级之路：7、长度外推性与局部注意力

By 苏剑林 | 2023-01-12 | 103779位读者 | 引用

对于Transformer模型来说，其长度的外推性是我们一直在追求的良好性质，它是指我们在短序列上训练的模型，能否不用微调地用到长序列上并依然保持不错的效果。之所以追求长度外推性，一方面是理论的完备性，觉得这是一个理想模型应当具备的性质，另一方面也是训练的实用性，允许我们以较低成本（在较短序列上）训练出一个长序列可用的模型。

下面我们来分析一下加强Transformer长度外推性的关键思路，并由此给出一个“超强基线”方案，然后我们带着这个“超强基线”来分析一些相关的研究工作。

思维误区

第一篇明确研究Transformer长度外推性的工作应该是ALIBI，出自2021年中期，距今也不算太久。为什么这么晚（相比Transformer首次发表的2017年）才有人专门做这个课题呢？估计是因为我们长期以来，都想当然地认为Transformer的长度外推性是位置编码的问题，找到更好的位置编码就行了。

点击阅读全文...

分类：信息时代标签：语言模型, attention, 位置编码, 外推阅读全文 43 评论

4 Jan

如果家庭使用单一的热水器集中供热水，那么当我们想要用热水时，往往需要先放一段时间的冷水，而如果放冷水时间比较长的话，就会比较影响体验。所谓零冷水，实际上就是想办法提前把热水管中的冷水排放掉，以达到（几乎）瞬间出热水的效果。事实上，零冷水并不是什么高大上的技术，但可能由于观念没跟上、理解上有误等原因，零冷水技术还没有在家庭中得到普及，不过随着大家对生活品质的要求越来越高，零冷水确实在慢慢流行起来了。

本文来简单分析一下零冷水技术的实现原理，包括各种方案的优缺点和自省DIY的参考思路。

理想的零冷水方案

写在前面

在文章开始，需要纠正很多人的一个错误观念：零冷水不是为了省钱，而是为了提升生活品质。如果你是省钱最大的心态，那么接下来的内容就可以不用看了，零冷水技术对你毫无价值。

点击阅读全文...

分类：生活/情感标签：智能家居阅读全文 24 评论

28 Dec

Transformer升级之路：6、旋转位置编码的完备性分析

By 苏剑林 | 2022-12-28 | 45906位读者 | 引用

在去年的文章《Transformer升级之路：2、博采众长的旋转式位置编码》中，笔者提出了旋转位置编码（RoPE），当时的出发点只是觉得用绝对位置来实现相对位置是一件“很好玩的事情”，并没料到其实际效果还相当不错，并为大家所接受，不得不说这真是一个意外之喜。后来，在《Transformer升级之路：4、二维位置的旋转式位置编码》中，笔者讨论了二维形式的RoPE，并研究了用矩阵指数表示的RoPE的一般解。

既然有了一般解，那么自然就会引出一个问题：我们常用的RoPE，只是一个以二维旋转矩阵为基本单元的分块对角矩阵，如果换成一般解，理论上效果会不会更好呢？本文就来回答这个问题。

指数通解

在《Transformer升级之路：4、二维位置的旋转式位置编码》中，我们将RoPE抽象地定义为任意满足下式的方阵
\begin{equation}\boldsymbol{\mathcal{R}}_m^{\top}\boldsymbol{\mathcal{R}}_n=\boldsymbol{\mathcal{R}}_{n-m}\label{eq:re}\end{equation}

点击阅读全文...

分类：信息时代标签：矩阵, attention, 位置编码, rope 阅读全文 16 评论

22 Dec

生成扩散模型漫谈（十五）：构建ODE的一般步骤（中）

By 苏剑林 | 2022-12-22 | 35937位读者 | 引用

上周笔者写了《生成扩散模型漫谈（十四）：构建ODE的一般步骤（上）》（当时还没有“上”这个后缀），本以为已经窥见了构建ODE扩散模型的一般规律，结果不久后评论区大神 @gaohuazuo 就给出了一个构建格林函数更高效、更直观的方案，让笔者自愧不如。再联想起之前大神之前在《生成扩散模型漫谈（十二）：“硬刚”扩散ODE》同样也给出了一个关于扩散ODE的精彩描述（间接启发了上一篇博客的结果），大神的洞察力不得不让人叹服。

经过讨论和思考，笔者发现大神的思路本质上就是一阶偏微分方程的特征线法，通过构造特定的向量场保证初值条件，然后通过求解微分方程保证终值条件，同时保证了初值和终值条件，真的非常巧妙！最后，笔者将自己的收获总结成此文，作为上一篇的后续。

前情回顾

简单回顾一下上一篇文章的结果。假设随机变量$\boldsymbol{x}_0\in\mathbb{R}^d$连续地变换成$\boldsymbol{x}_T$，其变化规律服从ODE
\begin{equation}\frac{d\boldsymbol{x}_t}{dt}=\boldsymbol{f}_t(\boldsymbol{x}_t)\label{eq-ode}\end{equation}

点击阅读全文...

分类：信息时代标签：微分方程, 生成模型, 扩散, 格林函数阅读全文 11 评论

15 Dec

生成扩散模型漫谈（十四）：构建ODE的一般步骤（上）

By 苏剑林 | 2022-12-15 | 66461位读者 | 引用

书接上文，在《生成扩散模型漫谈（十三）：从万有引力到扩散模型》中，我们介绍了一个由万有引力启发的、几何意义非常清晰的ODE式生成扩散模型。有的读者看了之后就疑问：似乎“万有引力”并不是唯一的选择，其他形式的力是否可以由同样的物理绘景构建扩散模型？另一方面，该模型在物理上确实很直观，但还欠缺从数学上证明最后确实能学习到数据分布。

本文就尝试从数学角度比较精确地回答“什么样的力场适合构建ODE式生成扩散模型”这个问题。

基础结论

要回答这个问题，需要用到在《生成扩散模型漫谈（十二）：“硬刚”扩散ODE》中我们推导过的一个关于常微分方程对应的分布变化的结论。

考虑$\boldsymbol{x}_t\in\mathbb{R}^d, t\in[0,T]$的一阶（常）微分方程（组）
\begin{equation}\frac{d\boldsymbol{x}_t}{dt}=\boldsymbol{f}_t(\boldsymbol{x}_t)\label{eq:ode}\end{equation}

点击阅读全文...

分类：信息时代标签：微分方程, 生成模型, 扩散, 格林函数阅读全文 20 评论

7 Dec

从局部到全局：语义相似度的测地线距离

By 苏剑林 | 2022-12-07 | 36676位读者 | 引用

前段时间在最近的一篇论文《Unsupervised Opinion Summarization Using Approximate Geodesics》中学到了一个新的概念，叫做“测地线距离（Geodesic Distance）”，感觉有点意思，特来跟大家分享一下。

对笔者来说，“新”的不是测地线距离概念本身（以前学黎曼几何的时候就已经接触过了），而是语义相似度领域原来也可以巧妙地构造出测地线距离出来，并在某些场景下发挥作用。如果乐意，我们还可以说这是“流形上的语义相似度”，是不是瞬间就高级了不少？

论文梗概

首先，我们简单总结一下原论文的主要内容。顾名思义，论文的主题是摘要，通常我们的无监督摘要是这样做的：假设文章由$n$个句子$t_1,t_2,\cdots,t_n$组成，给每个句子设计打分函数$s(t_i)$（经典的是tf-idf及其变体），然后挑出打分最大的若干个句子作为摘要。当然，论文做的不是简单的摘要，而是“Opinion Summarization”，这个“Opinion”，我们可以理解为实现给定的主题或者中心$c$，摘要应该倾向于抽取出与$c$相关的句子，所以打分函数应该还应该跟$c$有关，即$s(t_i, c)$。

点击阅读全文...

分类：信息时代标签：黎曼几何, 语义, 语义相似度阅读全文 11 评论

5 Dec

智能家居之小爱同学控制极米投影仪的简单方案

By 苏剑林 | 2022-12-05 | 37287位读者 | 引用

前段时间买了一个极米投影仪，开始折腾才发现极米跟小米基本没啥关系，它根本无法跟小爱同学互动。在众多名字带“米”的品牌中，极米是为数不多的无法接入米家生态的品牌，想必有不少用户开始都会被极米这个名字误导，关键是极米投影仪还在小米商城上有得卖（捂脸）。

买都买了，还过了七天无理由，退是退不成了，只能试着折腾一下，看看能不能强行互动。

现有方案

首先网上搜了一下，网友给出的参考方案大体上有几种，一种是用“米家智能插座 + 上电自动开机”来控制开关机（事实上主要的联动就是开关机了），一种是接入Home Assistant后通过ADB控制，还有一种是修改遥控器，给遥控器加入红外模块，继而用小爱同学的红外遥控功能。

点击阅读全文...

分类：生活/情感标签：生活, 智能家居, 米家阅读全文 3 评论

30 Nov

用热传导方程来指导自监督学习

By 苏剑林 | 2022-11-30 | 34715位读者 | 引用

用理论物理来卷机器学习已经不是什么新鲜事了，比如上个月介绍的《生成扩散模型漫谈（十三）：从万有引力到扩散模型》就是经典一例。最近一篇新出的论文《Self-Supervised Learning based on Heat Equation》，顾名思义，用热传导方程来做（图像领域的）自监督学习，引起了笔者的兴趣。这种物理方程如何在机器学习中发挥作用？同样的思路能否迁移到NLP中？让我们一起来读读论文。

基本方程

如下图，左边是物理中热传导方程的解，右端则是CAM、积分梯度等显著性方法得到的归因热力图，可以看到两者有一定的相似之处，于是作者认为热传导方程可以作为好的视觉特征的一个重要先验。

热方程的热力图（左）和视觉模型的热力图（右）

点击阅读全文...

分类：信息时代标签：物理, 无监督阅读全文 9 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

参与科学空间

Transformer升级之路：7、长度外推性与局部注意力

思维误区

智能家居之热水器零冷水技术原理浅析

写在前面

Transformer升级之路：6、旋转位置编码的完备性分析

指数通解

生成扩散模型漫谈（十五）：构建ODE的一般步骤（中）

前情回顾

生成扩散模型漫谈（十四）：构建ODE的一般步骤（上）

基础结论

从局部到全局：语义相似度的测地线距离

论文梗概

智能家居之小爱同学控制极米投影仪的简单方案

现有方案

用热传导方程来指导自监督学习

基本方程

关于站长

智能搜索

热门标签

最新文章

最近评论

友情链接