10 Apr

从JL引理看熵不变性Attention

By 苏剑林 | 2023-04-10 | 51703位读者 |

在《从熵不变性看Attention的Scale操作》、《熵不变性Softmax的一个快速推导》中笔者提出了熵不变性Softmax，简单来说就是往Softmax之前的Attention矩阵多乘上一个$\log n$，理论上有助于增强长度外推性，其中$n$是序列长度。$\log n$这个因子让笔者联系到了JL引理（Johnson-Lindenstrauss引理），因为JL引理告诉我们编码$n$个向量只需要$\mathcal{O}(\log n)$的维度就行了，大家都是$\log n$，这两者有没有什么关联呢？

熵不变性 #

我们知道，熵是不确定性的度量，用在注意力机制中，我们将它作为“集中注意力的程度”。所谓熵不变性，指的是不管序列长度$n$是多少，我们都要将注意力集中在关键的几个token上，而不要太过分散。为此，我们提出的熵不变性Attention形式为
\begin{equation}Attention(Q,K,V) = softmax\left(\frac{\log_{512} n}{\sqrt{d}}QK^{\top}\right)V\label{eq:core}\end{equation}
这里$Q,K\in\mathbb{R}^{n\times d}$。跟常规的Attention相比，就是scale的因子多了个$\log_{512} n$，其中底数取512，是假设我们所有的超参数（比如$d$）都是为训练长度512调好的。当然，即便你计划中的预训练长度不是512，底数也可以直接无脑取512，结果基本不会有什么影响。

这个形式的原理也很直观，当$n$增大时，意味着有更多的token去平摊了注意力，导致注意力不集中，此时我们乘上一个关于$n$单调递增的因子，softmax之后它实际上就相当于原来概率的幂运算，由于概率都小于1，所以概率越小幂运算之后会变得更小，这样注意力重新变得集中起来。至于这个因子为什么是对数的形式，那就需要看开头文章的推导过程了。

JL引理 #

JL引理，全称“Johnson-Lindenstrauss引理”，是关于向量嵌入的一个重要结论，简单来说它就是告诉我们“要塞下$n$个向量，只需$\mathcal{O}(\log n)$维空间”（这里的$\log$没有写出底数，默认都是以自然对数$e$为底），详细介绍可以参考《让人惊叹的Johnson-Lindenstrauss引理：理论篇》。

有意思的是，早在笔者知道JL引理之前，就在《最小熵原理（六）：词向量的维度应该怎么选择？》推导过同样的、甚至更具体的结果——嵌入$n$个词向量，大致上需要$8\log n$维空间就行了。这个估计跟实际使用的维度很接近，比如$n$等于10万时，$8\log n$算出来大概是92，而我们经常用的词向量维度也是一两百维这个量级。

另外，JL引理还可以用来解释注意力机制的多头性。如果代入$n=512$，那么$8\log n\approx 50$，这跟Attention的Q、K常用的投影维度（也就是key_size，BERT里边是64，参考这里）很接近，这就告诉我们，如果序列长度时512，那么算Attention的Q、K的维度在50这个量级就够了，没必要用全部的hidden_size（BERT base是768），省下来的维度可以转而用来做多头注意力。

联系起来 #

现在，我们就可以尝试JL引理跟熵不变性Attention联系起来了。

我们将Q、K的key_size记为$d$，那么JL引理告诉我们，$d$的最佳选择应该是$d_n=\lambda \log n$，这里的$\lambda$是比例常数，具体是多少不重要。也就是说，理想情况下，$d$应该随着$n$的变化而变化，但很显然这样的设计并不容易实现，也不利于计算的并行化，所以实际情况下我们都只能使用固定的$d$。

假设我们选定了一个固定的$d$，并且假设这个$d$是为训练长度512设计的，那么我们可以得出$d = \lambda \log 512$，也就是$\lambda = \frac{d}{\log 512}$，以及
\begin{equation}d_n = \frac{d}{\log 512}\log n=d\log_{512} n\end{equation}
对于$n\neq 512$，理想情况下应该用$d_n$维的投影维度，但实际用了$d$维，根据内积的定义$\langle q,k\rangle = \sum\limits_{i=1}^d q_i k_i$，求和的项数正好等于维度数$d$，也就是说，理想情况下应该是$d_n$项求和，但实际上变为了$d$项求和，那么直觉上来看，如果每一项的贡献接近，那么我们将结果乘以$\frac{d_n}{d}$后，能够让结果更接近$d_n$项求和的理想情况，所以我们就得出，应当往$\langle q,k\rangle$中乘上因子
\begin{equation}\frac{d_n}{d} = \log_{512} n\end{equation}
来弥补实际情况与理想情况的差距。而常规的Scaled-Dot Attention乘上$\log_{512} n$后，正好是熵不变性Attention，也就是式$\eqref{eq:core}$。

这样，我们就将JL引理跟熵不变性Attention联系了起来。注意这只是个直观的、定性的理解过程，很难从定量角度将它进一步严格化，事实上也没有必要进一步定量化了，因为JL引理本身更多也只是一个定性的结论。

文章小结 #

本文构建了JL引理与熵不变性Attention之间的一个简单联系。

转载到请包括本文地址：https://kexue.fm/archives/9588

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Apr. 10, 2023). 《从JL引理看熵不变性Attention 》[Blog post]. Retrieved from https://kexue.fm/archives/9588

@online{kexuefm-9588,
        title={从JL引理看熵不变性Attention},
        author={苏剑林},
        year={2023},
        month={Apr},
        url={\url{https://kexue.fm/archives/9588}},
}

分类：数学研究,信息时代标签：熵, attention 14 评论

< Bias项的神奇作用：RoPE + Bias = 更好的长度外推性 | 梯度视角下的LoRA：简介、分析、猜测及推广 >

你也许还对下面的内容感兴趣

发表你的看法

syxue3

April 11th, 2023

6666

回复评论

nepro

April 18th, 2023

为什么GPT之类的LLM一般习惯于一步到位取和inner_dim一样的word_emb呢？出于工程上的方便优化么？

回复评论

苏剑林发表于 April 20th, 2023

这个没有太多的工作去考证过它的优异性，不过早年ALBERT的结果显示对token embedding进行低秩分解基本不会损失性能。

回复评论

nepro 发表于 April 23rd, 2023

感谢！我自己在尝试visual embedding接入LLM的时候，因为维数差异较大，纠结了很久。最后发现bridge这部分对于最终结果影响远没有数据大。

回复评论

苏剑林发表于 April 25th, 2023

数据为王。

回复评论

hazdzz

May 20th, 2023

「所谓熵不变性，指的是不管序列长度 $n$ 是多少，我们都要将注意力集中在关键的几个 token 上，而不要太过分散」

回复评论

hazdzz 发表于 May 20th, 2023

這樣做到目的，是不是想要得到一個 low-rank 的 attention map？

回复评论

苏剑林发表于 May 20th, 2023

不是low-rank，而是sparse。

回复评论

hazdzz 发表于 May 21st, 2023

既然如此，一個簡單的方法是可以使用 $\mathrm{Sparsemax}$。

回复评论

苏剑林发表于 May 23rd, 2023

Sparsemax及其后来改进我都略有关注，存在复杂度略高的问题。其实现在主要的问题不是如何实现sparse，而是要sparsity不变性（不随着长度的变化而变化）

回复评论

EarthsonLu

June 8th, 2023

苏神好:)

当n增大时，意味着有更多的token去平摊了注意力，导致注意力不集中。这句真是醍醐灌顶。

我觉得主要还是文本token的注意力存在局部性。所以当n增大，新增的token必然会稀释局部的注意力。

我在一个无向图场景下测了下熵不变性attention，表现还有所下降了。我是采样做的context。预测使用完整的context，并不会因为n增大而稀释注意力，因为新增的部分和原来的是同分布的，并不像文本那样（新增的都是远端token）。不知道我的理解是不是对。

回复评论

苏剑林发表于 June 12th, 2023

“我在一个无向图场景下测了下熵不变性attention”，是训练阶段就加入，还是后处理加入呢？

独立同分布情况下，可能确实不进行log n缩放比较好，这种情况下有点像In-Context Learning，需要平均多个结果来做出准确预测，而不是单独关注某个case。

回复评论

EarthsonLu 发表于 June 29th, 2023

训练的时候我抽的固定大小的context。

我这两天又想了一下，应该还是有一个被稀释的问题，不过和seq场景不一样。被稀释的是self attention的self，我猜测自身的attention肯定会被稀释（至少和其它样本不一样），相当于是一个大小为1的窗口邻域（只包含它自身）。我试试把Attention矩阵的diag扣掉看看（用mask=~torch.eye(n, dtype=bool)）

回复评论

苏剑林发表于 July 1st, 2023

是因为你的场景下self特别重要吗？但即便如此，似乎也没法解释log n缩放会下降的问题。

回复评论

取消回复

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

从JL引理看熵不变性Attention

熵不变性 #

JL引理 #

联系起来 #

文章小结 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接