n维空间下两个随机向量的夹角分布
By 苏剑林 | 2019-11-13 | 197015位读者 |昨天群里大家讨论到了$n$维向量的一些反直觉现象,其中一个话题是“一般$n$维空间下两个随机向量几乎都是垂直的”,这就跟二维/三维空间的认知有明显出入了。要从理论上认识这个结论,我们可以考虑两个随机向量的夹角$\theta$分布,并算算它的均值方差。
概率密度 #
首先,我们来推导$\theta$的概率密度函数。呃,其实也不用怎么推导,它是$n$维超球坐标的一个直接结论。
要求两个随机向量之间的夹角分布,很显然,由于各向同性,所以我们只需要考虑单位向量,而同样是因为各向同性,我们只需要固定其中一个向量,考虑另一个向量随机变化。不是一般性,考虑随机向量为
\begin{equation}\boldsymbol{x}=(x_1,x_2,\dots,x_n)\end{equation}
而固定向量为
\begin{equation}\boldsymbol{y}=(1,0,\dots,0)\end{equation}
将$\boldsymbol{x}$变换为超球坐标(关于$n$维球的知识可以参考维基百科):
\begin{equation}
\left\{\begin{aligned}
x_{1}&=\cos(\varphi_{1})\\
x_{2}&=\sin(\varphi_{1})\cos(\varphi_{2})\\
x_{3}&=\sin(\varphi_{1})\sin(\varphi_{2})\cos(\varphi_{3})\\
&\,\,\vdots \\
x_{n-1}&=\sin(\varphi_{1})\cdots \sin(\varphi_{n-2})\cos(\varphi_{n-1})\\
x_{n}&=\sin(\varphi_{1})\cdots \sin(\varphi_{n-2})\sin(\varphi_{n-1})
\end{aligned}\right.
\end{equation}
其中$\varphi_{n−1}\in [0, 2\pi)$而剩下的$\varphi$范围是$[0, \pi]$。此时,$\boldsymbol{x}$和$\boldsymbol{y}$的夹角是:
\begin{equation}\arccos \langle \boldsymbol{x},\boldsymbol{y}\rangle = \arccos \cos(\varphi_{1}) = \varphi_{1}
\end{equation}
也就是说两者的夹角正好是$\varphi_1$。那么,$\boldsymbol{x}$和$\boldsymbol{y}$的夹角不超过$\theta$的概率是:
\begin{equation}P_n(\varphi_1\leq\theta) = \frac{n\text{维超球面上}\varphi_1\text{不超过}\theta\text{的积分}}{n\text{维超球面上的全积分}}
\end{equation}
而$n$维超球面上的积分微元是$\sin^{n-2}(\varphi_{1})\sin^{n-3}(\varphi_{2})\cdots \sin(\varphi_{n-2})\,d\varphi_{1}\,d\varphi_{2}\cdots d\varphi_{n-1}$(可在维基百科找到),所以
\begin{equation}\begin{aligned}
P_n(\varphi_1\leq\theta) =& \frac{\int_0^{2\pi}\cdots\int_0^{\pi}\int_0^{\theta}\sin^{n-2}(\varphi_{1})\sin^{n-3}(\varphi_{2})\cdots \sin(\varphi_{n-2})\,d\varphi_{1}\,d\varphi_{2}\cdots d\varphi_{n-1}}{\int_0^{2\pi}\cdots\int_0^{\pi}\int_0^{\pi}\sin^{n-2}(\varphi_{1})\sin^{n-3}(\varphi_{2})\cdots \sin(\varphi_{n-2})\,d\varphi_{1}\,d\varphi_{2}\cdots d\varphi_{n-1}}\\
=&\frac{(n-1)\text{维单位超球的表面积}\times\int_0^{\theta}\sin^{n-2}\varphi_{1} d\varphi_1}{n\text{维单位超球的表面积}}\\
=&\frac{\Gamma\left(\frac{n}{2}\right)}{\Gamma\left(\frac{n-1}{2}\right)\sqrt{\pi}} \int_0^{\theta}\sin^{n-2}\varphi_1 d\varphi_1
\end{aligned}
\end{equation}
这表明$\theta$的概率密度函数就是
\begin{equation}
p_n(\theta) = \frac{\Gamma\left(\frac{n}{2}\right)}{\Gamma\left(\frac{n-1}{2}\right)\sqrt{\pi}}\sin^{n-2} \theta
\label{eq:theta}\end{equation}
有时候我们想关心$\eta=\cos\theta$的分布,这时候需要做一下概率密度的换元
\begin{equation}\begin{aligned}
p_n(\eta)=&\frac{\Gamma\left(\frac{n}{2}\right)}{\Gamma\left(\frac{n-1}{2}\right)\sqrt{\pi}}\sin^{n-2} (\arccos\eta)\left|\frac{d\theta}{d\eta}\right|\\
=&\frac{\Gamma\left(\frac{n}{2}\right)}{\Gamma\left(\frac{n-1}{2}\right)\sqrt{\pi}}(1-\eta^2)^{(n-3)/2}\\
\end{aligned}\label{eq:cos}\end{equation}
分布情况 #
由$\eqref{eq:theta}$和$\eqref{eq:cos}$我们可以看到,当$n=2$时,夹角$\theta$的分布是一个均匀分布,而当$n=3$时,夹角余弦$\cos\theta$的分布是均匀分布。这两个结果说明在我们所能感知到的二维和三维空间中,角度的分布是比较均匀的。但是$n$比较大的时候呢?比如$n=20,50$?
从$p_n(\theta)\sim\sin^{n-2}\theta$的形式可以发现,当$n\geq 3$时,最大概率是$\theta=\frac{\pi}{2}$(即90度),另外$\sin^{n-2}\theta$也是关于$\theta=\frac{\pi}{2}$对称的,所以它的均值也是$\frac{\pi}{2}$。但这还不能充分描述分布情况,我们还需要考虑方差
\begin{equation}
Var_n(\theta) = \frac{\Gamma\left(\frac{n}{2}\right)}{\Gamma\left(\frac{n-1}{2}\right)\sqrt{\pi}}\int_0^{\pi}\left(\theta-\frac{\pi}{2}\right)^2\sin^{n-2} \theta d\theta\end{equation}
这个积分有解析解,但是形式很麻烦(喜欢看的话可以自己用Mathematica去算),我们来看部分数值解就好:
$$\begin{array}{c|c}
\hline
n & \text{方差}\\
\hline
3 & 0.467401\\
10 & 0.110661\\
20 & 0.0525832\\
50 & 0.0204053\\
100 & 0.0101007\\
200 & 0.00502508\\
1000 & 0.001001\\
\hline
\end{array}$$
可以看到,随着$n$的增大,方差越来越小,这意味着高维空间中任意两个向量的夹角几乎都集中在$\frac{\pi}{2}$附近,换言之,高维空间中任意两个向量几乎都是垂直的。
当然,从图像也可以看出:
如果想要近似解析解的读者,可以考虑用拉普拉斯方法,用一个高斯分布去近似$p_n(\theta)$:在$\theta=\frac{\pi}{2}$处对$\ln \sin^{n-2}\theta$进行展开
\begin{equation}\ln \sin^{n-2}\theta=\frac{2-n}{2}\left(\theta - \frac{\pi}{2}\right)^2 + \mathcal{O}\left(\left(\theta - \frac{\pi}{2}\right)^4\right)\end{equation}
即
\begin{equation}\sin^{n-2}\theta\approx \exp\left[-\frac{n-2}{2}\left(\theta - \frac{\pi}{2}\right)^2\right]\end{equation}
从这个近似形式看,我们可以近似地认为$\theta$服从均值为$\frac{\pi}{2}$、方差为$\frac{1}{n-2}$的正态分布,即当$n$较大时,方差近似为$\frac{1}{n-2}$,这也能看出$n$越大,方差越小。
文章小结 #
本文对高维空间的夹角分布进行了推导,记录在此以备忘,同时也供有需要的读者参考。
转载到请包括本文地址:https://kexue.fm/archives/7076
更详细的转载事宜请参考:《科学空间FAQ》
如果您还有什么疑惑或建议,欢迎在下方评论区继续讨论。
如果您觉得本文还不错,欢迎分享/打赏本文。打赏并非要从中获得收益,而是希望知道科学空间获得了多少读者的真心关注。当然,如果你无视它,也不会影响你的阅读。再次表示欢迎和感谢!
如果您需要引用本文,请参考:
苏剑林. (Nov. 13, 2019). 《n维空间下两个随机向量的夹角分布 》[Blog post]. Retrieved from https://kexue.fm/archives/7076
@online{kexuefm-7076,
title={n维空间下两个随机向量的夹角分布},
author={苏剑林},
year={2019},
month={Nov},
url={\url{https://kexue.fm/archives/7076}},
}











November 26th, 2025
高维空间下,高维概率这门课的推导的结论来看,确实高维空间两两向量夹角分布的概率随着维度收敛到90度。但是,有没有考察过,比如在n维下面,至多容纳多少个这样的“两两向量”?例如,从线性代数的角度来看,n维欧几里得空间最多有n个两两正交的向量,那么也就是说,如果我们严格限制90度,那么至多就是n个样本相互有这个性质对吧?
如果我们把范围放宽到80度到100度之间,那么直观上,我们假如先放一个向量进去,然后当我们放第二个向量的时候,为了满足80度到100度之间的约束条件,第二个向量的可行放置范围必须是两个锥形区域(小于80度和大于100度)之间的那个补集,没错吧?从测度的角度看,这个补集被取到的概率已经是20/180=1/9了。紧接着,我们再放第三个向量,要和前两个向量都满足夹角在80度到100度之间,这个时候,应该是两个锥形补集区域的交集,那概率就更小了……依此类推,当放置到第n个向量,或者甚至于第k个向量,k>n时,是不是会出现最后交集为空的情况,或者交集的测度越来越小,以致于随机的情况根本没有多大概率取到呢?按照我这个推论,即使我放宽角度的范围,交集的测度会以指数级别递减(或者至少是一个几何级数递减),所以我应该如何理解这个高维空间的结论?是不是能证明,我的直观上的这种递减的感觉,衰减的速度远小于您这个分布所控制的速度?也就是说实际上这个随机,远远可以塞进更多的向量满足这个条件?谢谢!
另外,我在实践中发现,一些预训练模型的embedding,比如bge-m3这种,抽出来向量以后比相似度,余弦值一般总是大于0。如果两两向量余弦值都大于零,就说明所有样本的嵌入都在一个凸锥或者说等价于在某一个象限内。虽然预训练时对比学习的损失函数设计可能鼓励这样的分布,但是从动力学的角度看,这样的损失函数设计,能最终“诡异”地将嵌入分布调到一个凸锥/象限内,为什么会发生这种现象呢?如何解释?
重想了一下,本质上第一个问题是不是因为:球面均匀分布的情况下和角度分布均匀的情况下结论是迥然不同的。球面均匀分布的情况下,点击大的区域是球缺,点击小的区域是环面,而维度越高,环面的面积会远大于球缺的面积。
第二个问题,虽然损失可能控制做这件事情,但是似乎要塞到一个锥内,确实很反直觉。这个锥内,既要不同的语意两两点积小,又要都在一个象限内?这件事情对于指定的维度,能容纳多少这样的向量?不知道现在的理论能否解释?
并不一定有指数衰减。我们可以模拟一下:
import numpy as np
n, d = 10000, 1000
x = np.random.randn(n, d)
x /= np.linalg.norm(x, axis=1, keepdims=True)
cos = np.abs(x.dot(x.T) * (1 - np.eye(n)))
t = np.cos(80 / 180 * np.pi)
(cos > t).any(axis=1).sum()
结果发现,100维空间中,随机选100个向量,每个向量都能至少找到一个向量,夹角大于100度或者小于80度的;也就是说,通过随机选的方式,在100维空间中,我连100个满足你说的条件的向量都找不到。
但是,在1000维空间中,随机选10000个向量,不满足条件的只有个位数,也就是说,在1000维空间中,我可以轻轻松松找到1万个向量,满足你说的条件,甚至找10万个也不难。那么,如果是10000维,也许找1亿个也不难。