18 Apr

Transformer升级之路：19、第二类旋转位置编码

By 苏剑林 | 2025-04-18 | 52758位读者 |

持续将“Transformer升级之路”系列关注到本篇的读者，想必都已经对旋转位置编码（RoPE）有所了解。简单来说，RoPE是施加在Attention的Query（$\boldsymbol{Q}$）和Key（$\boldsymbol{K}$）上的旋转变换，形式上属于绝对位置编码，但结合Attention的内积（Dot-Product）特性，能够自动实现相对位置的效果。

那么，RoPE可以加在Value（$\boldsymbol{V}$）上吗？看上去不可以，因为对$\boldsymbol{V}$旋转后就不是相对位置编码了。然而事情并没有那么绝对，本文就来讨论加在$\boldsymbol{V}$上RoPE，我们可以称之为“第二类旋转位置编码”。

基础回顾 #

我们将Dot-Product Attention分解为
\begin{equation}\boldsymbol{o}_i = \sum_j a_{i,j}\boldsymbol{v}_j,\qquad a_{i,j} = \frac{e^{s_{i,j}}}{\sum\limits_j e^{s_{i,j}}},\qquad s_{i,j} = \boldsymbol{q}_i^{\top}\boldsymbol{k}_j\end{equation}
简单起见，这里省去了$s_{i,j}$的缩放因子。RoPE应用在$\boldsymbol{q}_i,\boldsymbol{k}_j$上：
\begin{equation}\boldsymbol{q}_i \to \boldsymbol{\mathcal{R}}_i\boldsymbol{q}_i,\qquad \boldsymbol{k}_j \to \boldsymbol{\mathcal{R}}_j\boldsymbol{k}_j\end{equation}
这将导致Attention Logits也就是$s_{i,j}$变成
\begin{equation}s_{i,j} = (\boldsymbol{\mathcal{R}}_i\boldsymbol{q}_i)^{\top} (\boldsymbol{\mathcal{R}}_j\boldsymbol{k}_j) = \boldsymbol{q}_i^{\top}\boldsymbol{\mathcal{R}}_i^{\top}\boldsymbol{\mathcal{R}}_j\boldsymbol{k}_j=\boldsymbol{q}_i^{\top}\boldsymbol{\mathcal{R}}_{j-i}\boldsymbol{k}_j\end{equation}
也就是说$s_{i,j}$只依赖于相对位置$j-i$，从而通过绝对位置形式达到相对位置的效果。这个变换过程利用了旋转矩阵的特性$\boldsymbol{\mathcal{R}}_i^{\top}\boldsymbol{\mathcal{R}}_j=\boldsymbol{\mathcal{R}}_{j-i}$。

除了旋转矩阵外，在《Transformer升级之路：4、二维位置的旋转式位置编码》中我们证明了它的一般解是$\boldsymbol{\mathcal{R}}_i = \boldsymbol{O}^i$，其中$\boldsymbol{O}$是任意正交矩阵，上标是矩阵的幂运算。不过后来我们在《Transformer升级之路：6、旋转位置编码的完备性分析》也证明了其实一般的正交矩阵解本质上也同构于旋转矩阵解。

新的用法 #

如果将RoPE加在$\boldsymbol{v}_j$上，即$\boldsymbol{v}_j\to\boldsymbol{\mathcal{R}}_j\boldsymbol{v}_j$，那又如何呢？显然Attention的结果是
\begin{equation}\boldsymbol{o}_i = \sum_j a_{i,j} \boldsymbol{\mathcal{R}}_j\boldsymbol{v}_j\label{eq:v-rope-abs}\end{equation}
这将会导致Attention显式依赖于绝对位置$j$。如果我们只想要一种位置编码，那么也许问题不大，但如果我们是想要一种相对位置编码，那么它就不能满足我们的目的。

然而，有一个简单的技巧可以解决这个缺陷！我们可以给$\boldsymbol{o}_i$再加一次逆向的RoPE：
\begin{equation}\boldsymbol{o}_i = \boldsymbol{\mathcal{R}}_i^{\top}\left(\sum_j a_{i,j} \boldsymbol{\mathcal{R}}_j\boldsymbol{v}_j\right)=\sum_j a_{i,j} \boldsymbol{\mathcal{R}}_i^{\top}\boldsymbol{\mathcal{R}}_j\boldsymbol{v}_j=\sum_j a_{i,j} \boldsymbol{\mathcal{R}}_{j-i}\boldsymbol{v}_j\label{eq:vo-rope}\end{equation}
这样它再次变成了一个相对位置编码！而形式上同样也是两次绝对位置编码，跟已有的RoPE异曲同工，所以我们称之为“第二类旋转位置编码”，也可以更直观地称为“VO-RoPE”，因为它分别在Value和Output都加了一次RoPE，相应地，标准的RoPE我们可以称之为“QK-RoPE”。

简单实验 #

在一个1B左右的类LLAMA模型上快速做了一波实验，对比的几个设置为：

1、NoPE：完全不加位置编码；
2、QK-RoPE：标准的旋转位置编码；
3、VO-RoPE：本文新提出的第二类旋转位置编码；
4、Q/K/V/O-RoPE：单独在Q、K、V、O之一加旋转位置编码；
5、QKV-RoPE：Q、K、V都加上旋转位置编码；
6、QKVO-RoPE：Q、K、V、O都加上旋转位置编码。

注意，第4、5点都算是绝对位置编码。大致结论是：
$$\text{QK-RoPE}\approx \text{QKVO-RoPE} > \text{K-RoPE}\approx \text{VO-RoPE} > \text{QKV-RoPE} > \text{NoPE} > \text{Q/V/O-RoPE}$$

具体损失函数差异是：
\begin{array}{c|c}
\hline
& \text{Loss} \\
\hline
\text{QK-RoPE} & 2.712 \\
\text{QKVO-RoPE} & 2.719 \\
\text{K-RoPE} & 2.769 \\
\text{VO-RoPE} & 2.770 \\
\text{QKV-RoPE} & 2.783 \\
\text{NoPE} & 2.795 \\
\text{O-RoPE} & 2.841 \\
\text{Q-RoPE} & 2.851 \\
\text{V-RoPE} & 2.856 \\
\hline
\end{array}

一些思考 #

从上述结果可以看出，VO-RoPE优于NoPE，但不如QK-RoPE，而且VO-RoPE和QK-RoPE叠加并不没有增益。这样看来，VO-RoPE似乎没有提出的必要了？

在笔者看来，将RoPE的用法补充完整，回答“RoPE可以加在Value上吗”这个问题，然后实验清楚“没有什么收益”这件事，本身就很有价值。而且，从长远来看它不见得就一直没有收益，只是在我们当前主流言语模型设置下它可能体现不出什么作用。当时笔者提出RoPE时，动机也单纯是好玩而已，并没有期望它是有竞争力的位置编码（后来的事则是幸运了）。

就当前来看，VO-RoPE也有一个潜在应用场景，它跟《缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA》介绍的MLA有关。我们知道，MLA在推理阶段约等于一个K、V共享的MQA：
\begin{equation}\boldsymbol{o}_i = \sum_{j=1}^i a_{i,j}\boldsymbol{c}_j,\qquad a_{i,j} = \frac{e^{s_{i,j}}}{\sum\limits_{j=1}^i e^{s_{i,j}}},\qquad s_{i,j} = \exp(\boldsymbol{q}_i^{\top}\boldsymbol{c}_j)\end{equation}
这个特性使得它的KV Cache只有一个$\boldsymbol{c}$。然而，这个重要特性与QK-RoPE并不兼容，因为一旦给Attention矩阵里边的$\boldsymbol{c}_j$加上RoPE，那么就有两种结果：

1、Value这边的$\boldsymbol{c}_j$不加RoPE，那么K、V就不完全共享了，这就导致了要不KV Cache翻倍（RoPE前后都要Cache），要不K实时注入RoPE（带来了延迟）；
2、如果Value这边的$\boldsymbol{c}_j$加RoPE，倒是可以达到K、V共享的效果，但此时就不是相对位置编码了。

MLA为了解决这个问题，采用了“大部分NoPE+小部分RoPE”拼接的做法。但是，从本文的第二类旋转位置编码我们知道，只需要再给Output加一次O-RoPE就行了：
\begin{equation}\boldsymbol{o}_i = \boldsymbol{\mathcal{R}}_i^{\top}\sum_{j=1}^i a_{i,j}(\boldsymbol{\mathcal{R}}_j\boldsymbol{c}_j),\qquad a_{i,j} = \frac{e^{s_{i,j}}}{\sum\limits_{j=1}^i e^{s_{i,j}}},\qquad s_{i,j} = (\boldsymbol{\mathcal{R}}_i\boldsymbol{q}_i)^{\top} (\boldsymbol{\mathcal{R}}_j\boldsymbol{c}_j)\end{equation}
不过，这个思路还没完全走通，还无法直接用在MLA的训练形式上，只是先写出来给大家参考。

文章小结 #

本文围绕着“RoPE可以加在V上吗”进行展开，讨论了RoPE的第二种用法。

转载到请包括本文地址：https://kexue.fm/archives/10862

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Apr. 18, 2025). 《Transformer升级之路：19、第二类旋转位置编码》[Blog post]. Retrieved from https://kexue.fm/archives/10862

@online{kexuefm-10862,
        title={Transformer升级之路：19、第二类旋转位置编码},
        author={苏剑林},
        year={2025},
        month={Apr},
        url={\url{https://kexue.fm/archives/10862}},
}

分类：数学研究标签：语言模型, attention, 位置编码, rope 43 评论

< 矩阵的有效秩（Effective Rank） | 智能家居之手搓一套能接入米家的零冷水装置 >

你也许还对下面的内容感兴趣

发表你的看法

John Cage

April 18th, 2025

很巧妙的idea！但是苏老师我有一个问题：如果说，QK-RoPE将相对位置编码在attention weight中，那么VO-RoPE将相对位置编码在了$v$上，可能会导致“特征”偏移？换句话说，$i,j$如果离得更远的话，$v_j$的特征会被转动一个很大的角度？这种转动在attention上是可接受的，毕竟最终只得到$qk$相乘之后的标量的weight值，但是放到$v$上面，可能会导致特征要表达的语义改变了？

损失函数差异的结果显示QKVO-RoPE > QKV-RoPE并且VO-RoPE > V-RoPE，我的理解是：这个结果可能不只是因为加了相对位置，还有一种可能的原因是，self-attention中对角线上面的attention weight往往比其他位置的attention weight更大，然后VO-RoPE对对角线上面的$v_j$不做任何旋转偏移，那么即使对其他位置的$v_j$进行旋转并且可能导致语义“偏移”，但是因为其他位置的softmax weight很小，因此对最终的output特征不会产生太大的偏移影响。但是V-RoPE对对角线上面的$v_j$采用$j$位置的绝对位置旋转，那么这种偏移影响可能就被放大了，因此导致效果下降。也就是说，加在$v$上面的位置编码还有一种可能，会导致上述“语义偏移”的问题，并且我认为抛弃了QK-RoPE的“长程衰减”的性质。

请问您是怎么看待这个问题的呢？

回复评论

苏剑林发表于 April 21st, 2025

位置也可能是语义的一部份，所以是否“语义偏移”还是看场景吧，自然语言这种场景对位置和顺序的依赖并不是十分苛刻，所以没有效果甚至有负面效果都是可接受的。BTW，VO-RoPE其实也有一定的远程衰减能力。

另外就是这里实验的还是跟QK-RoPE一样的固定$\theta$，说不准将$\theta$改为可训练参数会更好。总之目前我个人的实验还比较简陋，有兴趣的同学可以多尝试。比如 https://research.labml.ai/RoPER.html 之前的尝试，就表明QKVO-RoPE在某些任务上有一定的正面效果。

回复评论

John Cage 发表于 April 21st, 2025

受教了，谢谢苏老师！

回复评论

xuyellow

April 21st, 2025

从逻辑上来说，QK-ROPE是对query和key加入位置信息，使得attention的相关性结果带有相对位置信息，这个过程感觉很make sense。但是VO-ROPE是对attention相关性的结果来加入位置信息，从逻辑上来说怎么解释？

回复评论

starfruit007 发表于 April 22nd, 2025

我来尝试回答下你的问题，对于式(5)的形式：$o_{i}=\sum_j a_{i,j} \boldsymbol{\mathcal{R}}_{j-i}\boldsymbol{v}_j$
一方面可以按照本文的方式，理解成对$v_j$和$o_i$分别进行了旋转位置编码；另一方面，还可以理解成仅对$v_j$矩阵进行了相位位置旋转位置编码, 即对$v_j$进行了$R_{j-i}$编码。
按照第二种理解方式谷歌的一篇文章中也有类似的操作《Self-Attention with Relative Position Representations》，区别是这篇论文中的$R_{j-i}$是学出来的，并且是加给$v_j$,而不是乘给$v_j$。

回复评论

苏剑林发表于 April 27th, 2025

以前BERT的绝对位置信息就直接加在hidden state上呀，没什么稀奇的。第一篇相对位置编码的工作 https://arxiv.org/abs/1803.02155 ，所加的相对位置编码也是有hidden state部分的，只不过后来只加在attention矩阵上变成了主流，就没有人关注了。

回复评论

hua-rookie

April 21st, 2025

苏神好，我有一些关于上文实验的猜想想跟你交流请教一下~

我之前也尝试过苏神上面的这些实验，得到了类似的效果（QKVO-RoPE的效果弱于QK-RoPE）。我之前做这些实验的初衷是，我认为在RoPE-based Attention下，RoPE前的token embedding的物理意义是频谱系数，RoPE前的token embedding的物理意义时域系数。也就是说，输入进Attention的QK对应时域，V对应频域，如果我们不对V做变换而直接对其进行加权，可能对应关系不强。

但看到QKVO-RoPE效果不好之后，我又进一步分析，猜想是因为LLM中token embedding的频谱系数“不纯净”导致这样的反变换不够好。不纯净是指，token embedding的每一维并不满足RoPE的先验（亦即每一维只对应一个频率），所以这样一对正反变换操作会造成信息丢失。

于是我设计了下面的方法来验证我关于“频谱不纯净”的猜想：https://arxiv.org/abs/2412.17739，发现这个现象确实是存在的。我觉得这个做法迁移到QKVO-RoPE上同样有希望work，不知道苏神感觉如何？

回复评论

苏剑林发表于 April 27th, 2025

欢迎作者！Fourier Position Embedding很精彩的工作，我正打算结合最近RoPE相关的一些文献，一起拜读一下，迟点我们再来交流这个问题。

但是就“每一维只对应一个频率”而言，我的理解是 https://kexue.fm/archives/9403 ，就是反对称矩阵实际上都同构于分块旋转矩阵，所以理论上RoPE的当前形式是完备的。更多细节请等我读完 Fourier Position Embedding 再来请教。

回复评论

hua-rookie 发表于 May 6th, 2025

感谢苏神推荐~之前没有关注到这篇博文，我也去仔细学习一下，再来跟你请教

回复评论

autumn23333 发表于 April 28th, 2025

请问一下论文附带的代码是不是写错了fourier_sin = F. pad ( input = fourier_sin , pad =(0 , self . head_dim //2 - fourier_sin .
size ( -1) ) , mode =" constant " , value =1) 这个value 应该是0 吧？

回复评论

hua-rookie 发表于 May 6th, 2025

这块应该确实是1，因为RoPE和FoPE都是要乘到Embedding上，不是加上去（另外，论文实验的代码中也使用的是1）

回复评论

hua-rookie 发表于 May 6th, 2025

不好意思，发现第一段有笔误的地方，应该是：
'''
我之前也尝试过苏神上面的这些实验，得到了类似的效果（QKVO-RoPE的效果弱于QK-RoPE）。我之前做这些实验的初衷是，我认为在RoPE-based Attention下，RoPE之前的token embedding的物理意义是频谱系数，RoPE之后的token embedding的物理意义是时域系数。也就是说，输入进Attention的QK对应时域，V对应频域，如果我们不对V做变换而直接对其进行加权，可能对应关系不强。
'''

回复评论

hazdzz

April 28th, 2025

如果 RoPE 结合 Givens rotation method 的变体，Transformer 的 performance 会不会更好？

回复评论

苏剑林发表于 May 2nd, 2025

不是很了解Givens rotation，具体怎么用？

回复评论

hazdzz 发表于 May 6th, 2025

https://algowiki-project.org/en/Givens_method

回复评论

苏剑林发表于 May 11th, 2025

怎么用？

回复评论

长琴

April 29th, 2025

mla出来之后就知道苏神一定会念念不忘。hah。没注意到公众号不更了，才发现……我说咋好久不见更新。。

回复评论

ggg

October 9th, 2025

苏老师，您好，我想问一下这个编码方式本质还是分块二维旋转对吗，可不可以实现高维旋转？这样会不会效果更好？

回复评论

苏剑林发表于 October 13th, 2025

只要你不在乎计算量，可以考虑更高维度的旋转。

回复评论

pang

October 13th, 2025

您好，关于式子7那里提到的第二类旋转位置编码只需要再给Output加一次O-RoPE就行了，有两个问题像请教一下，第一个是当时MLA选择NOPE+ROPE应该是因为Wuk是多头的而Cj是单头的，如果做K_rope非常麻烦所以才这样子选择的吧，第二个也想问下如果只考虑压缩KV cache的角度动态进行Rope[Wuk*Cj]是不是就不需要额外存储Cj的ROPE部分了

回复评论

苏剑林发表于 October 17th, 2025

Wuk是啥？你这两个问题本身我都有点看不懂。不过，“大NoPE + 小RoPE”的组合，是因为RoPE不满足MLA所需的结合律。

回复评论

pang 发表于 October 20th, 2025

对于目前的MLA算法softmax(X×WQ×WukT×CjT)×Cj×Wuv来说其实X,WQ,WUKT，Wuv维度都是相同的，只有Cj是单头压缩的，那如果带上ROPE公式就变成了softmax(X×WQ×Wropeq×Wropekt×WukT×CjT)×Cj×Wuv，由于这里的Wropekt引入了多头的计算量所以才采用的“大NoPE + 小RoPE”的组合，这是我个人的理解，因为从推理的角度来说预先将WQ×Wukt先乘法由于矩阵升维本身就是不划算的，那按顺序乘的话其实Wrope是可以片上预计算的，想请教下您理解的对不对

回复评论

苏剑林发表于 October 24th, 2025

完全懵了...

WukT是什么？如果代表C到key的投影矩阵，那Wropeq和Wropekt又是什么？就是RoPE的旋转矩阵？MLA中RoPE是独立的一个小分支，哪来的“引入了多头的计算量”？NoPE和RoPE是分开且并行的，NoPE怎么乘，也影响不到RoPE啊。

回复评论

pang 发表于 October 26th, 2025

是我讲的不清楚，MLA目前的算法是大NoPE + 小RoPE的组合，就是并行进行然后在softmax之前进行一个累加。跟您讨论的是按照您本文的思路如果可以再给Output加一次O-RoPE就可以解决的话Cj不需要分块的问题的话，假设生成Cj时已经进行了RoPE的矩阵乘法，那softmax(X×WQ×Wropeq×WukT×CjT)×Cj×Wuv×Wrope×Wo这样子会引入多头的Wuv×Wrope的运算，可以直接进行softmax(X×WQ×Wropeq×WukT×Wropekt×CjT)×Cj×Wrope×Wuv×Wo这样子运算么，这里最后的一个ROPE是针对矩阵Wo的

回复评论

苏剑林发表于 October 27th, 2025

“按照您本文的思路如果可以再给Output加一次O-RoPE就可以解决的话Cj不需要分块的问题的话”

假设你这里的“Cj不需要分块”，是指直接在C上加上RoPE，而不是另外拼一个RoPE，那么这个设计在MLA是很难实现的。因为QKVO-RoPE能够实现“K=V的MQA”，但不能实现它跟Low-rank MHA之间的无缝变换，所以跟MLA并不兼容。

或者说MLA这种拼接一个小RoPE的做法是加RoPE的唯一解，就算你想把VO-RoPE加到MLA上，也只能采取这种额外拼接的方案。

回复评论

pang 发表于 October 29th, 2025

好的谢谢您，还想请教一下，目前K=V的MQA应该是不存在的吧，我理解最接近K=V的MQA其实就是MLA这种类似于对X的压缩，想问下您如果不考虑训练只考虑推理这种思路是可行的么

苏剑林发表于 October 30th, 2025

@pang|comment-28714

你是指带RoPE的吗？配合QKVO-RoPE，就可以实现带RoPE的、K=V的MQA了

pang

October 30th, 2025

K=V的MQA的前提不是K和V从X生成的权重矩阵需要相同嘛

回复评论

苏剑林发表于 October 30th, 2025

对啊，但这不是可以自由控制的吗？以前的困难是key要加RoPE，value不加RoPE，所以做不到K=V，现在有了VO-RoPE，V也可以加RoPE了，所以可以做到K=V了。

回复评论

pang 发表于 October 30th, 2025

谢谢您，懂您意思了，我之前一直理解的是K和V的含义从算法本身就是完全不同的两件事，想再问您一下“关于直接在C上加上RoPE，而不是另外拼一个RoPE，那么这个设计在MLA是很难实现的。因为QKVO-RoPE能够实现“K=V的MQA”，但不能实现它跟Low-rank MHA之间的无缝变换，所以跟MLA并不兼容。”这里为什么MLA一定要跟Low-rank MHA之间的无缝变换呢

回复评论

苏剑林发表于 October 30th, 2025

简单来说，MLA在decoding阶段，大致表现为一个head_dims～576的MQA，但这个形式对于训练和prefill来说，计算量都太大了，所以它利用NoPE的恒等变换性，在训练和prefill阶段转化为一个head_dims～192的MHA，把计算量降下来。

这个恒等变换性质只有NoPE可以实现，QKVO-RoPE只能兼容一边，如果你加在MHA上，它就没法转MQA，反之亦然。

参考：https://kexue.fm/archives/10091

回复评论

pang 发表于 November 3rd, 2025

谢谢您的分析，想再请教下不考虑训练的情况下，用当前的已经训练好的模型，有可能在prefill的时候用QK-RoPE生成NoPE的KV CACHE(Cj),之后进行decoding的之前先将NoPE的KV cache自身的计算变为RoPE的Cj，然后decoding的时候用QKVO-RoPE可以么

回复评论

苏剑林发表于 November 5th, 2025

你是不是指kv cache只保存加RoPE前的，推理阶段实时给k/v加RoPE，从而减少kv cache？这种做法理论上没有问题，就是会增加点延迟。

回复评论

pang 发表于 November 7th, 2025

嗯嗯是的，和您交流受益良多，感谢您

pang 发表于 November 3rd, 2025

另外想请问一下K=V这种做法的MQA目前有相关的实验验证嘛

回复评论

苏剑林发表于 November 5th, 2025

我自己测过，效果尚可。

回复评论

pang 发表于 November 8th, 2025

那其实理论上GQA MHA都可以只用同样的一个K=V的cache即可，请教下您是怎么进行的实验呀，这个需要训练网络还是微调就可以，有参考的链接嘛

回复评论

苏剑林发表于 November 9th, 2025

我的pretrain的小模型，暂时没有链接。

回复评论

pang 发表于 November 13th, 2025

好的，感谢您

pang 发表于 November 14th, 2025

还有一个蛮有意思的想法想跟您讨论下，请问您怎么看目前一些端侧模型中的embedding和lmhead可以共享一个矩阵，这个是不是某种意义上可以类比K和V的过程

苏剑林

November 18th, 2025

@pang|comment-28814

这些BERT时代的常见操作了，之前写过一篇简析：https://kexue.fm/archives/9698

直接Tied Embedding通常会有些收敛问题（当然不是什么严重的问题），而做了扰动再共享会好一些。至于能不能类比成K、V共享，我倒是没往这个角度想，毕竟好像就算往这个角度想，也没得到什么新的结果？

回复评论

pang 发表于 November 24th, 2025

就是embedding和lmhead的过程类似于通过概率从一个信息库里面提取信息和从一个信息库中获得下一个信息的概率，K和V我理解的其实也是做了这两件事，当然这只是我个人想法，感谢您的分享

回复评论

苏剑林发表于 November 24th, 2025

这样说来好像确实有点类似里边：
q --> input_ids
k --> Embedding
v --> LM Head

整个模型视为一个复杂的Attention机制。

有点意思～感谢你的奇思妙想

回复评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

Transformer升级之路：19、第二类旋转位置编码

基础回顾 #

新的用法 #

简单实验 #

一些思考 #

相关工作 #

文章小结 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接