1 May

GlobalPointer：用统一的方式处理嵌套和非嵌套NER

By 苏剑林 | 2021-05-01 | 493297位读者 |

（注：本文的相关内容已整理成论文《Global Pointer: Novel Efficient Span-based Approach for Named Entity Recognition》，如需引用可以直接引用英文论文，谢谢。）

本文将介绍一个称为GlobalPointer的设计，它利用全局归一化的思路来进行命名实体识别（NER），可以无差别地识别嵌套实体和非嵌套实体，在非嵌套（Flat NER）的情形下它能取得媲美CRF的效果，而在嵌套（Nested NER）情形它也有不错的效果。还有，在理论上，GlobalPointer的设计思想就比CRF更合理；而在实践上，它训练的时候不需要像CRF那样递归计算分母，预测的时候也不需要动态规划，是完全并行的，理想情况下时间复杂度是$\mathcal{O}(1)$！

简单来说，就是更漂亮、更快速、更强大！真有那么好的设计吗？不妨继续看看。

GlobalPointer多头识别嵌套实体示意图

GlobalPointer #

常规的Pointer Network的设计在做实体识别或者阅读理解时，一般是用两个模块分别识别实体的首和尾，这会带来训练和预测时的不一致。而GlobalPointer就是针对这个不一致而设计的，它将首尾视为一个整体去进行判别，所以它更有“全局观”（更Global）。

基本思路 #

具体来说，假设要识别文本序列长度为$n$，简单起见先假定只有一种实体要识别，并且假定每个待识别实体是该序列的一个连续片段，长度不限，并且可以相互嵌套（两个实体之间有交集），那么该序列有多少个“候选实体”呢？不难得出，答案是$n(n+1)/2$个，即长度为$n$的序列有$n(n+1)/2$个不同的连续子序列，这些子序列包含了所有可能的实体，而我们要做的就是从这$n(n+1)/2$个“候选实体”里边挑出真正的实体，其实就是一个“$n(n+1)/2$选$k$”的多标签分类问题。如果有$m$种实体类型需要识别，那么就做成$m$个“$n(n+1)/2$选$k$”的多标签分类问题。这就是GlobalPointer的基本思想，以实体为基本单位进行判别，如本文开头的图片所示。

可能有读者会问：这种设计的复杂度明明就是$\mathcal{O}(n^2)$呀，不会特别慢吗？如果现在还是RNN/CNN的时代，那么它可能就显得很慢了，但如今是Transformer遍布NLP的时代，Transformer的每一层都是$\mathcal{O}(n^2)$的复杂度，多GlobalPointer一层不多，少GlobalPointer一层也不少，关键是$\mathcal{O}(n^2)$的复杂度仅仅是空间复杂度，如果并行性能好的话，时间复杂度甚至可以降到$\mathcal{O}(1)$，所以不会有明显感知。

数学形式 #

设长度为$n$的输入$t$经过编码后得到向量序列$[\boldsymbol{h}_1,\boldsymbol{h}_2,\cdots,\boldsymbol{h}_n]$，通过变换$\boldsymbol{q}_{i,\alpha}=\boldsymbol{W}_{q,\alpha}\boldsymbol{h}_i+\boldsymbol{b}_{q,\alpha}$和$\boldsymbol{k}_{i,\alpha}=\boldsymbol{W}_{k,\alpha}\boldsymbol{h}_i+\boldsymbol{b}_{k,\alpha}$我们可以得到序列向量序列$[\boldsymbol{q}_{1,\alpha},\boldsymbol{q}_{2,\alpha},\cdots,\boldsymbol{q}_{n,\alpha}]$和$[\boldsymbol{k}_{1,\alpha},\boldsymbol{k}_{2,\alpha},\cdots,\boldsymbol{k}_{n,\alpha}]$，它们是识别第$\alpha$种类型实体所用的向量序列。此时我们可以定义
\begin{equation}s_{\alpha}(i,j) = \boldsymbol{q}_{i,\alpha}^{\top}\boldsymbol{k}_{j,\alpha}\label{eq:s}\end{equation}
作为从$i$到$j$的连续片段是一个类型为$\alpha$的实体的打分。也就是说，用$\boldsymbol{q}_{i,\alpha}$与$\boldsymbol{k}_{j,\alpha}$的内积，作为片段$t_{[i:j]}$是类型为$\alpha$的实体的打分（logits），这里的$t_{[i:j]}$指的是序列$t$的第$i$个到第$j$个元素组成的连续子串。在这样的设计下，GlobalPointer事实上就是Multi-Head Attention的一个简化版而已，有多少种实体就对应多少个head，相比Multi-Head Attention去掉了$\boldsymbol{V}$相关的运算。

相对位置 #

理论上来说，式$\eqref{eq:s}$这样的设计就足够了，但实际上训练语料比较有限的情况下，它的表现往往欠佳，因为它没有显式地包含相对位置信息。在后面的实验中我们将会看到，加不加相对位置信息，效果可以相差30个百分点以上！

比如，我们要识别出地名，输入是天气预报的内容“北京：21度；上海：22度；杭州：23度；广州：24度；...”，这时候要识别出来的实体有很多，如果没有相对位置信息输入的话，GlobalPointer对实体的长度和跨度都不是特别敏感，因此很容易把任意两个实体的首尾组合都当成目标预测出来（即预测出“北京：21度；上海”这样的实体）。相反，有了相对位置信息之后，GlobalPointer就会对实体的长度和跨度比较敏感，因此能更好地分辨出真正的实体出来。

用哪种相对位置编码呢？理论上来说，Transformer里边所有的相对位置编码都可以考虑用（参考《让研究人员绞尽脑汁的Transformer位置编码》），但真的要去落实就会发现一个问题，大多数相对位置编码都对相对位置进行了一个截断，虽然这个截断范围对我们要识别的实体来说基本都够用了，但未免有点不优雅，不截断又会面临可学参数太多的问题。想来想去，还是觉得笔者之前构思的旋转式位置编码（RoPE）比较适合。

RoPE的介绍可见《Transformer升级之路：2、博采众长的旋转式位置编码》，它其实就是一个变换矩阵$\boldsymbol{\mathcal{R}}_i$，满足关系$\boldsymbol{\mathcal{R}}_i^{\top}\boldsymbol{\mathcal{R}}_j = \boldsymbol{\mathcal{R}}_{j-i}$，这样一来我们分别应用到$\boldsymbol{q},\boldsymbol{k}$中，就有
\begin{equation}s_{\alpha}(i,j) = (\boldsymbol{\mathcal{R}}_i\boldsymbol{q}_{i,\alpha})^{\top}(\boldsymbol{\mathcal{R}}_j\boldsymbol{k}_{j,\alpha}) = \boldsymbol{q}_{i,\alpha}^{\top} \boldsymbol{\mathcal{R}}_i^{\top}\boldsymbol{\mathcal{R}}_j\boldsymbol{k}_{j,\alpha} = \boldsymbol{q}_{i,\alpha}^{\top} \boldsymbol{\mathcal{R}}_{j-i}\boldsymbol{k}_{j,\alpha}\end{equation}
从而就显式地往打分$s_{\alpha}(i,j)$注入了相对位置信息。

优化细节 #

在这部分内容中，我们会讨论关于GlobalPointer在训练过程中的一些细节问题，包括损失函数的选择以及评价指标的计算和优化等，从中我们可以看到，GlobalPointer以实体为单位的设计有着诸多优雅和便利之处。

损失函数 #

到目前为止，我们已经设计好了打分$s_{\alpha}(i,j)$，识别特定的类$\alpha$的实体，则变成了共有$n(n+1)/2$类的多标签分类问题。接下来的关键是损失函数的设计。最朴素的思路是变成$n(n+1)/2$个二分类，然而实际使用时$n$往往并不小，那么$n(n+1)/2$更大，而每个句子的实体数不会很多（每一类的实体数目往往只是个位数），所以如果是$n(n+1)/2$个二分类的话，会带来极其严重的类别不均衡问题。

这时候我们之前研究的《将“Softmax+交叉熵”推广到多标签分类问题》就可以派上用场了。简单来说，这是一个用于多标签分类的损失函数，它是单目标多分类交叉熵的推广，特别适合总类别数很大、目标类别数较小的多标签分类问题。其形式也不复杂，在GlobalPointer的场景，它为
\begin{equation}\log \left(1 + \sum\limits_{(i,j)\in P_{\alpha}} e^{-s_{\alpha}(i,j)}\right) + \log \left(1 + \sum\limits_{(i,j)\in Q_{\alpha}} e^{s_{\alpha}(i,j)}\right)\end{equation}
其中$P_{\alpha}$是该样本的所有类型为$\alpha$的实体的首尾集合，$Q_{\alpha}$是该样本的所有非实体或者类型非$\alpha$的实体的首尾集合，注意我们只需要考虑$i\leq j$的组合，即
\begin{equation}\begin{aligned}
\Omega=&\,\big\{(i,j)\,\big|\,1\leq i\leq j\leq n\big\}\\
P_{\alpha}=&\,\big\{(i,j)\,\big|\,t_{[i:j]}\text{是类型为}\alpha\text{的实体}\big\}\\
Q_{\alpha}=&\,\Omega - P_{\alpha}
\end{aligned}\end{equation}
而在解码阶段，所有满足$s_{\alpha}(i,j) > 0$的片段$t_{[i:j]}$都被视为类型为$\alpha$的实体输出。可见，解码过程是及其简单的，并且在充分并行下解码效率就是$\mathcal{O}(1)$！

评价指标 #

对于NER来说，常见的评价指标就是F1，注意是实体级别的F1，并非标注标签级别的F1。在传统的Pointer Network或者CRF的设计下，我们并不容易在训练过程中直接计算实体级别的F1，但是在GlobalPointer的设计下，不管是计算实体级别的F1还是accuracy都是很容易的，比如F1的计算如下：

def global_pointer_f1_score(y_true, y_pred):
    """给GlobalPointer设计的F1
    """
    y_pred = K.cast(K.greater(y_pred, 0), K.floatx())
    return 2 * K.sum(y_true * y_pred) / K.sum(y_true + y_pred)

能有这么简单，主要就是因为GlobalPointer的“Global”，它的y_true和y_pred本身就已经是实体级别了，通过y_pred > 0我们就可以知道哪些实体被抽取出来的，然后做个匹配就可以算出各种（实体级别的）指标，达到了训练、评估、预测的一致性。

优化F1值 #

GlobalPointer的“Global”还有一个好处，就是如果我们用它来做阅读理解的话，它可以直接优化阅读理解的F1指标！阅读理解的F1跟NER的F1有所不同，它是答案的一个模糊匹配程度，直接优化F1可能更有利于提高阅读理解的最终得分。将GlobalPointer用于阅读理解，相当于就只有一种实体类型的NER，此时我们定义
\begin{equation}p(i,j) = \frac{e^{s(i,j)}}{\sum\limits_{i \leq j} e^{s(i,j)}}\end{equation}
而有了$p(i,j)$之后，用强化学习的思想（参考《殊途同归的策略梯度与零阶优化》），优化F1就是以下述函数为损失：
\begin{equation}-\sum_{i\leq j} p(i,j) f_1(i,j) + \lambda \sum_{i\leq j}p(i,j)\log p(i,j)\end{equation}
这里的$f_1(i,j)$就是提前算好的片段$t_{[i:j]}$与标准答案之间的F1相似度，$\lambda$是一个超参数。当然，算出所有的$f_1(i,j)$成本可能会有点大，但它是一次性的，而且可以在计算时做些策略（比如首尾差别过大就直接置零），总的来说，可以控制在能接受的范围。如果为了提高阅读理解最终的F1，这是一种比较直接的可以尝试的方案。（笔者在今年的百度lic2021阅读理解赛道上尝试过，确实能有一定的效果。）

实验结果 #

现在一切准备就绪，马上就能够开始实验了，实验代码整理如下：

开源地址：https://github.com/bojone/GlobalPointer

目前GlobalPointer已经内置在bert4keras>=0.10.6中，bert4keras的用户可以直接升级bert4keras使用。实验的三个任务均为中文NER任务，前两个为非嵌套NER，第三个为嵌套NER，它们的训练集文本长度统计信息为：
\begin{array}{c|cc}
\hline
& \text{平均字数} & \text{字数标准差} \\
\hline
\text{人民日报NER} & 46.93 & 30.08\\
\text{CLUENER} & 37.38 & 10.71\\
\text{CMeEE} & 54.15 & 80.27\\
\hline
\end{array}

人民日报 #

首先，我们验证一下在非嵌套场景GlobalPointer能否取代CRF，语料是经典的人民日报语料，baseline是BERT+CRF的组合，而对比的是BERT+GlobalPointer的组合，实验结果如下：
\begin{array}{c}
\text{人民日报NER实验结果} \\
{\begin{array}{c|cc|cc}
\hline
& \text{验证集F1} & \text{测试集F1} & \text{训练速度} & \text{预测速度}\\
\hline
\text{CRF} & 96.39\% & 95.46\% & 1\text{x} & 1\text{x}\\
\text{GlobalPointer (w/o RoPE)} & 54.35\% & 62.59\% & 1.61\text{x} & 1.13\text{x} \\
\text{GlobalPointer (w/ RoPE)}& 96.25\% & 95.51\% & 1.56\text{x} & 1.11\text{x} \\
\hline
\end{array}}
\end{array}
首先，表格中带来最大视觉冲击力的无疑是GlobalPointer有无RoPE的差距，达到了30个点以上！这说明了给GlobalPointer显式加入相对位置信息的重要性，后面的实验中我们将不再验证去掉RoPE的版本，默认都加上RoPE。

从表格中还可以看出，在经典的非嵌套NER任务中，效果上GlobalPointer可以跟CRF相媲美，速度上GlobalPointer还更胜一筹，称得上是又快又好了。

CLUENER #

当然，可能因为人民日报这个经典任务的起点已经很高了，所以拉不开差距。为此，我们在测一下比较新的CLUENER数据集，这个数据集也是非嵌套的，当前SOTA的F1是81%左右。BERT+CRF与BERT+GlobalPointer的对比如下：
\begin{array}{c}
\text{CLUENER实验结果} \\
{\begin{array}{c|cc|cc}
\hline
& \text{验证集F1} & \text{测试集F1} & \text{训练速度} & \text{预测速度}\\
\hline
\text{CRF} & 79.51\% & 78.70\% & 1\text{x} & 1\text{x}\\
\text{GlobalPointer}& 80.03\% & 79.44\% & 1.22\text{x} & 1\text{x} \\
\hline
\end{array}}
\end{array}
这个实验结果说明了，当NER难度增加之后，哪怕只是非嵌套的场景，GlobalPointer的效果能优于CRF，这说明对于NER场景，GlobalPointer其实比CRF更加好用。后面我们将对此做个简单的理论分析，进一步说明GlobalPointer相比CRF在理论上就更加合理。

至于速度方面，由于这个任务的文本长度普遍较短，因此GlobalPointer的速度增幅也没有那么明显。

CMeEE #

最后，我们来测一个嵌套的任务（CMeEE），它是去年biendata上的“中文医学文本命名实体识别”比赛，也是今年的“中文医疗信息处理挑战榜CBLUE”的任务1，简单来说就是医学方面的NER，带有一定的嵌套实体。同样比较CRF和GlobalPointer的效果：
\begin{array}{c}
\text{CMeEE实验结果} \\
{\begin{array}{c|cc|cc}
\hline
& \text{验证集F1} & \text{测试集F1} & \text{训练速度} & \text{预测速度}\\
\hline
\text{CRF} & 63.81\% & 64.39\% & 1\text{x} & 1\text{x}\\
\text{GlobalPointer}& 64.84\% & 65.98\% & 1.52\text{x} & 1.13\text{x} \\
\hline
\end{array}}
\end{array}
可以看到效果上GlobalPointer明显地优于CRF；速度方面，综合三个任务的结果，总的来说文本越长的任务，GlobalPointer的训练加速就越明显，而预测速度通常也略有提升，但幅度没有训练阶段大。随后笔者以RoBERTa large为encoder继续捣鼓了一下，发现线上测试集就可以（不是太难地）达到67%以上，这说明GlobalPointer是一个“称职”的设计了。

当然，可能有读者会诟病：你拿非嵌套的CRF去做嵌套的NER，这样跟GlobalPointer比肯定不公平呀。确实会有点，但是问题不大，一方面CMeEE目前的F1还比较低，嵌套的实体本来就不多，哪怕去掉嵌套部分当成非嵌套的来做，影响也不会太大；另一方面就是在嵌套NER方面，笔者还没发现比较简单明快的设计可以作为baseline跑跑的，所以就还是先跑个CRF看看了。欢迎读者报告其他设计的对比结果。

思考拓展 #

在本节中，我们将进一步对CRF和GlobalPointer做一个理论上的对比，并且介绍一些与GlobalPointer相关的工作，以方便读者更好地理解和定位GlobalPointer。

相比CRF #

CRF（条件随机场，Conditional Random Field）是序列标注的经典设计，由于大多数NER也能转化为序列标注问题，所以CRF也算是NER的经典方法，笔者也曾撰写过《简明条件随机场CRF介绍（附带纯Keras实现）》和《你的CRF层的学习率可能不够大》等文章来介绍CRF。在之前的介绍中，我们介绍过，如果序列标注的标签数为$k$，那么逐帧softmax和CRF的区别在于：

前者将序列标注看成是$n$个$k$分类问题，后者将序列标注看成是$1$个$k^n$分类问题。

这句话事实上也说明了逐帧softmax和CRF用于NER时的理论上的缺点。怎么理解呢？逐帧softmax将序列标注看成是$n$个$k$分类问题，那是过于宽松了，因为某个位置上的标注标签预测对了，不代表实体就能正确抽取出来了，起码有一个片段的标签都对了才算对；相反，CRF将序列标注看成是$1$个$k^n$分类问题，则又过于严格了，因为这意味着它要求所有实体都预测正确才算对，只对部分实体也不给分。虽然实际使用中我们用CRF也能出现部分正确的预测结果，但那只能说明模型本身的泛化能力好，CRF本身的设计确实包含了“全对才给分”的意思。

所以，CRF在理论上确实都存在不大合理的地方，而相比之下，GlobalPointer则更加贴近使用和评测场景：它本身就是以实体为单位的，并且它设计为一个“多标签分类”问题，这样它的损失函数和评价指标都是实体颗粒度的，哪怕只对一部分也得到了合理的打分。因此，哪怕在非嵌套NER场景，GlobalPointer能取得比CRF好也是“情理之中”的。

加性乘性 #

在具体实现上，TPLinker与GlobalPointer的一个主要区别是在Multi-Head上TPLinker用的是加性Attention：
\begin{equation}s_{\alpha}(i,j) = \boldsymbol{W}_{o,\alpha}\tanh\left(\boldsymbol{W}_{h,\alpha}[\boldsymbol{h}_{i},\boldsymbol{h}_{j}]+\boldsymbol{b}_{h,\alpha}\right)+\boldsymbol{b}_{o,\alpha}
\end{equation}
目前尚不清楚该选择与式$\eqref{eq:s}$的效果差异有多大，但是相比式$\eqref{eq:s}$的乘性Attention，虽然它们的理论复杂度相似，但实际实现上这种加性Attention的计算成本会大很多，尤其是空间成本（显存）会大很多～

所以笔者认为，就算加性效果确实比乘性好一些，也应该选择在乘性的基础上继续优化才行，因为加性的效率确实不行啊。此外，TPLinker等文章也没有像本文一样报告过相对位置信息的重要性，难道在加性Attention中相对位置不那么重要了？这些暂时还不得而知。

本文小结 #

本文介绍了一种NER的新设计GlobalPointer，它基于全局指针的思想，融合了笔者之前的一些研究结果，实现了用统一的方式处理嵌套和非嵌套NER的“理想设计”。实验结果显示，在非嵌套的情形下它能取得媲美CRF的效果，而在嵌套情形它也有不错的效果。

转载到请包括本文地址：https://kexue.fm/archives/8373

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (May. 01, 2021). 《GlobalPointer：用统一的方式处理嵌套和非嵌套NER 》[Blog post]. Retrieved from https://kexue.fm/archives/8373

@online{kexuefm-8373,
        title={GlobalPointer：用统一的方式处理嵌套和非嵌套NER},
        author={苏剑林},
        year={2021},
        month={May},
        url={\url{https://kexue.fm/archives/8373}},
}

分类：信息时代标签：模型, NLP, NER 190 评论

< 中文任务还是SOTA吗？我们给SimCSE补充了一些实验 | Transformer升级之路：4、二维位置的旋转式位置编码 >

你也许还对下面的内容感兴趣

发表你的看法

。

May 2nd, 2021

苏神公式2里位置编码下标有点小问题 j写成i了

回复评论

。发表于 May 2nd, 2021

呃还有gather操作的入参貌似应该是y_true

回复评论

苏剑林发表于 May 2nd, 2021

谢谢，下标已经修正。哪里有gather？

回复评论

。发表于 May 2nd, 2021

计算f1的样例代码里

回复评论

郑炎钊

May 2nd, 2021

苏神，您的S(i,j)的设计，和Deep Biaffine Attention for Neural Dependency Parsing中的sα(i,j) = q⊤iα*Wa*kjα 这种双仿射有一些异曲同工之处，不知道苏神方不方便提供下CMeEE数据集下载的渠道，我想做一个简单的对比实验

回复评论

郑炎钊发表于 May 2nd, 2021

已找到

回复评论

苏剑林发表于 May 2nd, 2021

我这q,k本来就带有变换矩阵，实质上就是一样的。现在这种结构已经很普遍了，没必要去寻找什么相似之处，几乎随手就可以写出这种结构了。

回复评论

郑炎钊发表于 May 2nd, 2021

感谢苏神回复，TPLinker的论文中没有提到他们在计算矩阵时加入了各个token的位置信息，但在他们的源码中却有这样的选择设置（如果使用，则加入sin/cos的绝对位置编码，https://github.com/131250208/TPlinker-joint-extraction/blob/master/tplinker/tplinker.py 440行左右),个人推测可能是加入不加入对结果没有太大影响，所以文章中就不提了。

回复评论

苏剑林发表于 May 2nd, 2021

感谢告知。不过Sinusoidal位置编码不算能特别完美地表达相对位置信息的位置编码，这方面还是RoPE更优雅一些哈哈。

回复评论

zyc

May 2nd, 2021

很喜欢苏神的工作，在阅读中有几个问题希望能得到您的解答，1.位置信息虽然重要，但是加性attention之前的成功很难说这么大的提升全都是Rope带来的，不过可能和之前的工作会限制span的最大长度有关，但如同tplinker应该就没有限制。 2.多头attention的解码之前的工作也有过，但似乎之前的乘性解码会再除以一个常数比如根号d，否则可能方差会很大，训练也会出现很大的波动。 3. 之前看了您的多分类，感觉如果利用指针这种mrc这些很多都能利用到，我也简单试过span级别的circle loss形式，结果不是很好，不过形式和您有所差异，之后打算再试一下，可以问一下您之前有用过这种circle loss的形式吗？4. 有点不清楚mrc部分中f1(i,j)和s（i，j）的区别是什么，希望能得到您的解答。

回复评论

zyc 发表于 May 2nd, 2021

又看了下mrc部分，f1是否可以理解为一个模糊匹配的程度，相当于就算召回了一个和最终目标不太一样的片段，也可以给一个正向的激励？

回复评论

苏剑林发表于 May 2nd, 2021

1、加性attention成功的原因我也说不清楚，可能是加性attention本身的非交换性带来的好处，因为乘性attention加上RoPE也具有非交换性了，也说不准并不是加性attention带来的好处，只不过它们处理的场景没有我说的极端情况；

2、我实现的代码里边是除了个$\sqrt{d}$，并且也实验过没有除的，效果差不多，其实不管除不除，都只是一个优化的小细节，不必要写在介绍的正文里边，更何况“否则可能方差会很大，训练也会出现很大的波动”纯粹是拍脑袋的想法，事实上并没有那么必要，比如T5就没有除；

3、“之前有用过这种circle loss的形式吗”没看明白你这句表达什么意思；

4、$f_1(i,j)$的含义我想我在文中已经表达清楚了，就是一个字符串模糊匹配的相似度。

回复评论

zyc 发表于 May 2nd, 2021

感谢苏神的回复。1. 乘性attention为什么不具备非交换性，他不是先通过Wq和Wk线性变换了吗（对于非交换性概念有点模糊，如果问的有问题还请见谅）？ 2. 刚看了您的代码，发现确实是这样。在我这里确实出现了很大的波动，之前我用这种方法做关系分类，如果不除以常数很难收敛，不过就算除以之后能够收敛也会损害性能。3. 主要是问您有在其他诸如mrc的领域用过吗？

回复评论

zyc 发表于 May 2nd, 2021

感谢苏神的指教，看了下t5模型，确实是这样，他似乎是通过初始化方差缩小一定比例来间接完成这个过程的，那这样确实很合理qaq。

回复评论

苏剑林发表于 May 2nd, 2021

哦哦，我想到$\langle\boldsymbol{h}_i,\boldsymbol{h}_j\rangle=\langle\boldsymbol{h}_j,\boldsymbol{h}_i\rangle$了，一下子忘记变换矩阵了。mrc也单独试过，并且mrc只是ner的一个特例，就算你只试过ner也算是试过mrc了。

回复评论

zyc 发表于 May 3rd, 2021

感谢

回复评论

Songlin Yang

May 3rd, 2021

看起来很像Label attention layer:
Rethinking Self-Attention: Towards Interpretability in Neural Parsing

回复评论

苏剑林发表于 May 6th, 2021

嗯嗯，之前也有人推荐过，是有点像。不过你推荐的这篇文章，其实更像tplinker多一点，都是用加性attention～

回复评论

苏老三

May 4th, 2021

您好，
您的代码中设置head_size 为64：
output = GlobalPointer(len(categories), 64)(model.output)
但是，在您的另一篇博客：https://kexue.fm/archives/7325中指出head_size太小会存在低秩瓶颈问题。
我想问一下此处head_size是否需要考虑这个问题，设置为多少比较合适？

回复评论

苏剑林发表于 May 6th, 2021

低秩问题确实存在，但是“低秩”并不一定“不够用”，对于这里的NER场景来说，不一定需要太大的秩。

回复评论

小鸡仔

May 7th, 2021

苏神博客质量都好高啊，其实一直疑问一个问题，苏神为什么不好好经营公众号，尝试一下变现呢。
看很多Ai公众号都在发文章接广告变现，感觉苏神好好经营公众号（比如文章首发公众号）肯定粉丝很多。

最后..也许我是个俗人

回复评论

苏剑林发表于 May 8th, 2021

这里边有很多原因。

1、我2009年写博客的时候，连微信都没有，更不要用公众号，写了好几年了，出了公众号，你忍心扔掉你好几年的文章，在公众号另起炉灶？还是一篇篇搬过去？

2、公众号现在的限制，真不适合写技术文，因为写文章就避免不了有错，避免不了日后会修改，但公众号文章基本修改不了。

3、抛开微信本身带来的便捷不说，在公众号里边阅读，体验真的比在本博客里边阅读好吗？公式啥的也不支持。而作为一个独立博客，我起码能跟上最新的html技术做很多事情（在有必要的时候）。

4、其实就这样博客也有一定变现途径，但是我真没兴趣...就做一个纯粹的博客挺好的。当然，并不是我“不差钱”，只是用自己专注做了十多年的东西去圈钱，真狠不下这个心。

回复评论

小鸡仔发表于 May 8th, 2021

佩服苏神这种精神，也多多少少能理解苏神这种专注的心理不舍得丢弃一些东西。但是我个人只是觉得苏神无私分享文章、帮人回答问题，而且技术过硬值得拥有更多。最后我个人觉得适当的变现其实也是给自己写文章一定的动力，粉丝都会理解的，就比如up主发视频总不能用爱发电，多多少少会接点广告变现，可以一月接两个这种。我觉得公众号还是一个不错的变现平台，苏神可以考虑博客文章和公众号一起发，就是有点费时间，但是公众号积累粉丝到一定，可以变现提升自己更生活，变现后会少去一些物质上的烦恼，才能让自己有更多的时间和精力去写文章，去更新。用公众号变现，自己博客还是可以保持10余年的专注~
我不是闲操心~只是作为苏神一个粉丝，提出一些个人建议（纯自己想法，也可能很多不对），最后，支持苏神的决定，只是单纯觉得像苏神这种大佬值得拥有更多~

回复评论

苏剑林发表于 May 10th, 2021

谢谢你的建议。现在并不是过不了读者那关，而是过不了我自己那关。

回复评论

study 发表于 September 24th, 2021

就像海上钢琴师一样，明知下船后会拥有很多，但最终选择留在了船上。现在不想没关系，以后想时也可以随时做的，只是希望无论在哪里，都要保持对钢琴的热爱与执着，点亮自己的生活，照亮他人的世界。

回复评论

Ada

May 8th, 2021

这种精神真的很不错！

回复评论

Jay2Coomzz

May 11th, 2021

苏神，如果存在这样一个NER的任务有什么好的办法吗：有些句子包含实体，而有些句子不包含实体。
我想到的是给每个句子前边加一个无，让模型去识别。如果最后只识别出无，那就是没有实体，否则就有实体。不过会出现偏分类问题。

回复评论

苏剑林发表于 May 11th, 2021

不管是CRF还是本文的GlobalPointer，都有能力应对这种情况，不知道你为什么需要特殊处理。

回复评论

Jay2Coomzz 发表于 May 11th, 2021

我想请教一下，这种情况该怎么做呢，有没有这样的案例参考一下。

回复评论

苏剑林发表于 May 11th, 2021

这种情况不用怎么做，默认就行。请认真理解CRF或者GlobalPointer或者其他序列标注模型。

回复评论

Bert4Keras

May 11th, 2021

手动点赞，这个会出现在bert4keras的examples里吗？期待

回复评论

苏剑林发表于 May 11th, 2021

不是已经单独开源了吗

回复评论

BIGGG

May 12th, 2021

苏神我也想看下RoBERTa large在第三个任务中的代码，以及最后的实验结果。谢谢

回复评论

苏剑林发表于 May 12th, 2021

效果已经说了，代码跟base的没区别。

回复评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

GlobalPointer：用统一的方式处理嵌套和非嵌套NER

GlobalPointer #

基本思路 #

数学形式 #

相对位置 #

优化细节 #

损失函数 #

评价指标 #

优化F1值 #

实验结果 #

人民日报 #

CLUENER #

CMeEE #

思考拓展 #

相比CRF #

相关工作 #

加性乘性 #

本文小结 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接