30 Jan

GPLinker：基于GlobalPointer的实体关系联合抽取

By 苏剑林 | 2022-01-30 | 184079位读者 |

在将近三年前的百度“2019语言与智能技术竞赛”（下称LIC2019）中，笔者提出了一个新的关系抽取模型（参考《基于DGCNN和概率图的轻量级信息抽取模型》），后被进一步发表和命名为“CasRel”，算是当时关系抽取的SOTA。然而，CasRel提出时笔者其实也是首次接触该领域，所以现在看来CasRel仍有诸多不完善之处，笔者后面也有想过要进一步完善它，但也没想到特别好的设计。

后来，笔者提出了GlobalPointer以及近日的Efficient GlobalPointer，感觉有足够的“材料”来构建新的关系抽取模型了。于是笔者从概率图思想出发，参考了CasRel之后的一些SOTA设计，最终得到了一版类似TPLinker的模型。

基础思路 #

关系抽取乍看之下是三元组$(s,p,o)$（即subject, predicate, object)的抽取，但落到具体实现上，它实际是“五元组”$(s_h,s_t,p,o_h,o_t)$的抽取，其中$s_h,s_t$分别是$s$的首、尾位置，而$o_h,o_t$则分别是$o$的首、尾位置。

从概率图的角度来看，我们可以这样构建模型：

1、设计一个五元组的打分函数$S(s_h,s_t,p,o_h,o_t)$；
2、训练时让标注的五元组$S(s_h,s_t,p,o_h,o_t) > 0$，其余五元组则$S(s_h,s_t,p,o_h,o_t) < 0$；
3、预测时枚举所有可能的五元组，输出$S(s_h,s_t,p,o_h,o_t) > 0$的部分。

然而，直接枚举所有的五元组数目太多，假设句子长度为$l$，$p$的总数为$n$，即便加上$s_h\leq s_t$和$o_h\leq o_t$的约束，所有五元组的数目也有
\begin{equation}n\times \frac{l(l+1)}{2}\times \frac{l(l+1)}{2}=\frac{1}{4}nl^2(l+1)^2\end{equation}
这是长度的四次方级别的计算量，实际情况下难以实现，所以必须做一些简化。

简化分解 #

以我们目前的算力来看，一般最多也就能接受长度平方级别的计算量，所以我们每次顶多能识别“一对”首或尾，为此，我们可以用以下的分解：
\begin{equation}S(s_h,s_t,p,o_h,o_t) = S(s_h,s_t) + S(o_h,o_t) + S(s_h,o_h| p) + S(s_t, o_t| p)\label{eq:factor}\end{equation}
要注意的是，该等式属于模型假设，是基于我们对任务的理解以及算力的限制所设计出来的，而不是理论推导出来的。其中，每一项都具直观的意义，比如$S(s_h,s_t)$、$S(o_h,o_t)$分别是subject、object的首尾打分，通过$S(s_h,s_t) > 0$和$S(o_h,o_t) > 0$来析出所有的subject和object。至于后两项，则是predicate的匹配，$S(s_h,o_h|p)$这一项代表以subject和object的首特征作为它们自身的表征来进行一次匹配，如果我们能确保subject内和object内是没有嵌套实体的，那么理论上$S(s_h,o_h|p) > 0$就足够析出所有的predicate了，但考虑到存在嵌套实体的可能，所以我们还要对实体的尾再进行一次匹配，即$S(s_t, o_t|p)$这一项。

此时，训练和预测过程变为：

1、训练时让标注的五元组$S(s_h,s_t) > 0$、$S(o_h,o_t) > 0$、$S(s_h,o_h| p) > 0$、$S(s_t, o_t| p) > 0$，其余五元组则$S(s_h,s_t) < 0$、$S(o_h,o_t) < 0$、$S(s_h,o_h| p) < 0$、$S(s_t, o_t| p) < 0$；
2、预测时枚举所有可能的五元组，逐次输出$S(s_h,s_t) > 0$、$S(o_h,o_t) > 0$、$S(s_h,o_h| p) > 0$、$S(s_t, o_t| p) > 0$的部分，然后取它们的交集作为最终的输出（即同时满足4个条件）。

在实现上，由于$S(s_h,s_t)$、$S(o_h,o_t)$是用来识别subject、object对应的实体的，它相当于有两种实体类型的NER任务，所以我们可以用一个GlobalPointer来完成；至于$S(s_h,o_h| p)$，它是用来识别predicate为$p$的$(s_h,o_h)$对，跟NER不同的是，它这里不需要$s_h \leq o_h$的约束，这里我们同样用GlobalPointer来完成，但为了识别出$s_h > o_h$的部分，要去掉GlobalPointer默认的下三角mask；最后$S(s_t, o_t|p)$跟$S(s_h,o_h| p)$同理，不再赘述。

这里再回顾一遍：我们知道，作为NER模块，GlobalPointer可以统一识别嵌套和非嵌套的实体，而这是它基于token-pair的识别来做到的。所以，我们应该进一步将GlobalPointer理解为一个token-pair的识别模型，而不是局限在NER范围内理解它。认识到这一点之后，我们就能明白上述$S(s_h,s_t)$、$S(o_h,o_t)$、$S(s_h,o_h| p)$、$S(s_t, o_t|p)$其实都可以用GlobalPointer来实现了，而要不要加下三角mask，则自行根据具体任务背景设置就好。

损失函数 #

现在我们已经把打分函数都设计好了，那么为了训练模型，就差损失函数了。这里继续使用GlobalPointer默认使用的、在《将“Softmax+交叉熵”推广到多标签分类问题》中提出的多标签交叉熵，它的一般形式为：
\begin{equation}\log \left(1 + \sum\limits_{i\in \mathcal{P}} e^{-S_i}\right) + \log \left(1 + \sum\limits_{i\in \mathcal{N}} e^{S_i}\right)\label{eq:loss-1}\end{equation}
其中$\mathcal{P},\mathcal{N}$分别是正、负类别的集合。在之前的文章中，我们都是用“multi hot”向量来标记正、负类别的，即如果总类别数为$K$，那么我们用一个$K$维向量来表示，其中正类的位置为1，负类的位置为0。然而，在$S(s_h,o_h| p)$和$S(s_t, o_t|p)$的场景，我们各需要一个$n\times l\times l$的矩阵来标记，两个加在一起并算上batch_size总维度就是$2bnl^2$，以$b=64,n=50,l=128$为例，那么$2bnl^2\approx 1\text{亿}$。这也就意味着，如果我们还坚持用“multi hot”的形式表示标签的话，每一步训练我们都要创建一个1亿参数量的矩阵，然后还要传到GPU中，这样不管是创建还是传输成本都很大。

所以，为了提高训练速度，我们需要实现一个“稀疏版”的多标签交叉熵，即每次都只传输正类所对应的的下标就好，由于正类远远少于负类，这样标签矩阵的尺寸就大大减少了。而“稀疏版”多标签交叉熵，意味着我们要在只知道$\mathcal{P}$和$\mathcal{A}=\mathcal{P}\cup\mathcal{N}$的前提下去实现式$\eqref{eq:loss-1}$。为此，我们使用的实现方式是：
\begin{equation}\begin{aligned}
&\,\log \left(1 + \sum\limits_{i\in \mathcal{N}} e^{S_i}\right) = \log \left(1 + \sum\limits_{i\in \mathcal{A}} e^{S_i} - \sum\limits_{i\in \mathcal{P}} e^{S_i}\right) \\
=&\, \log \left(1 + \sum\limits_{i\in \mathcal{A}} e^{S_i}\right) + \log \left(1 - \left(\sum\limits_{i\in \mathcal{P}} e^{S_i}\right)\Bigg/\left(1 + \sum\limits_{i\in \mathcal{A}} e^{S_i}\right)\right)
\end{aligned}\end{equation}
如果即$a = \log \left(1 + \sum\limits_{i\in \mathcal{A}} e^{S_i}\right),b=\log \left(\sum\limits_{i\in \mathcal{P}} e^{S_i}\right)$，那么可以写为
\begin{equation}\log \left(1 + \sum\limits_{i\in \mathcal{N}} e^{S_i}\right) = a + \log\left(1 - e^{b - a}\right)\end{equation}
这样就通过$\mathcal{P}$和$\mathcal{A}$算出了负类对应的损失，而正类部分的损失保持不变就好。

最后，一般情况下的多标签分类任务正类个数是不定的，这时候我们可以将类的下标从1开始，将0作为填充标签使得每个样本的标签矩阵大小一致，最后在loss的实现上对0类进行mask处理即可。相应的实现已经内置在bert4keras中，详情可以参考“sparse_multilabel_categorical_crossentropy”。

实验结果 #

为了方便称呼，我们暂且将上述模型称为GPLinker（GlobalPointer-based Linking），一个基于bert4keras的参考实现如下：

脚本链接：task_relation_extraction_gplinker.py

在LIC2019上的实验结果如下（CasRel的代码为task_relation_extraction.py）：
\begin{array}{c|c}
\hline
\text{模型} & \text{F1} \\
\hline
\text{CasRel} & 0.8220 \\
\text{GPLinker (Standard)} & 0.8272\\
\text{GPLinker (Efficient)} & 0.8268\\
\hline
\end{array}

预训练模型是BERT base，Standard和Efficient的区别是分别使用了标准版GlobalPointer和Efficient GlobalPointer。该实验结果说明了两件事情，一是GPLinker确实比CasRel更加有效，二是Efficient GlobalPointer的设计确实能在更少参数的情况下媲美标准版GlobalPointer的效果。要知道在LIC2019这个任务下，如果使用标准版GlobalPointer，那么GPLinker的参数量接近1千万，而用Efficient GlobalPointer的话只有30万左右。

此外，在3090上，相比于“multi hot”版的多标签交叉熵，使用稀疏版多标签交叉熵的模型在训练速度上能提高1.5倍而不会损失精度，跟CasRel相比，使用了稀疏版多标签交叉熵的GPLinker在训练速度上只慢15%，但是解码速度快将近一倍，算得上又快又好了。

文章小结 #

本文分享了一个基于GlobalPointer的实体关系联合抽取模型——“GPLinker”，并提供了一个“自上而下”的推导理解给大家参考。

转载到请包括本文地址：https://kexue.fm/archives/8888

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Jan. 30, 2022). 《GPLinker：基于GlobalPointer的实体关系联合抽取》[Blog post]. Retrieved from https://kexue.fm/archives/8888

@online{kexuefm-8888,
        title={GPLinker：基于GlobalPointer的实体关系联合抽取},
        author={苏剑林},
        year={2022},
        month={Jan},
        url={\url{https://kexue.fm/archives/8888}},
}

分类：信息时代标签：NLP, 信息抽取, NER 52 评论

< Efficient GlobalPointer：少点参数，多点效果 | 多任务学习漫谈（二）：行梯度之事 >

你也许还对下面的内容感兴趣

发表你的看法

黄黄

June 8th, 2022

求教苏神，从您的GPlinker代码中看到了分别用来处理实体、SH-OH、ST-OT的三个Global Pointer，并没有像TPlinkerPlus那样同时预测实体类型。

我观察到有不少竞赛的IE数据集格式是（subject, subject_type, predicate, object, object_type），但是只要求提交三元组。那么，如果把用来识别实体的Global Pointer的heads数改为实体种类，同时对实体和关系的类型进行预测。这样预测三元组的性能会不会也能更好一些呢？

另外，我想请教一下，用来预测实体的Global Pointer的heads数是2，而不是1，这是为什么呢？
entity_output = GlobalPointer(heads=2, head_size=64)(base.model.output)

谢谢

回复评论

苏剑林发表于 June 9th, 2022

1、补上预测实体类型会不会更好，我也不确定，没做过类似实验；

2、“预测实体的Global Pointer的heads数是2”，这是因为我分开预测subject实体和object实体了，本文有说明。

回复评论

黄黄发表于 June 22nd, 2022

添加实体类型进行训练的实验做了一些（Global Pointer实体头层数由原来的2层修改为实体种类*2），发现并没有提升模型三元组的性能，反而会有轻微下降。

在代码中，我观察到loss = (实体loss + 关系头loss + 关系尾loss) / 3，也就是这三个Global Pointer的损失的权重是一致的。求教有没有可能通过调整这3个loss的权重或者统一这3个loss，进一步提升模型性能呢？

谢谢

回复评论

苏剑林发表于 June 22nd, 2022

按道理，每个loss都同等重要，所以我直接求和。我看不出怎么调节loss权重更为自然和合理。

回复评论

苏神博客阅读记录_Johngo学长

September 26th, 2022

[...]GPLinker：基于GlobalPointer的实体关系联合抽取[...]

回复评论

NLP-信息抽取-关系抽取-2019：CasRel【关系三元组抽取：一种新的级联二元标注框架】_Johngo学长

September 26th, 2022

[...]参考资料：基于DGCNN和概率图的轻量级信息抽取模型GPLinker：基于GlobalPointer的实体关系联合抽取ACL2020-关系抽取 CASREL关系抽取模型NLP之关系抽取（信息抽取、三元组抽取）（附pytorch代码）[...]

回复评论

tongtongwang

October 8th, 2022

数据集使用的公开数据，请问如果换成自己数据的话，自己数据怎么处理，才能使和给出的数据集格式是一样的

回复评论

苏剑林发表于 October 9th, 2022

思路错了。应该理解代码后修改代码来适配自己的数据，而不是修改数据来适配代码。

回复评论

tongtongwang

October 25th, 2022

你好，我用glbalpointer联合抽取模型,抽取的f1并不理想，才到70%，可是使用流水线的分布抽取效果更好，这是什么原因，怎么才能提高F1值

回复评论

苏剑林发表于 October 26th, 2022

不清楚，需要看pr和recall哪个低，然后针对性调整，没有万能模型和万能方法。

回复评论

fly

March 3rd, 2023

我的模型用到了gplinker,在论文中引用了gplinker和Efficient GlobalPointer,但反馈意见说参考文献没有代表性，怎么办

回复评论

苏剑林发表于 March 3rd, 2023

1、https://arxiv.org/abs/2208.03054 引用这个试试；

2、当然我更想你替我问候一下审稿人。

回复评论

fly 发表于 March 3rd, 2023

好的，我介绍GlobalPointer引用了GlobalPointer那篇论文，只是在介绍gplinker和Efficient GlobalPointer所使用的是网页上给出的引用格式，审稿人认为这种网页上的参考文献不规范，反馈意见说"参考文献没有代表性，要选用一些比较好的期刊会议"。现在我论文中首次出现gplinker和Efficient GlobalPointer，我该怎么办

回复评论

fly 发表于 March 3rd, 2023

我自己建了个数据集，实验结果显示gplinker模型比casrel、TPLinker_plus效果要好

回复评论

fly 发表于 March 3rd, 2023

我自制的关系抽取数据集，用Efficient GlobalPointer替代GlobalPointer，性能提升了，另一个自制的NER数据集，Efficient GlobalPointer替代GlobalPointer，性能明显提升，也好过Bert+CRF

回复评论

苏剑林发表于 March 3rd, 2023

谢谢。

你可以尝试跟他讲道理，说所给的链接就是GPLinker作者的首发文章，而且目前仅仅在这个网页进行了发布，如果原作者的唯一首发文章都没有代表性，那么就没有文献是有代表性的了。

当然，根据我的经验，跟审稿人讲道理大概率是没用的，所以只能祝你好运，我也确实无能为力。

还有一个比较折衷的办法，就是GPLinker和Efficient GlobalPointer都引到 https://arxiv.org/abs/2208.03054 这篇论文。我相信对于不讲道理的审稿人来说，他只是看到网络链接就无脑质疑，不会真的去看论文的。

回复评论

fly 发表于 March 3rd, 2023

好的，谢谢苏神

回复评论

May 30th, 2023

[...]GPLinker[...]

回复评论

苏神博客阅读记录_Johngo学长

May 30th, 2023

[...]GPLinker：基于GlobalPointer的实体关系联合抽取[...]

回复评论

NLP-信息抽取-关系抽取-2019：CasRel【关系三元组抽取：一种新的级联二元标注框架】_Johngo学长

May 30th, 2023

[...]参考资料：一文详解关系抽取模型 CasRelACL2020-关系抽取 CASRELCasrel，TPlinker，PRGC三者模型比较基于DGCNN和概率图的轻量级信息抽取模型GPLinker：基于GlobalPointer的实体关系联合抽取关系抽取模型NLP之关系抽取（信息抽取、三元组抽取）（附pytorch代码）[...]

回复评论

June 1st, 2023

[...]GPLinker[...]

回复评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

GPLinker：基于GlobalPointer的实体关系联合抽取

基础思路 #

简化分解 #

损失函数 #

实验结果 #

相关工作 #

文章小结 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接