18 May

鱼与熊掌兼得：融合检索和生成的SimBERT模型

By 苏剑林 | 2020-05-18 | 406911位读者 |

前段时间我们开放了一个名为SimBERT的模型权重，它是以Google开源的BERT模型为基础，基于微软的UniLM思想设计了融检索与生成于一体的任务，来进一步微调后得到的模型，所以它同时具备相似问生成和相似句检索能力。不过当时除了放出一个权重文件和示例脚本之外，未对模型原理和训练过程做进一步说明。在这篇文章里，我们来补充这部分内容。

开源地址：https://github.com/ZhuiyiTechnology/simbert

UniLM #

UniLM是一个融合NLU和NLG能力的Transformer模型，由微软在去年5月份提出来的，今年2月份则升级到了v2版本。我们之前的文章《从语言模型到Seq2Seq：Transformer如戏，全靠Mask》就简单介绍过UniLM，并且已经集成到了bert4keras中。

UniLM的核心是通过特殊的Attention Mask来赋予模型具有Seq2Seq的能力。假如输入是“你想吃啥”，目标句子是“白切鸡”，那UNILM将这两个句子拼成一个：[CLS] 你想吃啥 [SEP] 白切鸡 [SEP]，然后接如图的Attention Mask：

UniLM的Mask

换句话说，[CLS] 你想吃啥 [SEP]这几个token之间是双向的Attention，而白切鸡 [SEP]这几个token则是单向Attention，从而允许递归地预测白切鸡 [SEP]这几个token，所以它具备文本生成能力。

UNILM做Seq2Seq模型图示。输入部分内部可做双向Attention，输出部分只做单向Attention。

Seq2Seq只能说明UniLM具有NLG的能力，那前面为什么说它同时具备NLU和NLG能力呢？因为UniLM特殊的Attention Mask，所以[CLS] 你想吃啥 [SEP]这6个token只在它们之间相互做Attention，而跟白切鸡 [SEP]完全没关系，这就意味着，尽管后面拼接了白切鸡 [SEP]，但这不会影响到前6个编码向量。再说明白一点，那就是前6个编码向量等价于只有[CLS] 你想吃啥 [SEP]时的编码结果，如果[CLS]的向量代表着句向量，那么它就是你想吃啥的句向量，而不是加上白切鸡后的句向量。

由于这个特性，UniLM在输入的时候也随机加入一些[MASK]，这样输入部分就可以做MLM任务，输出部分就可以做Seq2Seq任务，MLM增强了NLU能力，而Seq2Seq增强了NLG能力，一举两得。

SimBERT #

理解了UniLM后，其实就不难理解SimBERT训练方式了。SimBERT属于有监督训练，训练语料是自行收集到的相似句对，通过一句来预测另一句的相似句生成任务来构建Seq2Seq部分，然后前面也提到过[CLS]的向量事实上就代表着输入的句向量，所以可以同时用它来训练一个检索任务，如下图：

SimBERT训练方式示意图

假设SENT_a和SENT_b是一组相似句，那么在同一个batch中，把[CLS] SENT_a [SEP] SENT_b [SEP]和[CLS] SENT_b [SEP] SENT_a [SEP]都加入训练，做一个相似句的生成任务，这是Seq2Seq部分。

另一方面，把整个batch内的[CLS]向量都拿出来，得到一个句向量矩阵$\boldsymbol{V}\in\mathbb{R}^{b\times d}$（$b$是batch_size，$d$是hidden_size），然后对$d$维度做$l_2$归一化，得到$\tilde{\boldsymbol{V}}$，然后两两做内积，得到$b\times b$的相似度矩阵$\tilde{\boldsymbol{V}}\tilde{\boldsymbol{V}}^{\top}$，接着乘以一个scale（我们取了30），并mask掉对角线部分，最后每一行进行softmax，作为一个分类任务训练，每个样本的目标标签是它的相似句（至于自身已经被mask掉）。说白了，就是把batch内所有的非相似样本都当作负样本，借助softmax来增加相似样本的相似度，降低其余样本的相似度。

说到底，关键就是“[CLS]的向量事实上就代表着输入的句向量”，所以可以用它来做一些NLU相关的事情。最后的loss是Seq2Seq和相似句分类两部分loss之和。

其他细节 #

由于已经开放源码，所以更多的训练细节大家可以自行阅读源码。模型使用keras + bert4keras实现，代码还是很清晰的，所以很多疑惑应该都可以通过阅读源码解决。

效果演示：

>>> gen_synonyms(u'微信和支付宝哪个好？')

[
    u'微信和支付宝，哪个好?',
    u'微信和支付宝哪个好',
    u'支付宝和微信哪个好',
    u'支付宝和微信哪个好啊',
    u'微信和支付宝那个好用？',
    u'微信和支付宝哪个好用',
    u'支付宝和微信那个更好',
    u'支付宝和微信哪个好用',
    u'微信和支付宝用起来哪个好？',
    u'微信和支付宝选哪个好',
    u'微信好还是支付宝比较用',
    u'微信与支付宝哪个',
    u'支付宝和微信哪个好用一点？',
    u'支付宝好还是微信',
    u'微信支付宝究竟哪个好',
    u'支付宝和微信哪个实用性更好',
    u'好，支付宝和微信哪个更安全？',
    u'微信支付宝哪个好用？有什么区别',
    u'微信和支付宝有什么区别？谁比较好用',
    u'支付宝和微信哪个好玩'
]

>>> most_similar(u'怎么开初婚未育证明', 20)
[
    (u'开初婚未育证明怎么弄？', 0.9728098), 
    (u'初婚未育情况证明怎么开？', 0.9612292), 
    (u'到哪里开初婚未育证明？', 0.94987774), 
    (u'初婚未育证明在哪里开？', 0.9476072), 
    (u'男方也要开初婚证明吗?', 0.7712214), 
    (u'初婚证明除了村里开，单位可以开吗？', 0.63224965), 
    (u'生孩子怎么发', 0.40672967), 
    (u'是需要您到当地公安局开具变更证明的', 0.39978087), 
    (u'淘宝开店认证未通过怎么办', 0.39477515), 
    (u'您好，是需要当地公安局开具的变更证明的', 0.39288986), 
    (u'没有工作证明，怎么办信用卡', 0.37745982), 
    (u'未成年小孩还没办身份证怎么买高铁车票', 0.36504325), 
    (u'烟草证不给办，应该怎么办呢？', 0.35596085), 
    (u'怎么生孩子', 0.3493368), 
    (u'怎么开福利彩票站', 0.34158638), 
    (u'沈阳烟草证怎么办？好办不？', 0.33718678), 
    (u'男性不孕不育有哪些特征', 0.33530876), 
    (u'结婚证丢了一本怎么办离婚', 0.33166665), 
    (u'怎样到地税局开发票？', 0.33079252), 
    (u'男性不孕不育检查要注意什么？', 0.3274408)
]

大家可能比较关心训练数据的问题，这里统一回答：关于训练数据，不方便公开，私下分享也不方便，所以就不要问数据的事情了，数据来源就是爬取百度知道推荐的相似问，然后经过简单算法过滤。如果读者手头上本身有很多问句，那么其实也可以通过常见的检索算法检索出一些相似句，作为训练数据用。总而言之，训练数据没有特别严格要求，理论上有一定的相似性都可以。

至于训练硬件，开源的模型是在一张TITAN RTX（22G显存，batch_size=128）上训练了4天左右，显存和时间其实也没有硬性要求，视实际情况而定，如果显存没那么大，那么适当降低batch_size即可，如果语料本身不是很多，那么训练时间也不用那么长（大概是能完整遍历几遍数据集即可）。

暂时就只能想到这些了，还有啥问题欢迎留言讨论。

文章小结 #

本文介绍了早先我们放出来的SimBERT模型的训练原理，并开源了训练代码。SimBERT通过基于UniLM思想进行训练，同时具备检索和生成的能力，欢迎大家使用测试～

转载到请包括本文地址：https://kexue.fm/archives/7427

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (May. 18, 2020). 《鱼与熊掌兼得：融合检索和生成的SimBERT模型》[Blog post]. Retrieved from https://kexue.fm/archives/7427

@online{kexuefm-7427,
        title={鱼与熊掌兼得：融合检索和生成的SimBERT模型},
        author={苏剑林},
        year={2020},
        month={May},
        url={\url{https://kexue.fm/archives/7427}},
}

分类：信息时代标签：语言模型, 生成模型, 文本生成 161 评论

< 从EMD、WMD到WRD：文本向量序列的相似度计算 | Google新作Synthesizer：我们还不够了解自注意力 >

你也许还对下面的内容感兴趣

发表你的看法

WALL-E

July 31st, 2020

像这样好，不好这样效果好吗，是的，不是

回复评论

苏剑林发表于 August 2nd, 2020

请问这是要表达什么？

回复评论

xxw 发表于 February 1st, 2021

爽言爽语

回复评论

唐成友

August 5th, 2020

反义短句子判定？

回复评论

苏剑林发表于 August 6th, 2020

“反义”其实是个伪概念，比如“黑色”和“白色”、“开心”和“伤心”，它们是人们“胡乱想象”所定义出来的反义词，但事实上它们近义得很...

回复评论

田鹏明

August 28th, 2020

做title query的召回应该也适用吧？

回复评论

苏剑林发表于 August 29th, 2020

可以的

回复评论

田鹏明发表于 September 1st, 2020

负样本是batch_size-1 batch_size=128负样本会不会太多

回复评论

苏剑林发表于 September 1st, 2020

不会啊，负样本成千上万更好～这里用的是softmax，不会有类别不均衡问题。

回复评论

xisn

August 31st, 2020

您好，请问可以用lcqmc这类包含正负例标签的数据来微调模型吗？微调时可以只考虑相似度loss吗？经过初步试验效果并不好，请文是什么原因呢

回复评论

苏剑林发表于 August 31st, 2020

如果正负类都要用上，那应该要写个类似孪生网络这样的模型来训练吧。

回复评论

xisn 发表于 September 2nd, 2020

嗯，“unilm”得用孪生网络，用“encoder”可直接pair分类吧？还有个问题想请教一下，您在计算相似度时，*30做scale,这个是基于什么考虑呢？

回复评论

苏剑林发表于 September 2nd, 2020

做了归一化，所以内积（cos值）限制在$[-1, 1]$里边，直接做softmax不大合理，需要scale一下。

回复评论

xisn 发表于 September 3rd, 2020

明白了，非常感谢您的回复！

回复评论

earlygetup

September 2nd, 2020

ValueError: Invalid control character at: line 1 column 284 (char 283) 这个问题有人遇到过吗，用的训练数据是data_sample.json

回复评论

earlygetup 发表于 September 2nd, 2020

解决了。。

回复评论

earlygetup

September 2nd, 2020

苏神每一轮的batch是固定的吗，每次batch正负样本都是相同的吗？

回复评论

earlygetup 发表于 September 2nd, 2020

这份代码是在cpu上跑的吗

回复评论

苏剑林发表于 September 2nd, 2020

gpu

回复评论

苏剑林发表于 September 2nd, 2020

batch_size是相同的。

回复评论

earlygetup 发表于 September 3rd, 2020

我想问正样本每次对应的负样本是相同的吗，是不是随机的负样本好一点哈

回复评论

苏剑林发表于 September 3rd, 2020

负样本怎么会相同啊，batch内的其他样本都是负样本，而每个batch都是随机组合而来的。

回复评论

earlygetup

September 3rd, 2020

苏神有没有交流群之类的哈哈哈

回复评论

苏剑林发表于 September 3rd, 2020

用PC打开本博客首页，查看侧边栏。

回复评论

starrycpx

September 7th, 2020

请问这个有和双塔型bert（句子向量可以尝试cls，pooling向量等）比较过效果吗？

回复评论

苏剑林发表于 September 7th, 2020

没有，这个模型是第一目的其实是相似问生成，检索其实是“顺便”带来的副产品。

回复评论

qinjie

September 8th, 2020

你好苏神，我在使用simbert做QQ匹配的过程中遇到了一些问题，测试了一下20万对QQ中会有40w个句子需要转成vecs矩阵，占用了大概8G内存，查看了一下是python中float占用了28字节，因为python中皆是对象，存储了其他东西。有什么办法进行压缩吗？期待你的回复，谢谢。

回复评论

苏剑林发表于 September 9th, 2020

你这是工程问题，我也没法帮你呀。

回复评论

chi

September 29th, 2020

想问一下计算相似度损失时考虑am-softmax函数会更好吗

回复评论

苏剑林发表于 September 30th, 2020

应该没什么区别。因为这已经是直接是样本对之间的比较了，softmax本身会自带一些margin；而amsoftmax刻意加大margin，一般是用于普通的分类训练，然后只用编码器抽特征检索的场景。

回复评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

鱼与熊掌兼得：融合检索和生成的SimBERT模型

UniLM #

SimBERT #

其他细节 #

文章小结 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接