【中文分词系列】 4. 基于双向LSTM的seq2seq字标注
By 苏剑林 | 2016-08-22 | 478081位读者 |关于字标注法 #
上一篇文章谈到了分词的字标注法。要注意字标注法是很有潜力的,要不然它也不会在公开测试中取得最优的成绩了。在我看来,字标注法有效有两个主要的原因,第一个原因是它将分词问题变成了一个序列标注问题,而且这个标注是对齐的,也就是输入的字跟输出的标签是一一对应的,这在序列标注中是一个比较成熟的问题;第二个原因是这个标注法实际上已经是一个总结语义规律的过程,以4tag标注为为例,我们知道,“李”字是常用的姓氏,一半作为多字词(人名)的首字,即标记为b;而“想”由于“理想”之类的词语,也有比较高的比例标记为e,这样一来,要是“李想”两字放在一起时,即便原来词表没有“李想”一词,我们也能正确输出be,也就是识别出“李想”为一个词,也正是因为这个原因,即便是常被视为最不精确的HMM模型也能起到不错的效果。
关于标注,还有一个值得讨论的内容,就是标注的数目。常用的是4tag,事实上还有6tag和2tag,而标记分词结果最简单的方法应该是2tag,即标记“切分/不切分”就够了,但效果不好。为什么反而更多数目的tag效果更好呢?因为更多的tag实际上更全面概括了语义规律。比如,用4tag标注,我们能总结出哪些字单字成词、哪些字经常用作开头、哪些字用作末尾,但仅仅用2tag,就只能总结出哪些字经常用作开头,从归纳的角度来看,是不够全面的。但6tag跟4tag比较呢?我觉得不一定更好,6tag的意思是还要总结出哪些字作第二字、第三字,但这个总结角度是不是对的?我觉得,似乎并没有哪些字固定用于第二字或者第三字的,这个规律的总结性比首字和末字的规律弱多了(不过从新词发现的角度来看,6tag更容易发现长词。)。
双向LSTM #
关于双向LSTM,理解的思路是:双向LSTM是LSTM的改进版,LSTM是RNN的改进版。因此,首先需要理解RNN。
笔者曾在拙作《从Boosting学习到神经网络:看山是山?》说到过,模型的输出结果,事实上也是一种特征,也可以作为模型的输入来用,RNN正是这样的网络结构。普通的多层神经网络,是一个输入到输出的单向传播过程。如果涉及到高维输入,也可以这样做,但节点太多,不容易训练,也容易过拟合。比如图像输入是1000x1000的,难以直接处理,这就有了CNN;又或者1000词的句子,每个词用100维的词向量,那么输入维度也不小,这时候,解决这个问题的一个方案是RNN(CNN也可以用,但RNN更适合用于序列问题。)。
RNN的意思是,为了预测最后的结果,我先用第一个词预测,当然,只用第一个预测的预测结果肯定不精确,我把这个结果作为特征,跟第二词一起,来预测结果;接着,我用这个新的预测结果结合第三词,来作新的预测;然后重复这个过程;直到最后一个词。这样,如果输入有n个词,那么我们事实上对结果作了n次预测,给出了n个预测序列。整个过程中,模型共享一组参数。因此,RNN降低了模型的参数数目,防止了过拟合,同时,它生来就是为处理序列问题而设计的,因此,特别适合处理序列问题。
LSTM对RNN做了改进,使得能够捕捉更长距离的信息。但是不管是LSTM还是RNN,都有一个问题,它是从左往右推进的,因此后面的词会比前面的词更重要,但是对于分词这个任务来说是不妥的,因为句子各个字应该是平权的。因此出现了双向LSTM,它从左到右做一次LSTM,然后从右到左做一次LSTM,然后把两次结果组合起来。
在分词任务中的应用 #
关于深度学习与分词,很早就有人尝试过了,比如下列文章:
http://blog.csdn.net/itplus/article/details/13616045
https://github.com/xccds/chinese_wordseg_keras
http://www.leiphone.com/news/201608/IWvc75oJglAIsDvJ.html
这些文章中,不管是用简单的神经网络还是LSTM,它们的做法都跟传统模型是一样的,都是通过上下文来预测当前字的标签,这里的上下文是固定窗口的,比如用前后5个字加上当前字来预测当前字的标签。这种做法没有什么不妥之处,但仅仅是把以往估计概率的方法,如HMM、ME、CRF等,换为了神经网络而已,整个框架是没变的,本质上还是n-gram模型。而有了LSTM,LSTM本身可以做序列到序列(seq2seq)的输出,因此,为什么不直接输出原始句子的序列呢?这样不就真正利用了全文信息了吗?这就是本文的尝试。
LSTM可以根据输入序列输出一个序列,这个序列考虑了上下文的联系,因此,可以给每个输出序列接一个softmax分类器,来预测每个标签的概率。基于这个序列到序列的思路,我们就可以直接预测句子的标签。
Keras实现 #
事不宜迟,动手最重要。词向量维度用了128,句子长度截断为32(抛弃了多于32字的样本,这部分样本很少,事实上,用逗号、句号等天然分隔符分开后,句子很少有多于32字的。)。这次我用了5tag,在原来的4tag的基础上,加上了一个x标签,用来表示不够32字的部分,比如句子是20字的,那么第21~32个标签均为x。
在数据方面,我用了Bakeoff 2005的语料中微软亚洲研究院(Microsoft Research)提供的部分。代码如下,如果有什么不清晰的地方,欢迎留言。
# -*- coding:utf-8 -*-
import re
import numpy as np
import pandas as pd
s = open('msr_train.txt').read().decode('gbk')
s = s.split('\r\n')
def clean(s): #整理一下数据,有些不规范的地方
if u'“/s' not in s:
return s.replace(u' ”/s', '')
elif u'”/s' not in s:
return s.replace(u'“/s ', '')
elif u'‘/s' not in s:
return s.replace(u' ’/s', '')
elif u'’/s' not in s:
return s.replace(u'‘/s ', '')
else:
return s
s = u''.join(map(clean, s))
s = re.split(u'[,。!?、]/[bems]', s)
data = [] #生成训练样本
label = []
def get_xy(s):
s = re.findall('(.)/(.)', s)
if s:
s = np.array(s)
return list(s[:,0]), list(s[:,1])
for i in s:
x = get_xy(i)
if x:
data.append(x[0])
label.append(x[1])
d = pd.DataFrame(index=range(len(data)))
d['data'] = data
d['label'] = label
d = d[d['data'].apply(len) <= maxlen]
d.index = range(len(d))
tag = pd.Series({'s':0, 'b':1, 'm':2, 'e':3, 'x':4})
chars = [] #统计所有字,跟每个字编号
for i in data:
chars.extend(i)
chars = pd.Series(chars).value_counts()
chars[:] = range(1, len(chars)+1)
#生成适合模型输入的格式
from keras.utils import np_utils
d['x'] = d['data'].apply(lambda x: np.array(list(chars[x])+[0]*(maxlen-len(x))))
def trans_one(x):
_ = map(lambda y: np_utils.to_categorical(y,5), tag[x].reshape((-1,1)))
_ = list(_)
_.extend([np.array([[0,0,0,0,1]])]*(maxlen-len(x)))
return np.array(_)
d['y'] = d['label'].apply(trans_one)
#设计模型
word_size = 128
maxlen = 32
from keras.layers import Dense, Embedding, LSTM, TimeDistributed, Input, Bidirectional
from keras.models import Model
sequence = Input(shape=(maxlen,), dtype='int32')
embedded = Embedding(len(chars)+1, word_size, input_length=maxlen, mask_zero=True)(sequence)
blstm = Bidirectional(LSTM(64, return_sequences=True), merge_mode='sum')(embedded)
output = TimeDistributed(Dense(5, activation='softmax'))(blstm)
model = Model(input=sequence, output=output)
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
batch_size = 1024
history = model.fit(np.array(list(d['x'])), np.array(list(d['y'])).reshape((-1,maxlen,5)), batch_size=batch_size, nb_epoch=50)
#转移概率,单纯用了等概率
zy = {'be':0.5,
'bm':0.5,
'eb':0.5,
'es':0.5,
'me':0.5,
'mm':0.5,
'sb':0.5,
'ss':0.5
}
zy = {i:np.log(zy[i]) for i in zy.keys()}
def viterbi(nodes):
paths = {'b':nodes[0]['b'], 's':nodes[0]['s']}
for l in range(1,len(nodes)):
paths_ = paths.copy()
paths = {}
for i in nodes[l].keys():
nows = {}
for j in paths_.keys():
if j[-1]+i in zy.keys():
nows[j+i]= paths_[j]+nodes[l][i]+zy[j[-1]+i]
k = np.argmax(nows.values())
paths[nows.keys()[k]] = nows.values()[k]
return paths.keys()[np.argmax(paths.values())]
def simple_cut(s):
if s:
r = model.predict(np.array([list(chars[list(s)].fillna(0).astype(int))+[0]*(maxlen-len(s))]), verbose=False)[0][:len(s)]
r = np.log(r)
nodes = [dict(zip(['s','b','m','e'], i[:4])) for i in r]
t = viterbi(nodes)
words = []
for i in range(len(s)):
if t[i] in ['s', 'b']:
words.append(s[i])
else:
words[-1] += s[i]
return words
else:
return []
not_cuts = re.compile(u'([\da-zA-Z ]+)|[。,、?!\.\?,!]')
def cut_word(s):
result = []
j = 0
for i in not_cuts.finditer(s):
result.extend(simple_cut(s[j:i.start()]))
result.append(s[i.start():i.end()])
j = i.end()
result.extend(simple_cut(s[j:]))
return result
我们可以用model.summary()看一下模型的结构。
>>> model.summary()
_______________________________________________________
Layer (type) Output Shape Param # Connected to
=======================================================
input_2 (InputLayer) (None, 32) 0
_______________________________________________________
embedding_2 (Embedding) (None, 32, 128) 660864 input_2[0][0]
_______________________________________________________
bidirectional_1 (Bidirectional) (None, 32, 64) 98816 embedding_2[0][0]
_______________________________________________________
timedistributed_2 (TimeDistribute) (None, 32, 5) 325 bidirectional_1[0][0]
=======================================================
Total params: 760005
_______________________________________________________
最终的模型结果如何?我不打算去对比那些评测结果了,现在的模型在测试上达到90%以上的准确率不是什么难事。我关心的是对新词的识别和对歧义的处理。下面是一些测试结果(随便选的):
RNN 的 意思 是 , 为了 预测 最后 的 结果 , 我 先 用 第一个 词 预测 , 当然 , 只 用 第一个 预测 的 预测 结果 肯定 不 精确 , 我 把 这个 结果 作为 特征 , 跟 第二词 一起 , 来 预测 结果 ; 接着 , 我 用 这个 新 的 预测 结果 结合 第三词 , 来 作 新 的 预测 ; 然后 重复 这个 过程 。
结婚 的 和 尚未 结婚 的
苏剑林 是 科学 空间 的 博主 。
广东省 云浮市 新兴县
魏则西 是 一 名 大学生
这 真是 不堪入目 的 环境
列夫·托尔斯泰 是 俄罗斯 一 位 著名 的 作家
保加利亚 首都 索非亚 是 全国 政治 、 经济 、 文化中心 , 位于 保加利亚 中 西部
罗斯福 是 第二次世界大战 期间 同 盟国 阵营 的 重要 领导人 之一 。 1941 年 珍珠港 事件发生 后 , 罗斯 福力 主对 日本 宣战 , 并 引进 了 价格 管制 和 配给 。 罗斯福 以 租 借 法案 使 美国 转变 为 “ 民主 国家 的 兵工厂 ” , 使 美国 成为 同 盟国 主要 的 军火 供应商 和 融资 者 , 也 使得 美国 国内 产业 大幅 扩张 , 实现 充分 就业 。 二战 后期 同 盟国 逐渐 扭转 形势 后 , 罗斯福 对 塑造 战后 世界 秩序 发挥 了 关键 作用 , 其 影响 力 在 雅尔塔 会议 及 联合国 的 成立 中 尤其 明显 。 后来 , 在 美国 协助 下 , 盟军 击败 德国 、 意大利 和 日本 。
可以发现,测试结果是很乐观的。不论是人名(中国人名或外国人名)还是地名,识别效果都很好。关于这个模型,目前就说到这里,以后会继续深入的。
最后 #
事实上本文是提供了一个框架,能够直接通过双向LSTM对序列进行标注,给出完整的标注序列。这种标注的思路,可以用于很多任务,如词性标注、实体识别,因此,基于双向LSTM的seq2seq标注思路,有很广的应用,值得研究。甚至最近热门的深度学习的机器翻译,都是用这种序列到序列的模型实现的。
转载到请包括本文地址:https://kexue.fm/archives/3924
更详细的转载事宜请参考:《科学空间FAQ》
如果您还有什么疑惑或建议,欢迎在下方评论区继续讨论。
如果您觉得本文还不错,欢迎分享/打赏本文。打赏并非要从中获得收益,而是希望知道科学空间获得了多少读者的真心关注。当然,如果你无视它,也不会影响你的阅读。再次表示欢迎和感谢!
如果您需要引用本文,请参考:
苏剑林. (Aug. 22, 2016). 《【中文分词系列】 4. 基于双向LSTM的seq2seq字标注 》[Blog post]. Retrieved from https://kexue.fm/archives/3924
@online{kexuefm-3924,
title={【中文分词系列】 4. 基于双向LSTM的seq2seq字标注},
author={苏剑林},
year={2016},
month={Aug},
url={\url{https://kexue.fm/archives/3924}},
}
February 10th, 2017
你好,博主,这里请教你一个问题:在网上查看资料,dnn用于序列标注的方法有1)lstm(blstm);2)BiLSTM CRF;3)Seq2seq(翻译模型)等等。想问下你这里介绍的方法是lstm还是seq2seq?这两种方法的差别在哪里?
还有一个问题,seq2seq方法需要对输入长度进行规整,固定长度么?在encode过程中,序列长度需要保持不变么?
在请教下,这里用到转移概率和维特比的目的是什么?转移概率是上下文信息,但是你的lstm已经用过了上下文以及转移信息,这两者有什么区别?
1、你这三个分类有点奇怪。首先我没有用到crf,但我用到了bilstm,另外seq2seq本身也用到了lstm,我这个是一个序列标注,形式上算是seq2seq,但跟翻译、对话系统中的seq2seq又有所不同。
2、viterbi加转移概率主要是为了排除绝对不合理的情形,比如,如果不用viterbi,直接采用每个的最大概率标签,则可能得到bbbbbb这样的标注结果,但是按照我们的规定,b后面不能接b,而viterbi规划可以排除这样的不合理情形
我看下来之后也有这个疑问。可能@弓军金同学没说清楚。
(1)seq2seq模型在lstm做encode得到固定长度文本表示后继续用lstm做decode生成一个新的序列。
(2)现在这块很多所谓的bi-lstm CRF做序列标注都是在bi lstm之后使用viterbe译码考虑整个句子的情况。
感觉你博客里描述的跟(2)更相近一些,所以我会觉得你这个是bilstm+crf,而不是翻译模型的那种seq2seq。
的确跟(2)接近一些,但是CRF不是这样的。请参考http://kexue.fm/archives/4695/
我只用到了逐标签softmax,没有用到CRF
February 28th, 2017
为什么用你的代码跑完准确率只在32%左右啊?分词的结果更是很烂,比如"结婚的和尚未结婚的",分完之后变成了['结', '婚', '的和', '尚未结', '婚', '的']
完全没改动吗?不至于呀,我上面的结果,尤其是"结婚的和尚未结婚的",都是实验结果的。
至于准确率只有30%多,那是正确的,因为x标签没有算进去。
分词是直接调用cut_word('结婚的和尚未结婚的')?如果没错的话,能麻烦您再仔细看下你的代码吗?谢谢
cut_word(u'结婚的和尚未结婚的')试试看
PS:为什么不是麻烦您再仔细看下你的代码呢?你是怀疑我上面那些例子都是伪造的?
恩恩,谢谢,我再仔细瞅瞅!
前来考古,我得到的结果和苏神一样,可能需要你再仔细看看,哈哈!
我用cut_word(u'结婚的和未结婚的')出现错误
February 28th, 2017
博主,您好。请问,在Embedding层中既然设置了mask_zero,为什么后面还需要训练的分类数是5呢?标签也为您代码中添加的x做了标记?
因为在训练的时候,你还是得给填充部分一个标签呀。我好像测试过,如果用4个标签,填充部分用s标签,最后的输出结果会偏向s。
非常感谢热心博主的回复。
我是这个意思,mask_zero=true,应该是对后面的填充部分不做计算吧?这样的话,是不是也不会把填充部分的数据传递到最后呢?所以在计算损失值的时候,应该与您代码中的标记x没有关系了吧?刚接触这个不久,不是很懂,谢谢博主的回复。
另外请问,这里不用设置LSTM自循环的层数吗?
具体我没有看keras的源代码,不知道mask情况下它的loss是怎么算的。我理解你的意思,但是我感觉这个x标签还是起到了一定的作用,至少,算准确率的时候,好像把它算进去了。
好的,谢谢您的解答。
March 7th, 2017
博主,我想问几个问题
1.lstm,blstm对序列长度有要求吗,比如200字符长度效果最佳?
2.keras 后端tensorflow时,分布式多台机器(cpu)同时训练是可行的吗,我看很多都只写了支持多GPU,然后博主有关注过分布式多机训练吗,有推荐的文档或者demo吗,我折腾一个星期了还没整好。。
March 23rd, 2017
你好,我在跑程序的时候,在56行的时候提示list和map不能相加,你是用什么版本的python
python2.7,你将map(xxx)改为list(map(xxx))就行了
April 10th, 2017
TimeDistributed这个是什么层,作用是什么,刚开始接触深度,在keras上也没看到介绍
请问这个是啥?
http://keras-cn.readthedocs.io/en/latest/layers/wrapper/
April 11th, 2017
有没有4tags的代码?可以看一下吗
本文就是4tags的...
题主,你的数据集是人工标注还是写程序标注的?
文章已经说了,在数据方面,我用了Bakeoff 2005的语料中微软亚洲研究院(Microsoft Research)提供的部分,应该是它们人工标注的。
您的“生成适合模型输入的格式”from keras.utils import np_utils
d['x'] = d['data'].apply(lambda x: np.array(list(chars[x])+[0]*(maxlen-len(x))))
d['y'] = d['label'].apply(lambda x: np.array(map(lambda y:np_utils.to_categorical(y,5), tag[x].reshape((-1,1)))+[np.array([[0,0,0,0,1]])]*(maxlen-len(x))))
这个是什么原理啊,有点看不懂
不懂就逐句运行,每运行一句,查看一次运行结果。
May 1st, 2017
大神有空能写个实体识别的系列吗,期待啊
May 3rd, 2017
大神,我看了好久,或许我应该?把代码读懂了...我有一个疑问(首先我要有个预设,我是个小白哈),就是d['y'] 的生成那部分,我一句句输出看结果,发现,它的每一条记录都是三层列表嵌套,然后输入到模型中就是[[[[0.0, 1.0, 0.0, 0.0, 0.0]], [[0.0, 0.0, 0.0,...]大概是这样的,为什么要有这么多嵌套,或者说是一定要是这样的格式吗,因为你用了map以及apply可能有这样的输出,那如果用了别的函数产生[[[1,0,0,1,0],[1,0,0,0,0],...],[[1,0,0,1,0],[1,0,0,0,0],...]...]这样的格式可以吗?当然,我会自己试试可行不可行,不过很好奇你在处理label的输入时,是怎么考虑这个输入格式的,谢谢大神
这种格式叫做one hot,也就是说,是一个三维矩阵,形状为[样本数,每个样本的字数,标签数],假如当前字的标签是s,那么我们希望模型最后给出当前字s的概率是1,其他是0(最理想的情况下),因此,对应的概率分布为[1,0,0,0,0]这样。也可以自己通过其他方式来输出这种格式。
咦 我刚刚回复了,但是没看到回到哪里去了....我再写一遍好了
好激动 谢谢大神的恢复
还有一个问题:就是viterbi在这里的函数感觉是遍历了所有序列,选取概率最大的序列(嗯,这个方法真的好好,刚开始我也以为只要选取每种最大的概率就好了,这样就会出现博主在评论里所说的那种可能有SSS之类的情况),但是我觉得这里viterbi函数并不是HMM求解viterbi算法?我在网上看了viterbi算法,感觉他们介绍的是,在外部状态已知,求解内在状态。而本文中的函数,好像就是枚举所有分词情况,求最大概率。我也只是感觉,小白一只哈,谢谢大神!!
这里是考虑条件概率p(标签|字),而HMM是p(字|标签),所以才有所谓的“外部状态已知,求解内在状态”。但你将它用一个网络图表示出来,变成一个求最大路径的问题,那两者都是等效的。
换句话说,考虑p(标签|字)时,同一个字的各个概率之和为1,而HMM考虑p(字|标签),同一个字的各个概率之和不唯一。但是,如果你仅仅它们当成图上的节点的权重,无视它的概率意义(就没有归不归一化的问题了),那么都是一样的。
嗯 懂你的意思啦~~
July 7th, 2017
你好,我把模型训练了一遍,可是不知道模型保存到哪里了,另外就是,我下一次该怎么调用啊
运行完本文的脚本,模型并没有保存,要保存模型,需要用model.save_weights函数。
在看本文之前,请详细把http://keras.io或keras-cn.readthedocs.io/en/latest/看几遍(注意,是详细不是浏览,是几遍不是一遍,是看了之后再看本文,不是看完本文再看它们)