29 Jun

文本情感分类（三）：分词 OR 不分词

By 苏剑林 | 2016-06-29 | 533953位读者 |

去年泰迪杯竞赛过后，笔者写了一篇简要介绍深度学习在情感分析中的应用的博文《文本情感分类（二）：深度学习模型》。虽然文章很粗糙，但还是得到了不少读者的反响，让我颇为意外。然而，那篇文章中在实现上有些不清楚的地方，这是因为：1、在那篇文章以后，keras已经做了比较大的改动，原来的代码不通用了；2、里边的代码可能经过我随手改动过，所以发出来的时候不是最适当的版本。因此，在近一年之后，我再重拾这个话题，并且完成一些之前没有完成的测试。

为什么要用深度学习模型？除了它更高精度等原因之外，还有一个重要原因，那就是它是目前唯一的能够实现“端到端”的模型。所谓“端到端”，就是能够直接将原始数据和标签输入，然后让模型自己完成一切过程——包括特征的提取、模型的学习。而回顾我们做中文情感分类的过程，一般都是“分词——词向量——句向量(LSTM)——分类”这么几个步骤。虽然很多时候这种模型已经达到了state of art的效果，但是有些疑问还是需要进一步测试解决的。对于中文来说，字才是最低粒度的文字单位，因此从“端到端”的角度来看，应该将直接将句子以字的方式进行输入，而不是先将句子分好词。那到底有没有分词的必要性呢？本文测试比较了字one hot、字向量、词向量三者之间的效果。

模型测试 #

本文测试了三个模型，或者说，是三套框架，具体代码在文末给出。这三套框架分别是：

1、one hot：以字为单位，不分词，将每个句子截断为200字（不够则补空字符串），然后将句子以“字-one hot”的矩阵形式输入到LSTM模型中进行学习分类；
2、one embedding：以字为单位，不分词，，将每个句子截断为200字（不够则补空字符串），然后将句子以“字-字向量(embedding)“的矩阵形式输入到LSTM模型中进行学习分类；
3、word embedding：以词为单位，分词，，将每个句子截断为100词（不够则补空字符串），然后将句子以“词-词向量(embedding)”的矩阵形式输入到LSTM模型中进行学习分类。

其中所用的LSTM模型结构是类似的。所用的语料还是《文本情感分类（二）：深度学习模型》中的语料，以15000条进行训练，剩下的6000条左右做测试。意外的是，三个模型都取得了相近的结果。

$$\begin{array}{c|ccc}
\hline
&\text{one hot} & \text{one embedding} & \text{word embedding}\\
\hline
\text{迭代次数} & 90 & 30 & 30\\
\text{每轮用时} & 100s & 36s & 18s\\
\text{训练准确率} & 96.60\% & 95.95\% & 98.41\% \\
\text{测试准确率} & 89.21\% & 89.55\% & 89.03\% \\
\hline
\end{array}$$

可见，在准确率方面，三者是类似的，区分度不大。不管是用one hot、字向量还是词向量，结果都差不多。也许用《文本情感分类（二）：深度学习模型》的方法来为每个模型选取适当的阈值，会使得测试准确率更高一些，但模型之间的相对准确率应该不会变化很大。

当然，测试本身可能存在一些不公平的情况，也许会导致测试结果不公平，而我也没有反复去测试。比如one hot的模型迭代了90次，其它两个模型是30次，因为one hot模型所构造的样本维度太大，需要经过更长时间才出现收敛现象，而且训练过程中，准确率是波动上升的，并非像其它两个模型那样稳定上升。事实上这是所有one hot模型的共同特点。

多扯一点 #

看上去，one hot模型的确存在维度灾难的问题，而且训练时间又长，效果又没有明显提升，那是否就说明没有研究one hot表示的必要了呢？

我觉得不是这样的。当初大家诟病one hot模型的原因，除了维度灾难之外，还有一个就是“语义鸿沟”，也就说任意两个词之间没有任何相关性（不管用欧式距离还是余弦相似度，任意两个词的计算结果是一样的）。可是，这一点假设用在词语中不成立，可是用在中文的“字”上面，不是很合理吗？汉字单独成词的例子不多，大多数是二字词，也就是说，任意两个字之间没有任何相关性，这个假设在汉字的“字”的层面上，是近似成立的！而后面我们用了LSTM，LSTM本身具有整合邻近数据的功能，因此，它暗含了将字整合为词的过程。

此外，one hot模型还有一个非常重要的特点——它没有任何信息损失——从one hot的编码结果中，我们反过来解码出原来那句话是哪些字词组成的，然而，我无法从一个词向量中确定原来的词是什么。这些观点都表明，在很多情况下，one hot模型都是很有价值的。

而我们为什么用词向量呢？词向量相当于做了一个假设：每个词具有比较确定的意思。这个假设在词语层面也是近似成立的，毕竟一词多义的词语相对来说也不多。正因为如此，我们才可以将词放到一个较低维度的实数空间里，用一个实数向量来表示一个词语，并且用它们之间的距离或者余弦相似度来表示词语之间的相似度。这也是词向量能够解决“一义多词”而没法解决“一词多义”的原因。

从这样看来，上面三个模型中，只有one hot和word embedding才是理论上说得过去的，而one embedding则看上去变得不伦不类了，因为字似乎不能说具有比较确定的意思。但为什么one embedding效果也还不错？我估计，这可能是因为二元分类问题本身是一个很粗糙的分类（0或1），如果更多元的分类，可能one embedding的方式效果就降下来了。不过，我也没有进行更多的测试了，因为太耗时间了。

当然，这只能算是我的主观臆测，还望大家指正。尤其是one embedding部分的评价，是值得商榷的。

代码来了 #

可能大家并不想看我胡扯一通，是直接来看代码的，现奉上三个模型的代码。最好有GPU加速，尤其是试验one hot模型，不然慢到哭了。

模型1：one hot

# -*- coding:utf-8 -*-

'''
one hot测试
在GTX960上，约100s一轮
经过90轮迭代，训练集准确率为96.60%，测试集准确率为89.21%
Dropout不能用太多，否则信息损失太严重
'''

import numpy as np
import pandas as pd

pos = pd.read_excel('pos.xls', header=None)
pos['label'] = 1
neg = pd.read_excel('neg.xls', header=None)
neg['label'] = 0
all_ = pos.append(neg, ignore_index=True)

maxlen = 200 #截断字数
min_count = 20 #出现次数少于该值的字扔掉。这是最简单的降维方法

content = ''.join(all_[0])
abc = pd.Series(list(content)).value_counts()
abc = abc[abc >= min_count]
abc[:] = list(range(len(abc)))
word_set = set(abc.index)

def doc2num(s, maxlen): 
    s = [i for i in s if i in word_set]
    s = s[:maxlen]
    return list(abc[s])

all_['doc2num'] = all_[0].apply(lambda s: doc2num(s, maxlen))

#手动打乱数据
#当然也可以把这部分加入到生成器中
idx = list(range(len(all_)))
np.random.shuffle(idx)
all_ = all_.loc[idx]

#按keras的输入要求来生成数据
x = np.array(list(all_['doc2num']))
y = np.array(list(all_['label']))
y = y.reshape((-1,1)) #调整标签形状

from keras.utils import np_utils
from keras.models import Sequential
from keras.layers import Dense, Activation, Dropout
from keras.layers import LSTM
import sys
sys.setrecursionlimit(10000) #增大堆栈最大深度(递归深度)，据说默认为1000，报错

#建立模型
model = Sequential()
model.add(LSTM(128, input_shape=(maxlen,len(abc)))) 
model.add(Dropout(0.5))
model.add(Dense(1))
model.add(Activation('sigmoid'))
model.compile(loss='binary_crossentropy',
              optimizer='rmsprop',
              metrics=['accuracy'])

#单个one hot矩阵的大小是maxlen*len(abc)的，非常消耗内存
#为了方便低内存的PC进行测试，这里使用了生成器的方式来生成one hot矩阵
#仅在调用时才生成one hot矩阵
#可以通过减少batch_size来降低内存使用，但会相应地增加一定的训练时间
batch_size = 128
train_num = 15000

#不足则补全0行
gen_matrix = lambda z: np.vstack((np_utils.to_categorical(z, len(abc)), np.zeros((maxlen-len(z), len(abc)))))

def data_generator(data, labels, batch_size): 
    batches = [list(range(batch_size*i, min(len(data), batch_size*(i+1)))) for i in range(len(data)/batch_size+1)]
    while True:
        for i in batches:
            xx = np.zeros((maxlen, len(abc)))
            xx, yy = np.array(map(gen_matrix, data[i])), labels[i]
            yield (xx, yy)

model.fit_generator(data_generator(x[:train_num], y[:train_num], batch_size), samples_per_epoch=train_num, nb_epoch=30)

model.evaluate_generator(data_generator(x[train_num:], y[train_num:], batch_size), val_samples=len(x[train_num:]))

def predict_one(s): #单个句子的预测函数
    s = gen_matrix(doc2num(s, maxlen))
    s = s.reshape((1, s.shape[0], s.shape[1]))
    return model.predict_classes(s, verbose=0)[0][0]

模型2：one embedding

# -*- coding:utf-8 -*-

'''
one embedding测试
在GTX960上，36s一轮
经过30轮迭代，训练集准确率为95.95%，测试集准确率为89.55%
Dropout不能用太多，否则信息损失太严重
'''

import numpy as np
import pandas as pd

pos = pd.read_excel('pos.xls', header=None)
pos['label'] = 1
neg = pd.read_excel('neg.xls', header=None)
neg['label'] = 0
all_ = pos.append(neg, ignore_index=True)

maxlen = 200 #截断字数
min_count = 20 #出现次数少于该值的字扔掉。这是最简单的降维方法

content = ''.join(all_[0])
abc = pd.Series(list(content)).value_counts()
abc = abc[abc >= min_count]
abc[:] = list(range(1, len(abc)+1))
abc[''] = 0 #添加空字符串用来补全
word_set = set(abc.index)

def doc2num(s, maxlen): 
    s = [i for i in s if i in word_set]
    s = s[:maxlen] + ['']*max(0, maxlen-len(s))
    return list(abc[s])

all_['doc2num'] = all_[0].apply(lambda s: doc2num(s, maxlen))

#手动打乱数据
idx = list(range(len(all_)))
np.random.shuffle(idx)
all_ = all_.loc[idx]

#按keras的输入要求来生成数据
x = np.array(list(all_['doc2num']))
y = np.array(list(all_['label']))
y = y.reshape((-1,1)) #调整标签形状

from keras.models import Sequential
from keras.layers import Dense, Activation, Dropout, Embedding
from keras.layers import LSTM

#建立模型
model = Sequential()
model.add(Embedding(len(abc), 256, input_length=maxlen))
model.add(LSTM(128)) 
model.add(Dropout(0.5))
model.add(Dense(1))
model.add(Activation('sigmoid'))
model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

batch_size = 128
train_num = 15000

model.fit(x[:train_num], y[:train_num], batch_size = batch_size, nb_epoch=30)

model.evaluate(x[train_num:], y[train_num:], batch_size = batch_size)

def predict_one(s): #单个句子的预测函数
    s = np.array(doc2num(s, maxlen))
    s = s.reshape((1, s.shape[0]))
    return model.predict_classes(s, verbose=0)[0][0]

模型3：word embedding

# -*- coding:utf-8 -*-

'''
word embedding测试
在GTX960上，18s一轮
经过30轮迭代，训练集准确率为98.41%，测试集准确率为89.03%
Dropout不能用太多，否则信息损失太严重
'''

import numpy as np
import pandas as pd
import jieba

pos = pd.read_excel('pos.xls', header=None)
pos['label'] = 1
neg = pd.read_excel('neg.xls', header=None)
neg['label'] = 0
all_ = pos.append(neg, ignore_index=True)
all_['words'] = all_[0].apply(lambda s: list(jieba.cut(s))) #调用结巴分词

maxlen = 100 #截断词数
min_count = 5 #出现次数少于该值的词扔掉。这是最简单的降维方法

content = []
for i in all_['words']:
	content.extend(i)

abc = pd.Series(content).value_counts()
abc = abc[abc >= min_count]
abc[:] = list(range(1, len(abc)+1))
abc[''] = 0 #添加空字符串用来补全
word_set = set(abc.index)

def doc2num(s, maxlen): 
    s = [i for i in s if i in word_set]
    s = s[:maxlen] + ['']*max(0, maxlen-len(s))
    return list(abc[s])

all_['doc2num'] = all_['words'].apply(lambda s: doc2num(s, maxlen))

#手动打乱数据
idx = list(range(len(all_)))
np.random.shuffle(idx)
all_ = all_.loc[idx]

#按keras的输入要求来生成数据
x = np.array(list(all_['doc2num']))
y = np.array(list(all_['label']))
y = y.reshape((-1,1)) #调整标签形状

from keras.models import Sequential
from keras.layers import Dense, Activation, Dropout, Embedding
from keras.layers import LSTM

#建立模型
model = Sequential()
model.add(Embedding(len(abc), 256, input_length=maxlen))
model.add(LSTM(128)) 
model.add(Dropout(0.5))
model.add(Dense(1))
model.add(Activation('sigmoid'))
model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

batch_size = 128
train_num = 15000

model.fit(x[:train_num], y[:train_num], batch_size = batch_size, nb_epoch=30)

model.evaluate(x[train_num:], y[train_num:], batch_size = batch_size)

def predict_one(s): #单个句子的预测函数
    s = np.array(doc2num(list(jieba.cut(s)), maxlen))
    s = s.reshape((1, s.shape[0]))
    return model.predict_classes(s, verbose=0)[0][0]

转载到请包括本文地址：https://kexue.fm/archives/3863

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Jun. 29, 2016). 《文本情感分类（三）：分词 OR 不分词》[Blog post]. Retrieved from https://kexue.fm/archives/3863

@online{kexuefm-3863,
        title={文本情感分类（三）：分词 OR 不分词},
        author={苏剑林},
        year={2016},
        month={Jun},
        url={\url{https://kexue.fm/archives/3863}},
}

分类：信息时代标签：python, 深度学习, 文本挖掘 140 评论

< OCR技术浅探：9. 代码共享(完) | 从Boosting学习到神经网络：看山是山？ >

你也许还对下面的内容感兴趣

发表你的看法

cige

December 13th, 2017

您好，在最后的预测单个句子的时候，predict_one()能否可以输出句子的情感浓度，比如0.4，0.7这样的，而不是0，1的具体情感

回复评论

江阿生发表于 April 3rd, 2018

大神您好！看完你的这几篇收获很多，万分感谢您的贡献！
我有一个疑问想请教您。我想在文本预处理那块　是否需要删除停用词　像标点符号、数字和字母等清洗掉　您觉得去除停用词是否会改善性能　　

回复评论

苏剑林发表于 April 3rd, 2018

在深度学习中一般不需要删除停用词。当然理论上删除会有轻微提升，但不会很高～

回复评论

苏剑林发表于 April 3rd, 2018

@cige|comment-8463

那就将predict_classes改为predict

回复评论

庞先生

January 22nd, 2018

您好，我用了你的第三段代码word embedding，最后得出来的15000个训练集准确率是99.5%左右，测试集的准确率只要11%，请问是怎么回事呢

回复评论

苏剑林发表于 January 23rd, 2018

单凭你这句话，我无法猜测出原因～

回复评论

庞先生发表于 January 23rd, 2018

我在你之前的代码model.evaluate中加入了acc=，然后把它打印出来，得到两个数，第一个可能就是你在其他人评论里说过的score，第二个是测试集的准确率。这个应该没错吧？但是第二数也就是准确率的值是0.11左右，也就是只要11%的测试集准确度。其他代码我都没改过，大神有没有思路感觉到哪里可能除了问题呢？
acc=model.evaluate(x[train_num:], y[train_num:], batch_size = batch_size)
print('Test accuracy:', acc)

PS：感谢你的回复，昨天提问的今天早上就看到了，十分感谢！！！

回复评论

苏剑林发表于 January 24th, 2018

我把上述代码重新跑了一次，发现并没有问题，最后输出是[0.5547817666544278, 0.9043407039794641]，即准确率90%+，我的环境是Python 2.7，Keras 2.1.0 + tensorflow 1.2

回复评论

庞先生发表于 January 25th, 2018

我今天也又跑了一遍，最后的输出是[10.438644787993811,0.13677313675605107],很奇怪。我的环境是python 3.6.3, keras 2.1.3 fensorflow 1.4.0 。我就是复制的上面第三段代码，然后数据集是你的《文本情感分类（二）：深度学习模型》中的数据集，代码复制过来直接就能跑，怎么会有这么大的差别呢，难道是和版本有关系吗？我昨天看到一个不同keras版本有的函数代码不一样，不知道和这个有没有关系，大神方便留个邮箱吗？

回复评论

苏剑林发表于 January 25th, 2018

将range有关的语句都加list试试，比如abc[:] = range(1, len(abc)+1)改为abc[:] = list(range(1, len(abc)+1))

回复评论

庞先生发表于 January 25th, 2018

这样试过了，也还是不行。我突然想起来，我在你的源码上改了一个地方，在手动打乱数据那里，这一行我在idx前加了list，就是这个np.random.shuffle(list(idx))，因为如果不加这个会报错，程序没法运行。有没有可能是这个的问题呢，还有就是我把训练集数据改成20000，最后测试集的准确率变为了73%左右。

苏剑林发表于 January 25th, 2018

我说了，只修改range有关的语句，都加上list。
np.random.shuffle(idx)这一句不要修改。

实在不行，请用Python2。事实上我只提供参考代码，不负责Python指导。

回复评论

红叶随风

January 24th, 2018

您好，请问能提供下数据进行实验吗？直接看代码，有些输入输出关系，有点搞不清楚

回复评论

苏剑林发表于 January 24th, 2018

第二篇《文本情感分类（二）：深度学习模型》中有数据链接

回复评论

中文分词系列之基于 AC 自动机的快速分词 | Nokia 108

February 19th, 2018

[...]关于中文分词的介绍和重要性，我就不多说了，matrix67 这里有一篇关于分词和分词算法很清晰的介绍，值得一读。在文本挖掘中，虽然已经有不少文章探索了不分词的处理方法，如本博客的《文本情感分类（三）：分词 OR 不分词》，但在一般场合都会将分词作为文本挖掘的第一步，因此，一个有效的分词算法是很重要的。当然，中文分词作为第一步，已经被探索很久了，目前做的很多工作，都是总结性质的，最多是微弱的改进，并[...]

回复评论

中文分词系列之基于 AC 自动机的快速分词-时讯快报

February 20th, 2018

回复评论

YiKi

March 28th, 2018

你好博主，感谢你的文章!另外我现在还没有ubuntu平台，是在windows10系统上运行的，win平台只有python35以上才有tensorflow，所以我在运行的时候出现了不少问题，其中有一个无法解决，运行到model.fit_generator(data_generator(x[:train_num], y[:train_num], batch_size), samples_per_epoch=train_num, nb_epoch=30)

的时候出现了IndexError: tuple index out of range错误，这个该怎么解决呢？
非常想要得到您的解答，感谢!

回复评论

苏剑林发表于 March 28th, 2018

我已经修改了一下，你再试试吧～

建议用python3.x的朋友，应该都去了解一下python2.x跟python3.x的语法差别，学会如何将python2的代码改为python3～

回复评论

肖腊吉

March 30th, 2018

comment = pd.read_excel(r'C:\Users\Administrator\AppData\Local\Programs\Python\Python36\untitled1\sum.xlsx')
comment = comment[comment['rateContent'].notnull()]
comment['text'] = comment['rateContent']

#取一百篇用模型预测
aaaa = pd.DataFrame(comment['text'][500:600])
aaaa['result']=aaaa.text.apply(lambda s: predict_one(s))
就这最后预测句子情感的时候，comment = comment[comment['rateContent'].notnull()]这里报错KeyError: 'rateContent'
请问是为什么，我之前只要遇到rateContent都不行

回复评论

空心

April 25th, 2018

请问，您这个如果用tensorflow实现的话，参数设置方面可以给说一下吗？

回复评论

苏剑林发表于 April 25th, 2018

什么参数？Keras源码都给出来了，所有参数都在里边。

回复评论

Keras實現的文字情感分類例子 - 程序員的後花園

May 10th, 2018

[...]最近在網上看到一篇很不錯的文字情感分類的教程，內容詳細，而且有可執行的程式碼和資料，非常適合學習。教程傳送門：http://kexue.fm/archives/3863/[...]

回复评论

ivy

June 13th, 2018

您好，我是个初学者，请问训练好模型后，如何对一个新的数据集进行分类，并显示分类结果

回复评论

苏剑林发表于 June 13th, 2018

初学者没有特权。请逐步从基础学起，花上几个月时间就行了。

回复评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

文本情感分类（三）：分词 OR 不分词

模型测试 #

多扯一点 #

代码来了 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接