闲聊 #

这两年,知识图谱、问答系统、聊天机器人等领域是越来越火了。知识图谱是一个很泛化的概念,在我看来,涉及到知识库的构建、检索、利用等机器学习相关的内容,都算知识图谱。当然,这也不是个什么定义,只是个人的直观感觉。

做知识图谱的读者都知道,三元组是结构化知识的一种方法,是做知识型问答系统的重要组成部分。对于英文领域,已经有一些较大的开源的三元组语料库,而很显然,中文目前还没有这样的语料库共享(哪怕有人爬取到了,也珍藏起来了)。笔者前段时间写了个百度百科的爬虫,爬了一段时间,抓了几百万个百度百科的词条。其中不少词条含有一些结构化的信息,直接抽取出来,就是有效的“三元组”了,可以用来做知识图谱。本文分享的三元组语料正是由此而来,共有2500万个三元组。

百度百科的三元组

百度百科的三元组

预览 #

三元组的结构为(实体, 属性, 值),部分预览如下:

科学, 包涵, 自然、社会、思维等领域
科学, 外文名, science
科学, 拼音, kē xué
科学, 中文名, 科学
科学, 解释, 发现、积累的真理的运用与实践
语法学, 外文名, syntactics
语法学, 中文名, 语法学
物理宇宙学, 对象, 大尺度结构和宇宙形成
物理宇宙学, 时间, 二十世纪
物理宇宙学, 所属, 天体物理学
物理宇宙学, 中文名, 物理宇宙学
曹禺, 出生地, 天津
曹禺, 毕业院校, 清华大学
曹禺, 逝世日期, 1996年(丙子年)12月13日
曹禺, 中文名, 万家宝

文件为UTF-8编码的csv格式,三元组总数为25454710,实体总数为4695579。

由于是直接抽取而来,而这些数据是人工编辑得到,因此偏向于自然语言描述。这导致了部分描述上的不一致:同一含义的属性,可能有多种不同的描述,比如“出生地”、“出生于”都代表着出生地点,“外文名”、“英文名”都代表着英文名字,等等。

下载 #

本着开源精神,资源免费共享,但考虑爬取的艰辛,转载或引用时请注明本文网址:http://kexue.fm/archives/4359/,谢谢。

下载地址:

链接: https://pan.baidu.com/s/1mkcKP2C 密码: uajy

转载到请包括本文地址:https://kexue.fm/archives/4359

更详细的转载事宜请参考:《科学空间FAQ》

如果您还有什么疑惑或建议,欢迎在下方评论区继续讨论。

如果您觉得本文还不错,欢迎分享/打赏本文。打赏并非要从中获得收益,而是希望知道科学空间获得了多少读者的真心关注。当然,如果你无视它,也不会影响你的阅读。再次表示欢迎和感谢!

如果您需要引用本文,请参考:

苏剑林. (Apr. 24, 2017). 《【语料】2500万中文三元组! 》[Blog post]. Retrieved from https://kexue.fm/archives/4359

@online{kexuefm-4359,
        title={【语料】2500万中文三元组!},
        author={苏剑林},
        year={2017},
        month={Apr},
        url={\url{https://kexue.fm/archives/4359}},
}