【语料】2500万中文三元组!
By 苏剑林 | 2017-04-24 | 87764位读者 |闲聊 #
这两年,知识图谱、问答系统、聊天机器人等领域是越来越火了。知识图谱是一个很泛化的概念,在我看来,涉及到知识库的构建、检索、利用等机器学习相关的内容,都算知识图谱。当然,这也不是个什么定义,只是个人的直观感觉。
做知识图谱的读者都知道,三元组是结构化知识的一种方法,是做知识型问答系统的重要组成部分。对于英文领域,已经有一些较大的开源的三元组语料库,而很显然,中文目前还没有这样的语料库共享(哪怕有人爬取到了,也珍藏起来了)。笔者前段时间写了个百度百科的爬虫,爬了一段时间,抓了几百万个百度百科的词条。其中不少词条含有一些结构化的信息,直接抽取出来,就是有效的“三元组”了,可以用来做知识图谱。本文分享的三元组语料正是由此而来,共有2500万个三元组。
预览 #
三元组的结构为(实体, 属性, 值),部分预览如下:
科学, 包涵, 自然、社会、思维等领域
科学, 外文名, science
科学, 拼音, kē xué
科学, 中文名, 科学
科学, 解释, 发现、积累的真理的运用与实践
语法学, 外文名, syntactics
语法学, 中文名, 语法学
物理宇宙学, 对象, 大尺度结构和宇宙形成
物理宇宙学, 时间, 二十世纪
物理宇宙学, 所属, 天体物理学
物理宇宙学, 中文名, 物理宇宙学
曹禺, 出生地, 天津
曹禺, 毕业院校, 清华大学
曹禺, 逝世日期, 1996年(丙子年)12月13日
曹禺, 中文名, 万家宝
文件为UTF-8编码的csv格式,三元组总数为25454710,实体总数为4695579。
由于是直接抽取而来,而这些数据是人工编辑得到,因此偏向于自然语言描述。这导致了部分描述上的不一致:同一含义的属性,可能有多种不同的描述,比如“出生地”、“出生于”都代表着出生地点,“外文名”、“英文名”都代表着英文名字,等等。
下载 #
本着开源精神,资源免费共享,但考虑爬取的艰辛,转载或引用时请注明本文网址:http://kexue.fm/archives/4359/,谢谢。
下载地址:
链接: https://pan.baidu.com/s/1mkcKP2C 密码: uajy
转载到请包括本文地址:https://kexue.fm/archives/4359
更详细的转载事宜请参考:《科学空间FAQ》
如果您还有什么疑惑或建议,欢迎在下方评论区继续讨论。
如果您觉得本文还不错,欢迎分享/打赏本文。打赏并非要从中获得收益,而是希望知道科学空间获得了多少读者的真心关注。当然,如果你无视它,也不会影响你的阅读。再次表示欢迎和感谢!
如果您需要引用本文,请参考:
苏剑林. (Apr. 24, 2017). 《【语料】2500万中文三元组! 》[Blog post]. Retrieved from https://kexue.fm/archives/4359
@online{kexuefm-4359,
title={【语料】2500万中文三元组!},
author={苏剑林},
year={2017},
month={Apr},
url={\url{https://kexue.fm/archives/4359}},
}
June 7th, 2017
谢谢分享!
December 15th, 2017
感谢分享,手动点赞~
January 16th, 2018
连接失效了,能发一下吗,谢谢了
已经更新地址。
April 11th, 2018
大牛,我想了解一下如何获取这些数据,可否分享一下您爬取这些数据的代码,以后爬到更多数据也可以分享给大家
https://kexue.fm/archives/4385
已读,非常感谢。我也在做自然语言处理的工作,读你的博客很有启发。
February 14th, 2019
大佬,关于爬取的数据,您是如何处理成三元组的形式的呢,代码可不可以借鉴一下?谢谢您
就是百度百科现成的三元组。
好的 谢谢楼主
June 2nd, 2020
大佬~请问和这个三元组对齐的原始文本可以提供吗?
不可以
October 10th, 2020
请问数据集中的三元组有可能会重复吗?一般情况下,是否允许有大量的重复呢?
我忘记这个数据集有没有去重了,使用前应该是要去重的,三个元素都重合的就没有意义了。
March 23rd, 2021
感谢!辛苦了!
November 27th, 2023
你好,请问有和地理相关的三元组数据集吗?