【分享】千万级百度知道语料
By 苏剑林 | 2018-01-30 | 78038位读者 |发布 #
2018年01月30日
数目 #
共1千万条
格式 #
[
{
"url": "http://zhidao.baidu.com/question/565618371557484884.html",
"question": "学文员有哪些专科学校",
"tags": [
"学校",
"专科",
"院校信息"
]
},
{
"url": "http://zhidao.baidu.com/question/2079794100345438428.html",
"question": "网赌和澳门赌有区别吗",
"tags": [
"网络",
"澳门",
"赌博"
]
}
]
用途 #
自己想
来源 #
自行持续多月的监控和爬取
说明 #
本次分享仅供学习研究使用,请勿用于任意商业&非法用途。对违规使用本语料所造成的不良后果,使用者自行负责。
作者 #
苏剑林(http://kexue.fm)
下载 #
链接:https://pan.baidu.com/s/1zzDobW9FY7JXP6c_9QChdg 密码:7shl
压缩后300M+,解压后2G+
转载到请包括本文地址:https://kexue.fm/archives/5067
更详细的转载事宜请参考:《科学空间FAQ》
如果您还有什么疑惑或建议,欢迎在下方评论区继续讨论。
如果您觉得本文还不错,欢迎分享/打赏本文。打赏并非要从中获得收益,而是希望知道科学空间获得了多少读者的真心关注。当然,如果你无视它,也不会影响你的阅读。再次表示欢迎和感谢!
如果您需要引用本文,请参考:
苏剑林. (Jan. 30, 2018). 《【分享】千万级百度知道语料 》[Blog post]. Retrieved from https://kexue.fm/archives/5067
@online{kexuefm-5067,
title={【分享】千万级百度知道语料},
author={苏剑林},
year={2018},
month={Jan},
url={\url{https://kexue.fm/archives/5067}},
}
January 30th, 2018
多谢博主,数据我拿走了。
February 28th, 2018
博主你好,我可以问一下抓取的Tag是怎么获得的吗?因为进入知道的网页没有找到Tag
March 16th, 2018
可以,谢谢了
March 16th, 2018
能说下 数据有什么用处吗
March 20th, 2018
请问论文中怎么引用这个数据集,挂url即可?
直接引用url+署名就好了,参考文章底部的“署名-非商业用途-保持一致”的创作共用协议。
其实我更想知道你用该数据集做了什么有趣的工作,哈哈~
October 7th, 2018
[...]【分享】千万级百度知道语料[...]
February 18th, 2019
您好。有幸拜读您的科学空间网站,在您的网站中我发现您的智能搜索功能,结合了结巴分词和ngrams排序算法,但是我不太了解您是如何将两者结合起来实现整句的智能搜索,不知您是否方便给我讲解一下其中的具体实现步骤?非常感谢!
https://kexue.fm/archives/4797
October 16th, 2022
感谢苏神的分享。想用这个语料做些 EL 和问答相关的个人项目,但文中的百度网盘链接貌似失效了,有时间的话方便更新一版么?
重新分享后依然提示非法,那就没办法了。
了解,谢谢啦~
March 6th, 2023
苏神好,常常逛您的空间浏览您的文章,非常地钦佩您,我想用这个数据集构造句子对来训练通用的语义相似度模型,请问一下可以分享一下这个数据集吗,我的邮箱是862633257@qq.com
我只有百度云这个分享渠道,然而估计被检测到了跟百度相关,自动屏蔽了,所以我也没法分享了。
March 12th, 2023
好好,谢谢