写了个刷论文的辅助网站:Cool Papers
By 苏剑林 | 2023-12-25 | 99789位读者 |写在开头 #
一直以来,笔者都有日刷Arxiv的习惯,以求尽可能跟上领域内最新成果,并告诫自己“不进则退”。之前也有不少读者问我是怎么刷Arxiv的、有什么辅助工具等,但事实上,在很长的时间里,笔者都是直接刷Arxiv官网,并且没有用任何算法过滤,都是自己一篇篇过的。这个过程很枯燥,但并非不能接受,之所以不用算法初筛,主要还是担心算法漏召,毕竟“刷”就是为了追新,一旦算法漏召就“错失先机”了。
自从Kimi Chat发布后,笔者就一直计划着写一个辅助网站结合Kimi来加速刷论文的过程。最近几个星期稍微闲了一点,于是在GPT4、Kimi的帮助下,初步写成了这个网站,并且经过几天的测试和优化后,已经逐步趋于稳定,于是正式邀请读者试用。
Cool Papers:https://papers.cool
写在中间 #
正如“Cool Papers”这个名字所述,该网站希望让刷论文变成一种非常“酷”的沉浸式体验。当然,目前的实现还是比较简陋,“酷”主要体现在通过Kimi回答了几个论文的FAQ,这可以让我们更加准确、高效地了解论文的主要内容(相比只看标题、摘要),从而判断是否是需要精读的论文。
特别要指出的是:
1、这是一个“刷”论文的网站,不是“读”论文的网站,“刷”的意思是“筛”、“过滤”,“刷”的目的是找出需要精读的论文,而不是代替精读;
2、目前只支持Arxiv作为论文源,同步Arxiv的最新一天的论文列表,所以刷Cool Papers基本上能等价于刷Arxiv,未来可能会接入其他论文源,比如OpenReview,这个看后面的使用情况和反馈再做计划;
3、因为定位为“刷”,所以“贵在坚持,过时不候”,因此目前只支持显示最新一天的论文,暂时不支持历史回溯,当然这个也可以根据读者后面的反馈需求再做改动;
4、FAQ基于Kimi Chat,请大家感恩并珍惜,事实上根据标题和摘要基本上也能筛掉不少论文了,Kimi FAQ的存在是为了对不确定的论文做更精准的判断,所以不要随意点“[Kimi]”;
5、点击“[PDF]”可以预览论文内容(仅限PC浏览器,手机浏览器会触发下载),但这个是依赖于自己的网络去访问Arxiv,所以如果PDF预览迟迟不出来,可能是自身网络问题;
6、点击“[Copy]”会将论文的基本信息(标题、摘要、链接等)复制到剪切板中,可以在其他地方粘贴,从而分享论文;
7、论文列表默认保持Arxiv的发布顺序,如果加上“-sorted-by-stars”,则按照所有用户的点击情况计算的stars进行排序;
8、论文更新:论文的更新是直接同步Arxiv官网的,正常延迟不超过10分钟,Arxiv更新时间一般在工作日早上十点左右(北京时间),但波动可能有几个小时,并且周六日和美国的一些节假日都是不更新的,如果发现网站论文没有更新,可以到Arxiv官方上确认一下更新情况。
关于Kimi FAQ的进一步说明:
1、点击每篇论文对应的“[Kimi]”后,会进入排队;
2、如果排队人数比较多,会显示“Pending:xxx”的结果,“xxx”是排队数,该数字会自动更新;
3、排队完成后会显示“Loading:xxx%”,随后流式输出FAQ内容;
4、排队和生成的过程不需要保持页面打开,即便关闭页面也会在后台保持排队和生成,并且重新打开页面并点击同一“[Kimi]”时会恢复原来的进度;
5、如果你点击“[Kimi]”后发现瞬间就输出完了FAQ内容,那就意味着这篇论文已经被其他读者读过,FAQ被缓存了下来;
6、因为有排队机制,所以随意点“[Kimi]”倒是不会让网站有太大压力,但会让别人的等待时间过长,这是一个不友善的行为。
写在结尾 #
最后,欢迎大家的意见和建议,也欢迎大家继续提需求。很明显,目前的Cool Papers还非常粗糙,远没有想象中那么“酷”,并且用Kimi做FAQ也仅仅是Kimi与论文结合的一个非常基本的方案,Kimi的超长Context应该还有非常大的想象空间。所以非常期待大家发挥想象力,找到Kimi与刷论文的更完美的结合方式。
转载到请包括本文地址:https://kexue.fm/archives/9907
更详细的转载事宜请参考:《科学空间FAQ》
如果您还有什么疑惑或建议,欢迎在下方评论区继续讨论。
如果您觉得本文还不错,欢迎分享/打赏本文。打赏并非要从中获得收益,而是希望知道科学空间获得了多少读者的真心关注。当然,如果你无视它,也不会影响你的阅读。再次表示欢迎和感谢!
如果您需要引用本文,请参考:
苏剑林. (Dec. 25, 2023). 《写了个刷论文的辅助网站:Cool Papers 》[Blog post]. Retrieved from https://kexue.fm/archives/9907
@online{kexuefm-9907,
title={写了个刷论文的辅助网站:Cool Papers},
author={苏剑林},
year={2023},
month={Dec},
url={\url{https://kexue.fm/archives/9907}},
}
December 29th, 2023
使用数日,有个小建议,可否把论文keywords显示出来?现在很多文章标题为搏吸睛都动不动就all you need起手,具体干啥的还得读abstract,刷不快呀
找了一下,arxiv没有提供keywords,所以你的意思是我自己用算法抽取然后列出来?
December 29th, 2023
今天试用了Cool Papers, 第一感觉就是简洁易用。有两个小意见:1.在每个主题页(such as machine learning),能不能根据题目和摘要统计一下当天update的paper中频繁出现的关键词(such as LLM)并在页面开头显示一下(可以根据出现频次进行排序,显示前几个)。2. 论文第一作者的单位能否在作者list下面显示一下(虽然在pdf中可以找到,但能直接看到感觉更方便),以上都是我个人小小的意见,如果苏神觉得有必要也有时间的话,希望可以采纳。
1、统计容易实现,但怎么展示结果还需要考虑一下;
2、Arxiv没有直接提供作者单位信息,要显示的是只能从pdf抽取,但是pdf的格式又不统一,这个似乎比较难办。
感谢苏神回复,希望Cool Papers 越来越Cool.
December 29th, 2023
感谢苏老师,可否加入机器人的专题呢?
目前已经开放所有类目支持,首页可以点击“More”来自定义类目,欢迎测试。
December 29th, 2023
感谢苏老师,我还想请教一下,苏老师是怎么拿到kimi的api呀?用于写网页后端的逻辑
我是员工。
很强,感谢~
December 30th, 2023
感谢苏神,针对kimi方面的生成,感觉可以将回答进行二次处理,按照要点进行缩进。或者在prompt的时候就让其按照一定的格式方便阅读
今天加上了,欢迎测试。
January 1st, 2024
[...]上周在《写了个刷论文的辅助网站:Cool Papers》中,笔者分享了一个自己开发的刷论文网站Cool Papers,并得到了一些用户的认可。然而,“使用的人越多,暴露的问题就越多”,当用户量上来后,才感觉到之前写的代码是多么不严谨,于是过去一整周都在不停地修Bug之中,直到今天下午还发现了一个Bug在修。这篇文章简单总结一下笔者在开发和修Bug过程中的感想。[...]
January 2nd, 2024
苏老师您好,请问CoolPaper只支持当日的arxiv文章吗,有没有机会看到其他日期的内容呢?
暂时不支持,后面累积多了再做计划吧,现在的数据也是一天天累积的。
January 2nd, 2024
要是能把标题翻译一下就好了,毕竟中国人用中文过滤标题更快
可以用Google翻译直接翻译整个页面,特别是Chrome浏览器还会主动询问你是否翻译页面~
February 24th, 2024
可以公开一下使用的prompt吗?最好能在网站上给一个入口查看当前的prompt。
能不能把点击[PDF]的功能从打开内嵌的PDF阅读器换成跳转到PDF地址啊?内嵌的PDF阅读器并不好用而且还有占用滚轮的bug。[COPY]的功能改成复制摘要地址(arxiv.org/abs/....)似乎比复制标题+摘要更合适一点。
1、prompt就是那几个question,一个个问的,不是一次性问;
2、Cool Paper的定位是筛论文,不是读论文,点击[PDF]的目的是快速在当前窗口预览一下论文,进一步判断一下论文内容是否如预期,这比打开一个新窗口方便,如果你需要原始链接,可以点击左上方的数字的链接打开;
3、同上,你需要原始链接,直接点击左上角的数字就好,又或者你不需要摘要内容,Copy之后删除就好(剩下标题 + Cool Papers的链接)
我刚准备写个脚本加一个跳转原始链接的元素,审查元素一看发现左上方的数字就是跳转到abs,这太难发现了,黑色的字竟然是超链接……但还是让AI写了个脚本跳转到pdf链接。
主要是实在没有想到其他更方便的入口了,或者您有什么更好的建议吗
March 1st, 2024
1. 加个搜索功能,可以先上个简单标题搜索,特别是对于那些顶会论文,来回切换不同顶会比较麻烦
2. 搞个tag功能,点击查看tag相关的论文,tag可以用lda+类别等
1、搜索会有的,不过还要再等等,这个开发周期会比较长;
2、这个是个好建议,但就比较依赖于算法了,而且还要实时更新,我尽力。