标签网站下的文章 - 科学空间|Scientific Spaces

1 Jan

新年快乐！记录一下 Cool Papers 的开发体验

By 苏剑林 | 2024-01-01 | 101331位读者 | 引用

上周在《写了个刷论文的辅助网站：Cool Papers》中，笔者分享了一个自己开发的刷论文网站Cool Papers，并得到了一些用户的认可。然而，“使用的人越多，暴露的问题就越多”，当用户量上来后，才感觉到之前写的代码是多么不严谨，于是过去一整周都在不停地修Bug之中，直到今天下午还发现了一个Bug在修。这篇文章简单总结一下笔者在开发和修Bug过程中的感想。

Cool Papers：https://papers.cool

技术

事实上，“papers.cool”这个域名已经注册了四年多，从这可以看出笔者其实很早以前就计划着做类似Cool Papers的网站，也做过一些雏形，但之所以这个网站在四年后才正式诞生，根本原因就只有一个：技术不行。

点击阅读全文...

分类：信息时代标签：网站, 论文, 酷论文阅读全文 30 评论

25 Dec

写了个刷论文的辅助网站：Cool Papers

By 苏剑林 | 2023-12-25 | 204593位读者 | 引用

写在开头

一直以来，笔者都有日刷Arxiv的习惯，以求尽可能跟上领域内最新成果，并告诫自己“不进则退”。之前也有不少读者问我是怎么刷Arxiv的、有什么辅助工具等，但事实上，在很长的时间里，笔者都是直接刷Arxiv官网，并且没有用任何算法过滤，都是自己一篇篇过的。这个过程很枯燥，但并非不能接受，之所以不用算法初筛，主要还是担心算法漏召，毕竟“刷”就是为了追新，一旦算法漏召就“错失先机”了。

自从Kimi Chat发布后，笔者就一直计划着写一个辅助网站结合Kimi来加速刷论文的过程。最近几个星期稍微闲了一点，于是在GPT4、Kimi的帮助下，初步写成了这个网站，并且经过几天的测试和优化后，已经逐步趋于稳定，于是正式邀请读者试用。

Cool Papers：https://papers.cool

点击阅读全文...

分类：信息时代标签：网站, 论文, 酷论文阅读全文 77 评论

26 Mar

科学空间浏览指南（FAQ）

By 苏剑林 | 2019-03-26 | 179045位读者 | 引用

事实上，除了写博客内容，在这几年里，笔者是花了相当一部分时间来做科学空间的“表面功夫”，为此还专门学了一点php、css和js。虽然不敢说精益求精，但总体来说网站的浏览体验应该比前几年要好得多。

考虑到有些读者可能需要的功能，但一时半会未必能留意到，遂来整理一些站内技巧。

文章篇

什么环境阅读文章最佳？

两年前科学空间就已经加入了响应式设计，自动适应不同分辨率的屏幕。因此，不管哪个分辨率的环境应该都能看清文字内容，唯一的问题是，在小屏幕手机下公式可能会显示不全或者错位。为了较好地阅读公式，最好在7寸以上的屏幕上阅读。如果一定要用小屏幕的手机，可以考虑横屏阅读。

点击阅读全文...

分类：问题百科标签：网站, 问题, faq 阅读全文 21 评论

29 Jan

网站更新记录（2018年01月）

By 苏剑林 | 2018-01-29 | 36629位读者 | 引用

也许读者会发现，这几天访问科学空间可能出现不稳定的情况，原因是我这几天都在对网站进行调整。

这次的调整幅度很大，不过从外表上可能很难发现，特此记录留念一下。主要的更新内容包括：

1、主题的优化：本博客用的geekg主题其实比较老了，去年花钱请人对它进行了第一次大升级，加入了响应式设计，这几天主要解决该主题的一些历史遗留问题，包括图片显示、边距、排版等细微调整；
2、内部的优化：大幅度减少了插件的使用，把一些基本的功能（如网站目录、归档页）等都内嵌到主题中，减少了对插件的依赖，也提升了可用性；
3、文章的优化：其实这也是个历史遗留问题，主要是早期写文章的时候比较随意，html代码、公式的LaTeX代码等都不规范，因此早期的文章显示效果可能比较糟糕，于是我就做了一件很疯狂的事情——把800多篇文章都过一遍！经过了两天多的时间，基本上修复了早期文章的大部分问题；
4、域名的优化：网站全面使用https！网站放在阿里云上面，可是阿里云有一套自以为是的监管系统，无故屏蔽我的一些页面。为了应对阿里云的恶意屏蔽，只好转向https，当然，这不会对读者平时访问造成影响，因为跳转https是自动的。目前两个域名spaces.ac.cn和kexue.fm都会自动跳转到https。

分类：生活/情感标签：网站阅读全文 3 评论

9 Jan

增强typecho的搜索功能

By 苏剑林 | 2018-01-09 | 87577位读者 | 引用

科学空间是使用typecho程序搭建的博客，侧边栏提供了搜索功能，然而typecho内置搜索功能仅仅是基于字符串的全匹配查找，因此导致很多合理的查询都没法得到结果，比如“2018天象”、“新词算法”都没法给出结果，原因就是文章中都不包含这些字符串。

于是就萌生了加强搜索功能的想法，之前也有读者建议过这个事情。这两天搜索了一下，本来计划用Python下的Whoosh库来建立一个全文检索引擎，但感觉整合和后期维护的工作量太大，还是放弃了。后来想到在typecho自身的搜索上加强，在公司同事（大佬）的帮助下，完成了这个改进。

由于是直接修改typecho源文件实现的改进，因此如果typecho升级后就可能被覆盖，因此在这里做个备忘。

探索

通过在Github检索我发现，typecho的搜索功能是在var/Widget/Archive.php中实现的，具体代码大概在1185～1192行：

点击阅读全文...

分类：信息时代标签：网站, python 阅读全文 13 评论

7 Jun

通用爬虫探索（三）：效果展示与代码

By 苏剑林 | 2017-06-07 | 70412位读者 | 引用

部分效果

部分网站的爬取效果。其中图1是本博客的爬取效果，表明该方案是适用一般网站的；图2和图3是两个开源的论坛程序搭建起来的论坛的爬取效果，表明对于开源程序能够正常爬取；图4是对著名的天涯论坛的爬取效果，表明哪怕是公司内部开发的论坛，也具有不错的效果。

6-blog

点击阅读全文...

分类：信息时代标签：网站, 爬虫阅读全文 10 评论

6 Jun

通用爬虫探索（二）：落实到论坛爬取上

By 苏剑林 | 2017-06-06 | 29608位读者 | 引用

前述的方案，如果爬取的页面仅仅有单一的有效区域，如博客页、新闻页等，那么基本上来说已经足够了。但是，诸如像论坛这样的具有比较明显的层次划分的网站，我们需要进一步细分。因为经过上述步骤，我们虽然能够把有效文本提取出来，但结果是把所有文本放在一块了。

深度优先

而为了给内容进一步“分块”，我们还需要利用DOM树的位置信息。如上一篇的DOM树图，我们需要给每个节点和叶子都编号，即我们需要一个遍历DOM树的方式。这里我们采用“深度优先”的方案。

深度优先搜索算法（英语：Depth-First-Search，简称DFS）是一种用于遍历或搜索树或图的算法。沿着树的深度遍历树的节点，尽可能深的搜索树的分支。当节点v的所在边都己被探寻过，搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进行到已发现从源节点可达的所有节点为止。如果还存在未被发现的节点，则选择其中一个作为源节点并重复以上过程，整个进程反复进行直到所有节点都被访问为止。

点击阅读全文...

分类：信息时代标签：网站, 爬虫阅读全文抢沙发

6 Jun

通用爬虫探索（一）：适用一般网站的爬虫

By 苏剑林 | 2017-06-06 | 44843位读者 | 引用

这是笔者参加今年的泰迪杯C题的论文简化版。虽然最后只评上了一个安慰奖，但个人感觉里边有些思路对爬虫工作还是有些参加价值的。所以还是放出来供大家参考一下。

简介

一个爬虫可以分为两个步骤：1.把网页下载下来；2.从网页中把所需要的信息抽取出来。这两个步骤都存在相应的技术难点。对于第一个步骤，难度在于如何应对各大网站的反爬虫措施，如访问频率过高则封IP或者给出验证码等，这需要根据不同网站的不同反爬虫措施来设计，理论上不存在通用的可能性。对于第二个步骤，传统的做法是设计对应的正则表达式，随着网站设计上日益多样化，正则表达式的写法也相应变得困难。

显然，想要得到一个通用的爬虫方案，用传统的正则表达式的方案是相当困难的。但如果我们跳出正则表达式的思维局限，从全局的思维来看网站，结合DOM树来解析，那么可以得到一个相当通用的方案。因此，本文的主要内容，是围绕着爬虫的第二个步骤进行展开。本文的工作分为两个部分进行：首先，提出了一个适用于一般网站的信息抽取方案，接着，将这个方案细化，落实到论坛的信息抽取上。

点击阅读全文...

分类：信息时代标签：网站, 爬虫阅读全文 1 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前32岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

新年快乐！记录一下 Cool Papers 的开发体验

技术

写了个刷论文的辅助网站：Cool Papers

写在开头

科学空间浏览指南（FAQ）

文章篇

什么环境阅读文章最佳？

网站更新记录（2018年01月）

增强typecho的搜索功能

探索

通用爬虫探索（三）：效果展示与代码

部分效果

通用爬虫探索（二）：落实到论坛爬取上

深度优先

通用爬虫探索（一）：适用一般网站的爬虫

简介

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接