包含关键字中文分词系列的文章 - 科学空间|Scientific Spaces

6 May

记录一次爬取淘宝/天猫评论数据的过程

By 苏剑林 | 2015-05-06 | 177425位读者 | 引用

笔者最近迷上了数据挖掘和机器学习，要做数据分析首先得有数据才行。对于我等平民来说，最廉价的获取数据的方法，应该是用爬虫在网络上爬取数据了。本文记录一下笔者爬取天猫某商品的全过程，淘宝上面的店铺也是类似的做法，不赘述。主要是分析页面以及用Python实现简单方便的抓取。

笔者使用的工具如下

Python 3——极其方便的编程语言。选择3.x的版本是因为3.x对中文处理更加友好。
Pandas——Python的一个附加库，用于数据整理。
IE 11——分析页面请求过程（其他类似的流量监控工具亦可）。
剩下的还有requests,re，这些都是Python自带的库。

实例页面（美的某热水器）：http://detail.tmall.com/item.htm?id=41464129793

点击阅读全文...

分类：信息时代标签：网站, 爬虫阅读全文 45 评论

30 May

【备忘】维基百科与DNSCrypt

By 苏剑林 | 2015-05-30 | 46842位读者 | 引用

中文维基百科的域名zh.wikipedia.org于5月19日被关键字屏蔽和DNS污染，目前从中国已无法访问中文维基百科，中文维基百科的域名也无法解析出正确的IP地址，而英文维基百科目前未受影响，可以正常访问。
来自“月光博客”：http://www.williamlong.info/archives/4240.html
类似的新闻还有：http://www.freebuf.com/news/68011.html

点击阅读全文...

分类：生活/情感标签：网站, 备忘阅读全文 8 评论

21 Oct

把Python脚本放到手机上定时运行

By 苏剑林 | 2015-10-21 | 43754位读者 | 引用

毫无疑问，数据是数据分析的基础，而对于我等平民来说，获取大量数据的方式自然是通过爬虫采集，而对于笔者来说，写爬虫最自然的方式就是用Python写了。短短几行代码，就可以完成一个实用的爬虫，多清爽。（请参考：《记录一次爬取淘宝/天猫评论数据的过程》）

爬虫要住在哪里？

接下来的一个问题是，这个爬虫放到哪里运行？为了爬取每天更新的数据，往往需要每天都要运行一次爬虫，特别地，是在某个点定时运行。这样的话，老挂在自己的电脑运行是不大现实，因为自己的电脑总有关机的时候。也许有读者会想到放在云服务器里边，这是个方法，但是需要额外的成本。受到小虾大神的启发，我开始想把它放到路由器里边运行，某些比较好的路由器是可以外接U盘，且可以刷open-wrt系统的（一个Linux内核的路由器系统，可以像普通Linux那样装Python）。这对我来说是一种很吸引人的做法，但是我对Linux环境下的编译并不熟悉，尤其是路由器环境下的操作；另外路由器配置很低，一般都只是16M闪存、64M内存，如果没有耐心，那么是很难受得了的。

点击阅读全文...

分类：信息时代标签：python, 爬虫阅读全文 2 评论

18 Nov

《量子力学与路径积分》习题解答V0.3

By 苏剑林 | 2015-11-18 | 18988位读者 | 引用

新的《量子力学与路径积分》习题解答又放出来啦。与前两个版本不同的是，前两次更新，每次基本上完成了两章的习题，而这一次，只是增加了第6章的22道习题（第6章共有29道）。原因很多，各种忙就不说啦，主要是第6章开始，各种题目开始复杂起来，计算量也增大，虽然笔者是数学系的，可是还是前进得艰难。还有，第4、5两章加起来也只是25道习题，第6章却有29题，因此，本次更新的工作量，远远大于前两次更新的工作量。

为什么只有22题？当然是没有做完啦。为什么没有做完就更新啦？因为笔者觉得右面的题目，跟第7章的联系更为密切，因此，怕读者等不及，所以剩下的题目，跟第7章一起再发吧。

此外，我是看着中文版来做题的，中文版的翻译质量还不错，但是细微之处却有些不妥当，所以笔者要来回参考中英文版，颇累。读者可以发现，这一版中，“勘误”增加了不少。

点击阅读全文...

分类：物理化学标签：路径积分, 费曼阅读全文抢沙发

24 Dec

修改了一下公式的显示方式（移动端）

By 苏剑林 | 2015-12-24 | 18616位读者 | 引用

移动端

由于Li xiaobo读者再次反映了本站的公式在移动端的支持不佳问题，笔者对网站的公式显示做了一些修改。如果读者是用电脑浏览的话，那应该感觉不到网站的变化，但是如果是手机端浏览的话，那么应该会发现，原来是由MathJax解析的公式，变成了图片形式的公式。

没错，这是一个很折衷的解决办法，判断客户端，如果是移动端，就是用图片公式的显示方法，图片公式在移动端暂时没有发现错误（请大家测试。）这种方式有一些弊端，比如图片形式的公式并不是那么好看，而且，公式中的中文无法显示。

公式调用了http://latex.codecogs.com/gif.latex，在这里表示感谢。欢迎大家测试，反馈问题：http://bbs.spaces.ac.cn/topic/show/9

分类：生活/情感标签：网站, latex 阅读全文抢沙发

1 Apr

《量子力学与路径积分》习题解答V0.5

By 苏剑林 | 2016-04-01 | 37327位读者 | 引用

习题解答继续艰难推进中，目前是0.5版本，相比0.4版，跳过了8、9章，先做了第10、11章统计力学部分的习题。

第10章有10道习题，第11章其实没有习题。看上去很少，但其实每一道习题的难度都很大。这两章的主要内容都是在用路径积分方法算统计力学中的配分函数，这本来就是一个很艰辛的课题。加上费曼在书中那形象的描述，容易让读者能够认识到大概，但是却很难算下去。事实上，这一章的习题，我参考了相当多的资料，中文的、英文的都有，才勉强完成了。

虽说是完成，但10道题目中，我只完成了9道，其中问题10-3是有困惑的，我感觉的结果跟费曼给出的不一样，因此就算不下去了。在这里提出来，希望了解的读者赐教。

点击阅读全文...

分类：数学研究标签：路径积分, 费曼阅读全文 4 评论

17 Jun

OCR技术浅探：2. 背景与假设

By 苏剑林 | 2016-06-17 | 40348位读者 | 引用

研究背景

关于光学字符识别(Optical Character Recognition, 下面都简称OCR)，是指将图像上的文字转化为计算机可编辑的文字内容，众多的研究人员对相关的技术研究已久，也有不少成熟的OCR技术和产品产生，比如汉王OCR、ABBYY FineReader、Tesseract OCR等. 值得一提的是，ABBYY FineReader不仅正确率高(包括对中文的识别)，而且还能保留大部分的排版效果，是一个非常强大的OCR商业软件.

然而，在诸多的OCR成品中，除了Tesseract OCR外，其他的都是闭源的、甚至是商业的软件，我们既无法将它们嵌入到我们自己的程序中，也无法对其进行改进. 开源的唯一选择是Google的Tesseract OCR，但它的识别效果不算很好，而且中文识别正确率偏低，有待进一步改进.

综上所述，不管是为了学术研究还是实际应用，都有必要对OCR技术进行探究和改进. 我们队伍将完整的OCR系统分为“特征提取”、“文字定位”、“光学识别”、“语言模型”四个方面，逐步进行解决，最终完成了一个可用的、完整的、用于印刷文字的OCR系统. 该系统可以初步用于电商、微信等平台的图片文字识别，以判断上面信息的真伪.

研究假设

在本文中，我们假设图像的文字部分有以下的特征：

点击阅读全文...

分类：信息时代标签：图像, 数据挖掘, OCR, 文字阅读全文 5 评论

25 Nov

三顾碎纸复原：基于CNN的碎纸复原

By 苏剑林 | 2016-11-25 | 39368位读者 | 引用

赛题回顾

不得不说，2013年的全国数学建模竞赛中的B题真的算是数学建模竞赛中百年难得一遇的好题：题目简洁明了，含义丰富，做法多样，延伸性强，以至于我一直对它念念不忘。因为这个题目，我已经在科学空间写了两篇文章了，分别是《一个人的数学建模：碎纸复原》和《迟到一年的建模：再探碎纸复原》。以前做这道题的时候，还只有一点数学建模的知识，而自从学习了数据挖掘、尤其是深度学习之后，我一直想重做这道题，但一直偷懒。这几天终于把它实现了。

如果对题目还不清楚的读者，可以参考前面两篇文章。碎纸复原共有五个附件，分别代表了五种“碎纸片”，即五种不同粒度的碎片。其中附件1和2都不困难，难度主要集中在附件3、4、5，而3、4、5的实现难度基本是一样的。做这道题最容易想到的思路就是贪心算法，即随便选一张图片，然后找到与它最匹配的图片，然后继续匹配下一张。要想贪心算法有效，最关键是找到一个良好的距离函数，来判断两张碎片是否相邻（水平相邻，这里不考虑垂直相邻）。

点击阅读全文...

分类：信息时代标签：python, 建模, 图像, 深度学习阅读全文 2 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

记录一次爬取淘宝/天猫评论数据的过程

【备忘】维基百科与DNSCrypt

把Python脚本放到手机上定时运行

爬虫要住在哪里？

《量子力学与路径积分》习题解答V0.3

修改了一下公式的显示方式（移动端）

《量子力学与路径积分》习题解答V0.5

OCR技术浅探：2. 背景与假设

研究背景

研究假设

三顾碎纸复原：基于CNN的碎纸复原

赛题回顾

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接