包含关键字 hoathinh3d.me 的文章 - 科学空间|Scientific Spaces

24 May

It is time.

By 苏剑林 | 2015-05-24 | 55547位读者 | 引用

终于可以缓一缓了~~

有留意科学空间的朋友可能发现这段时间更新比较缓慢，这一切还得从今年寒假说起...

今年一月底，由于各种原因，结合自己的兴趣，我找了一份实习工作，内容是Python编程。工作是在华南理工大学的论坛上发布的，说的比较简洁，我也比较简洁地投了简历过去，想不到收到回复了，也被录用了。二月上班，进去之后，才发现原来公司还是一家国内比较知名的电商企业，我的主要工作是数据挖掘...虽然我有一点Python的经验，但是数据挖掘基本上不在行的，所以只能够边工作边学习，疯狂恶补数据挖掘的知识。在这个过程中，我学会了很多关于数据挖掘的东西，要知道，在这之前，我不知道什么叫“特征”，什么是“逻辑回归”、“SVM”...那时候真是万千无知。

点击阅读全文...

分类：生活/情感标签：生活, 学习阅读全文 12 评论

26 Jun

OCR技术浅探：9. 代码共享(完)

By 苏剑林 | 2016-06-26 | 69880位读者 | 引用

文件说明：

1. image.py——图像处理函数，主要是特征提取；
2. model_training.py——训练CNN单字识别模型（需要较高性能的服务器，最好有GPU加速，否则真是慢得要死）；
3. ocr.py——识别函数，包括单字分割、前面训练好的模型进行单字识别、动态规划提升效果；
4. main.py——主文件，用来调用1、3两个文件。
5、我们的模型中包含的字.txt(UTF-8编码)

点击阅读全文...

分类：信息时代标签：代码, 图像, OCR 阅读全文 18 评论

13 Jan

【中文分词系列】 6. 基于全卷积网络的中文分词

By 苏剑林 | 2017-01-13 | 60466位读者 | 引用

之前已经写过用LSTM来做分词的方案了，今天再来一篇用CNN的，准确来说是FCN，全卷积网络。其实这个模型的主要目的并非研究中文分词，而是练习tensorflow。从两年前就开始用Keras了，可以说对它比较熟了，也渐渐发现了它的一些不足，比如处理变长输入时不方便、加入自定义的约束比较困难等，所以干脆试试原生的tensorflow了，试了之后发现其实也不复杂。嗯，都是python，能有多复杂。本文就是练习一下如何用tensorflow处理不定长输入任务，以中文分词为例，并在最后加入了硬解码，将深度学习与词典分词结合了起来。

CNN

另外，就是关于FCN的。放到语言任务中看，（一维）卷积其实就是ngram模型，从这个角度来看其实CNN远比RNN来得自然，RNN好像就是为序列任务精心设计的，而CNN则是传统ngram模型的一个延伸。另外不管CNN和RNN都有权值共享，看上去只是为了降低运算量的一个折中选择，但事实上里边大有道理。CNN中的权值共享是平移不变性的必然结果，而不是仅仅是降低运算量的一个选择，试想一下，将一幅图像平移一点点，或者在一个句子前插入一个无意义的空格（导致后面所有字都向后平移了一位），这样应该给出一个相似甚至相同的结果，而这要求卷积必然是权值共享的，即权值不能跟位置有关系。

点击阅读全文...

分类：信息时代标签：深度学习, 分词, 自然语言处理阅读全文 10 评论

7 Aug

梅森素数的探索之旅

By 苏剑林 | 2009-08-07 | 22764位读者 | 引用

2009年5月22日，对于很多人来说并不是什么特别的日志，不过数学界这边又传来了一个“喜讯”：我们已经找到了第47个梅森素数，即$2^{42643801}-1$是一个素数！新的素数已于6月12日通过法国的Tony Reix的验证，这是目前的第二大素数，有12,837,064位数字！这是通过参加一个名为“因特网梅森素数大搜索”(GIMPS)的国际合作项目而发现的。让我们来共同回顾这一素数之旅！

素数/梅森素数

素数，现在课本上都已经成为“质数”了，不过目前很多数学家、爱好者都还是将其称为素数（也许这个名字好听）。这是指一些不可分解成两个比它本身小的两个整数相乘的形式的数，如2、3、5、7等。除了2外，所有的素数都是奇数。

点击阅读全文...

分类：数学研究标签：素数, 质数, 探索阅读全文抢沙发

31 Dec

写在2009年终结之际...

By 苏剑林 | 2009-12-31 | 15386位读者 | 引用

logo_iya2009

今天是2009年的最后一天了，再过4个小时，就要用上新的日历，写上新的一年了。

回过头来，才发现，其实我这一年里收获了很多，懂得了很多，成熟了很多...当然，也有犯了不少的错误。

这一年，我经历了许许多多的第一次：第一次外出、第一次...本来想详细列出一个“年终总结”来的，不过想了想，还是不要了。留在心底慢慢品味，慢慢懂得，慢慢长大...

感谢所有的人——包括亲人、朋友、老师，以及一切和我相关的人。不论是朋友，还是敌人；是伙伴，还是对手，他们都是我所需要的人。因为有他们，我的生活才能够更加有声有色！

点击阅读全文...

分类：生活/情感标签：2009, 总结阅读全文抢沙发

1 Nov

本站域名Spaces.Ac.Cn的PR为2了

By 苏剑林 | 2009-11-01 | 24786位读者 | 引用

又到了新的一月了。祝大家新月新气息！

今天查了一下，发现本站域名的PR(PageRank)值已经提升到2了。

除了内容得到了google的肯定外，我觉得最大的原因还是我把网站搬回了“宇宙驿站”。因为之前网络流传着一个“规则”，说PR值不仅仅取决于网站内容，而且还取决于网站所在服务器的其他网站质量。现在验证了这个信息，因为宇宙驿站上的网站多数是PR=3以上的高质量科学网站。

点击阅读全文...

分类：生活/情感标签：网站阅读全文 2 评论

3 Nov

美国科学家用3000幅照片拼接夜空全景

By 苏剑林 | 2009-11-03 | 17566位读者 | 引用

据美国太空网报道，下图展示了由3000幅单独的照片拼接而成的一幅全新的完整夜空全景图，其展现的最吸引人的景象便是我们生存的银河系。据悉，夜空全景图由美国中密歇根州大学的阿克塞尔·麦林格尔历时22个月制作完成。在此期间，他的足迹遍布南非、德克萨斯州和密歇根州，拍摄夜空数码照片，总行程超过2.6万英里(约合4.2万公里)。

点击阅读全文...

分类：天文探索,图片摄影标签：银河系, 科学家, 夜空, 全景阅读全文抢沙发

26 Dec