24 May

It is time.

终于可以缓一缓了~~

有留意科学空间的朋友可能发现这段时间更新比较缓慢,这一切还得从今年寒假说起...

今年一月底,由于各种原因,结合自己的兴趣,我找了一份实习工作,内容是Python编程。工作是在华南理工大学的论坛上发布的,说的比较简洁,我也比较简洁地投了简历过去,想不到收到回复了,也被录用了。二月上班,进去之后,才发现原来公司还是一家国内比较知名的电商企业,我的主要工作是数据挖掘...虽然我有一点Python的经验,但是数据挖掘基本上不在行的,所以只能够边工作边学习,疯狂恶补数据挖掘的知识。在这个过程中,我学会了很多关于数据挖掘的东西,要知道,在这之前,我不知道什么叫“特征”,什么是“逻辑回归”、“SVM”...那时候真是万千无知。

点击阅读全文...

26 Jun

OCR技术浅探:9. 代码共享(完)

文件说明:

1. image.py——图像处理函数,主要是特征提取;

2. model_training.py——训练CNN单字识别模型(需要较高性能的服务器,最好有GPU加速,否则真是慢得要死);

3. ocr.py——识别函数,包括单字分割、前面训练好的模型进行单字识别、动态规划提升效果;

4. main.py——主文件,用来调用1、3两个文件。

5、我们的模型中包含的字.txt(UTF-8编码)

点击阅读全文...

13 Jan

【中文分词系列】 6. 基于全卷积网络的中文分词

之前已经写过用LSTM来做分词的方案了,今天再来一篇用CNN的,准确来说是FCN,全卷积网络。其实这个模型的主要目的并非研究中文分词,而是练习tensorflow。从两年前就开始用Keras了,可以说对它比较熟了,也渐渐发现了它的一些不足,比如处理变长输入时不方便、加入自定义的约束比较困难等,所以干脆试试原生的tensorflow了,试了之后发现其实也不复杂。嗯,都是python,能有多复杂。本文就是练习一下如何用tensorflow处理不定长输入任务,以中文分词为例,并在最后加入了硬解码将深度学习与词典分词结合了起来

CNN

另外,就是关于FCN的。放到语言任务中看,(一维)卷积其实就是ngram模型,从这个角度来看其实CNN远比RNN来得自然,RNN好像就是为序列任务精心设计的,而CNN则是传统ngram模型的一个延伸。另外不管CNN和RNN都有权值共享,看上去只是为了降低运算量的一个折中选择,但事实上里边大有道理。CNN中的权值共享是平移不变性的必然结果,而不是仅仅是降低运算量的一个选择,试想一下,将一幅图像平移一点点,或者在一个句子前插入一个无意义的空格(导致后面所有字都向后平移了一位),这样应该给出一个相似甚至相同的结果,而这要求卷积必然是权值共享的,即权值不能跟位置有关系。

点击阅读全文...

7 Aug

梅森素数的探索之旅

2009年5月22日,对于很多人来说并不是什么特别的日志,不过数学界这边又传来了一个“喜讯”:我们已经找到了第47个梅森素数,即$2^{42643801}-1$是一个素数!新的素数已于6月12日通过法国的Tony Reix的验证,这是目前的第二大素数,有12,837,064位数字!这是通过参加一个名为“因特网梅森素数大搜索”(GIMPS)的国际合作项目而发现的。让我们来共同回顾这一素数之旅!

素数/梅森素数

素数,现在课本上都已经成为“质数”了,不过目前很多数学家、爱好者都还是将其称为素数(也许这个名字好听)。这是指一些不可分解成两个比它本身小的两个整数相乘的形式的数,如2、3、5、7等。除了2外,所有的素数都是奇数。

点击阅读全文...

31 Dec

写在2009年终结之际...

logo_iya2009

logo_iya2009

今天是2009年的最后一天了,再过4个小时,就要用上新的日历,写上新的一年了。

回过头来,才发现,其实我这一年里收获了很多,懂得了很多,成熟了很多...当然,也有犯了不少的错误。

这一年,我经历了许许多多的第一次:第一次外出、第一次...本来想详细列出一个“年终总结”来的,不过想了想,还是不要了。留在心底慢慢品味,慢慢懂得,慢慢长大...

感谢所有的人——包括亲人、朋友、老师,以及一切和我相关的人。不论是朋友,还是敌人;是伙伴,还是对手,他们都是我所需要的人。因为有他们,我的生活才能够更加有声有色!

点击阅读全文...

1 Nov

本站域名Spaces.Ac.Cn的PR为2了

又到了新的一月了。祝大家新月新气息!

今天查了一下,发现本站域名的PR(PageRank)值已经提升到2了。

PR查询

除了内容得到了google的肯定外,我觉得最大的原因还是我把网站搬回了“宇宙驿站”。因为之前网络流传着一个“规则”,说PR值不仅仅取决于网站内容,而且还取决于网站所在服务器的其他网站质量。现在验证了这个信息,因为宇宙驿站上的网站多数是PR=3以上的高质量科学网站。

点击阅读全文...

3 Nov

美国科学家用3000幅照片拼接夜空全景

据美国太空网报道,下图展示了由3000幅单独的照片拼接而成的一幅全新的完整夜空全景图,其展现的最吸引人的景象便是我们生存的银河系。据悉,夜空全景图由美国中密歇根州大学的阿克塞尔·麦林格尔历时22个月制作完成。在此期间,他的足迹遍布南非、德克萨斯州和密歇根州,拍摄夜空数码照片,总行程超过2.6万英里(约合4.2万公里)。

点击阅读全文...

26 Dec

参加天文竞赛的照片...

没有什么好的相机,只是一台傻瓜机,照片效果不是很好,图片经过PS。
特以此留念.....
我的QQ空间里有更清晰的照片,欢迎访问!(673035421)

这就是我

这就是我

点击阅读全文...