终于可以缓一缓了~~

有留意科学空间的朋友可能发现这段时间更新比较缓慢,这一切还得从今年寒假说起...

今年一月底,由于各种原因,结合自己的兴趣,我找了一份实习工作,内容是Python编程。工作是在华南理工大学的论坛上发布的,说的比较简洁,我也比较简洁地投了简历过去,想不到收到回复了,也被录用了。二月上班,进去之后,才发现原来公司还是一家国内比较知名的电商企业,我的主要工作是数据挖掘...虽然我有一点Python的经验,但是数据挖掘基本上不在行的,所以只能够边工作边学习,疯狂恶补数据挖掘的知识。在这个过程中,我学会了很多关于数据挖掘的东西,要知道,在这之前,我不知道什么叫“特征”,什么是“逻辑回归”、“SVM”...那时候真是万千无知。

很快新学期了,这学期课程比较少,所以可以维持边上课边实习的状态,目前为止还在持续中。上学之后,就想着上班学习到的数据挖掘知识是不是也能在课程中发挥点作用了。于是,陆续参加了几个跟数据挖掘有关的比赛或项目,包括:物电学院的“亮剑杯”、数科院的科研立项(基于数据挖掘的就业需求分析)、教信学院的调研数据分析、泰迪杯全国数据挖掘竞赛(这个我去年也参加过,只拿了个安慰奖)。这四个项目,加上上班,加上课内的课程,一波接着一波,把我这学期变得异常充实,我从中也获益良多。今天是泰迪杯提交论文的日子,当我把论文上传,点击“提交”后,脑子里就涌出“终于可以缓一缓了”的声音了。

当然,有付出就有回报,整个过程中,自我感觉获益匪浅。一方面,在这个过程中(上班+竞赛+项目),我用Python处理数据的能力大大提高,对Python的理解也大为深入。另一方面,让我比较深刻的是,在两个数据挖掘竞赛中我了解到了一种被称之为“深度学习”的算法(多重神经网络相关的),了解到了“自编码器”等等前沿的数据挖掘技术。事实上,在学习逻辑回归、SVM等等数据挖掘算法的时候,我就很困惑,为什么会有那么多的算法,为什么没有一种通用的有效地算法,这些算法为什么生效,这些问题一开始我都不大清楚。等到我接触了神经网络和深度学习之后,基本上有了一个让自己满意的答案。神经网络(深度学习是广义的神经网络)就是我寻找的那种比较通用的有效的算法,它的原理就是用多重复合函数来拟合。有机会的话,我会在另外的文章中,跟大家分享一下神经网络的经验。

在这里,我还愿意多花一点篇幅来说说深度学习,因为它确实值得大家了解,哪怕仅仅是概念性的理解。据说,这是目前最接近人工智能的算法(没有之一)。说它通用,原因很简单,因为它本来就是模拟人的思考过程(问题都是人提出来的,人都会思考,如果哪种算法可以模拟人,那么算法本身肯定很强大)。人的思维有一个很重要的特点,就是抽象。大家可能没有留意到,事实上“抽象”这个过程,是一个信息丢失的过程,只不过丢失的信息是我们认为不重要的信息而已,比如,如果我们研究篮球、排球、足球等等,我们就能够抽象出它们的一些整体信息,如都是球体、都是运动工具等等,这样的抽象过程能够让我们认识到事物的共性,同时减少了大脑的工作量,提高了处理效率。而对于计算机来说,深度学习算法正是实现了这个过程!它也通过多重的神经网络,构建自编码机,模拟了人的“抽象”过程!(当然,在这么短的篇幅里,读者只需要了解到这个概念就行了。)

这学期已经过去了一半,数据挖掘的内容也已经过去了大半,那么对于我来说,下一步是什么呢?

回归我的数学和物理吧!

深度学习虽然有趣、有前景,但是最让我膜拜的,还是提出深度学习算法的那群人,我在学习深度学习时,也尽可能从数学角度理解它的本质。所以,我更爱数学,我更愿意去搞理论,去继续我喜欢的数学和物理。在对数学和物理理论的思考过程中,我更能感觉到一种莫名的愉悦和成就感。我更喜欢一支笔、一张纸就能够构建我的想法,而不是需要面对计算机才能完成(虽然搞数学、搞物理也免不了计算机,但那是另外的感觉了)。我也不确定以后会选择什么工作,甚至也有可能从事数据挖掘、机器学习有关的工作,但是不论如何,对数学和物理的那份爱,一直都在。

因此,it is time , to continue my study on science.


转载到请包括本文地址:http://kexue.fm/archives/3319/

如果您觉得本文还不错,欢迎点击下面的按钮对博主进行打赏。打赏并非要从中获得收益,而是希望知道科学空间获得了多少读者的真心关注。当然,如果你无视它,也不会影响你的阅读。再次表示欢迎和感谢!