分类信息时代下的文章 - 科学空间|Scientific Spaces

6 Jun

闲聊：神经网络与深度学习

By 苏剑林 | 2015-06-06 | 57259位读者 | 引用

神经网络

在所有机器学习模型之中，也许最有趣、最深刻的便是神经网络模型了。笔者也想献丑一番，说一次神经网络。当然，本文并不打算从头开始介绍神经网络，只是谈谈我对神经网络的个人理解。如果希望进一步了解神经网络与深度学习的朋友，请移步阅读下面的教程：
http://deeplearning.stanford.edu/wiki/index.php/UFLDL教程

http://blog.csdn.net/zouxy09/article/details/8775360

机器分类

这里以分类工作为例，数据挖掘或机器学习中，有很多分类的问题，比如讲一句话的情况进行分类，粗略点可以分类为“积极”或“消极”，精细点分为开心、生气、忧伤等；另外一个典型的分类问题是手写数字识别，也就是将图片分为10类（0,1,2,3,4,5,6,7,8,9）。因此，也产生了很多分类的模型。

点击阅读全文...

分类：信息时代标签：神经网络, 深度学习, 机器学习阅读全文 13 评论

6 May

记录一次爬取淘宝/天猫评论数据的过程

By 苏剑林 | 2015-05-06 | 149840位读者 | 引用

笔者最近迷上了数据挖掘和机器学习，要做数据分析首先得有数据才行。对于我等平民来说，最廉价的获取数据的方法，应该是用爬虫在网络上爬取数据了。本文记录一下笔者爬取天猫某商品的全过程，淘宝上面的店铺也是类似的做法，不赘述。主要是分析页面以及用Python实现简单方便的抓取。

笔者使用的工具如下

Python 3——极其方便的编程语言。选择3.x的版本是因为3.x对中文处理更加友好。
Pandas——Python的一个附加库，用于数据整理。
IE 11——分析页面请求过程（其他类似的流量监控工具亦可）。
剩下的还有requests,re，这些都是Python自带的库。

实例页面（美的某热水器）：http://detail.tmall.com/item.htm?id=41464129793

点击阅读全文...

分类：信息时代标签：网站, 爬虫阅读全文 45 评论