包含关键字 SISv1.0.0.94Al 的文章 - 科学空间|Scientific Spaces

19 Feb

过程

在Python中，如果要多进程运算，一般是通过multiprocessing来实现的，常用的是multiprocessing中的进程池，比如：

from multiprocessing import Pool
import time

def f(x):
    time.sleep(1)
    print x+1
    return x+1

a = range(10)
pool = Pool(4)
b = pool.map(f, a)
pool.close()
pool.join()

print b

这样写简明清晰，确实方便，有趣的是，只需要将multiprocessing换成multiprocessing.dummy，就可以将程序从多进程改为多线程了。

点击阅读全文...

分类：信息时代标签：编程, python 阅读全文 3 评论

23 Feb

SVD分解(三)：连Word2Vec都只不过是个SVD？

By 苏剑林 | 2017-02-23 | 104472位读者 | 引用

这篇文章要带来一个“重磅”消息，如标题所示，居然连大名鼎鼎的深度学习词向量工具Word2Vec都只不过是个SVD！

当然，Word2Vec的超级忠实粉丝们，你们也不用太激动，这里只是说模型结构上是等价的，并非完全等价，Word2Vec还是有它的独特之处。只不过，经过我这样解释之后，估计很多问题就可以类似想通了。

词向量=one hot

让我们先来回顾一下去年的一篇文章《词向量与Embedding究竟是怎么回事？》，这篇文章主要说的是：所谓Embedding层，就是一个one hot的全连接层罢了（再次强调，这里说的完全等价，而不是“相当于”），而词向量，就是这个全连接层的参数；至于Word2Vec，就通过大大简化的语言模型来训练Embedding层，从而得到词向量（它的优化技巧有很多，但模型结构就只是这么简单）；词向量能够减少过拟合风险，是因为用Word2Vec之类的工具、通过大规模语料来无监督地预训练了这个Embedding层，而跟one hot还是Embedding还是词向量本身没啥关系。

有了这个观点后，马上可以解释我们以前的一个做法为什么可行了。在做情感分类问题时，如果有了词向量，想要得到句向量，最简单的一个方案就是直接对句子中的词语的词向量求和或者求平均，这约能达到85%的准确率。事实上这也是facebook出品的文本分类工具FastText的做法了（FastText还多引入了ngram特征，来缓解词序问题，但总的来说，依旧是把特征向量求平均来得到句向量）。为什么这么一个看上去毫不直观的、简单粗暴的方案也能达到这么不错的准确率？

点击阅读全文...

分类：信息时代标签：深度学习, SVD, 词向量阅读全文 27 评论

14 Mar

泰迪杯赛前培训之数据挖掘与建模“慢谈”

By 苏剑林 | 2017-03-14 | 34445位读者 | 引用

泰迪杯赛前培训

应广州泰迪科技公司之邀，给泰迪杯数据挖掘竞赛录制了赛前培训视频，内容基本上是各种常见的数学模型及入门用法，以一种比较独特的思路，将朴素贝叶斯、HMM、逻辑回归、组合模型、神经网络、深度学习等等串了起来。视频讲解难度为入门级，当然，真的要融合贯通所有内容，恐怕要骨灰级。

不管怎么样，简单分享一下，欢迎大家留言讨论、建议甚至批评。

PPT下载：泰迪杯赛前培训ppt.zip

视频地址：http://moodle.tipdm.com/course/view.php?id=18

分类：信息时代标签：数据挖掘阅读全文 5 评论

23 Mar

梯度下降和EM算法：系出同源，一脉相承

By 苏剑林 | 2017-03-23 | 232376位读者 | 引用

PS：本文就是梳理了梯度下降与EM算法的关系，通过同一种思路，推导了普通的梯度下降法、pLSA中的EM算法、K-Means中的EM算法，以此表明它们基本都是同一个东西的不同方面，所谓“横看成岭侧成峰，远近高低各不同”罢了。

在机器学习中，通常都会将我们所要求解的问题表示为一个带有未知参数的损失函数(Loss)，如平均平方误差（MSE），然后想办法求解这个函数的最小值，来得到最佳的参数值，从而完成建模。因将函数乘以-1后，最大值也就变成了最小值，因此一律归为最小值来说。如何求函数的最小值，在机器学习领域里，一般会流传两个大的方向：1、梯度下降；2、EM算法，也就是最大期望算法，一般用于复杂的最大似然问题的求解。

在通常的教程中，会将这两个方法描述得迥然不同，就像两大体系在分庭抗礼那样，而EM算法更是被描述得玄乎其玄的感觉。但事实上，这两个方法，都是同一个思路的不同例子而已，所谓“本是同根生”，它们就是一脉相承的东西。

让我们，先从远古的牛顿法谈起。

牛顿迭代法

给定一个复杂的非线性函数$f(x)$，希望求它的最小值，我们一般可以这样做，假定它足够光滑，那么它的最小值也就是它的极小值点，满足$f'(x_0)=0$，然后可以转化为求方程$f'(x)=0$的根了。非线性方程的根我们有个牛顿法，所以
\begin{equation}x_{n+1} = x_{n} - \frac{f'(x_n)}{f''(x_n)}\end{equation}

点击阅读全文...

分类：数学研究,信息时代标签：概率, 优化, 聚类阅读全文 70 评论

3 Jul

《交换代数导引》参考答案

By 苏剑林 | 2017-07-03 | 38851位读者 | 引用

这学期我们的一门课是《交换代数》，是本科抽象代数的升级版。我们用的教材是Atiyah的《Introduction to Commutative Algebra》（交换代数导引），而且根据老师的上课安排，还需要我们把部分课后习题完成并讲解...不得不说这门课上得真累啊～

习题做到后面，我干脆懒得起草稿了，直接把做的答案用LaTeX录入了，既方便排版也方便修改。在这里分享给有需要的读者～答案是用中文写的，注释比较详细，适合刚学这门课的同学～

笔者所做的部分：《交换代数导引》参考答案.pdf

当然这份答案只包括老师对我们的要求的那部分习题，下面是网上搜索到的完整的习题解答，英文版的：

网上找到的答案：Jeffrey Daniel Kasik Carlson - Exercises to Atiya.pdf

如果答案有问题，欢迎留言指出。

分类：数学研究标签：代数阅读全文抢沙发

16 Oct

如何划分一个跟测试集更接近的验证集？

By 苏剑林 | 2020-10-16 | 65354位读者 | 引用

不管是打比赛、做实验还是搞工程，我们经常会遇到训练集与测试集分布不一致的情况。一般来说我们会从训练集中划分出来一个验证集，通过这个验证集来调整一些超参数（参考《训练集、验证集和测试集的意义》），比如控制模型的训练轮数以防止过拟合。然而，如果验证集本身跟测试集差别比较大，那么验证集上很好的模型也不代表在测试集上很好，因此如何让划分出来验证集跟测试集的分布差异更小一些，是一个值得研究的题目。

两种情况

首先，明确一下，本文所考虑的，是能给拿到测试集数据本身、但不知道测试集标签的场景。如果是那种提交模型封闭评测的场景，我们完全看不到测试集的，那就没什么办法了。为什么会出现测试集跟训练集分布不一致的现象呢？主要有两种情况。

点击阅读全文...

分类：信息时代标签：模型, 概率, 优化, 采样阅读全文 16 评论

6 Oct

从马尔科夫过程到主方程（推导过程）

By 苏剑林 | 2017-10-06 | 80869位读者 | 引用

主方程（master equation）是对随机过程进行建模的重要方法，它代表着马尔科夫过程的微分形式，我们的专业主要工具之一就是主方程，说宏大一点，量子力学和统计力学等也不外乎是主方程的一个特例。

然而，笔者阅读了几个著作，比如《统计物理现代教程》，还有我导师的《生物系统的随机动力学》，我发现这些著作对于主方程的推导都很模糊，他们在着力解释结果的意义，但并不说明结果的思想来源，因此其过程难以让人信服。而知乎上有人提问《如何理解马尔科夫过程的主方程的推导过程？》但没有得到很好的答案，也表明了这个事实。

马尔可夫过程

主方程是用来描述马尔科夫过程的，而马尔科夫过程可以理解为运动的无记忆性，说通俗点，就是下一刻的概率分布，只跟当前时刻有关，跟历史状态无关。用概率公式写出来就是（这里只考虑连续型概率，因此这里的$p$是概率密度）：
$$\begin{equation}\label{eq:maerkefu}p(x,\tau)=\int p(x,\tau|y,t) p(y,t) dy\end{equation}$$
这里的积分区域是全空间。这里的$p(x,\tau|y,t)$称为跃迁概率，即已经确定了$t$时刻来到了$y$位置后、在$\tau$时刻达到$x$的概率密度，这个式子的物理意义是很明显的，就不多做解释了。

点击阅读全文...

分类：数学研究标签：概率, 主方程阅读全文 12 评论

13 Oct