包含关键字《方程与宇宙》的文章 - 科学空间|Scientific Spaces

5 Nov

【外微分浅谈】4. 微分不微

By 苏剑林 | 2016-11-05 | 31167位读者 | 引用

外微分

向量的外积一般只定义于不超过3维的空间。为了在更高维空间中使用反对称运算，我们需要下面描述的微分形式与外微分。

我们知道，任意$x$的函数的微分都可以写成$dx^{\mu}$的线性组合，在这里，各$dx^{\mu}$实则上扮演了一个基的角色，因此，我们不妨把$dx^{\mu}$看成是一组基，并且把任意函数称为微分0形式，而诸如$\omega_{\mu}dx^{\mu}$的式子，称为微分1形式。

在$dx^{\mu}$这组基之上，我们定义外积$\land$，即有反对称的运算$dx^{\mu}\land dx^{\nu}$，并且把诸如$\omega_{\mu\nu}dx^{\mu}\land dx^{\nu}$的式子，称为微分2形式。注意到这是$n$维空间中的外积，$dx^{\mu}\land dx^{\nu}$事实上是一个新空间的基，而不能用$dx^{\mu}$的线性组合来表示。

点击阅读全文...

分类：数学研究标签：向量, 对称, 外微分阅读全文抢沙发

19 Dec

跳出单循环

不管是什么编程语言，都有可能会有跳出循环的需求，比如枚举时，找到一个满足条件的数就终止。跳出单循环是很简单的，比如

for i in range(10):
    if i > 5:
        print i
        break

然而，我们有时候会需要跳出多重循环，而break只能够跳出一层循环，比如

for i in range(10):
    for j in range(10):
        if i+j > 5:
            print i,j
            break

这样的代码并非说找到一组i+j > 5就停止，而是连续找到10组，因为break只跳出了for j in range(10)这一重循环。那么，怎么才能跳出多重呢？在此记录备忘一下。

点击阅读全文...

分类：信息时代标签：python, 备忘阅读全文 9 评论

7 Jan

基于遗忘假设的平滑公式

By 苏剑林 | 2017-01-07 | 21411位读者 | 引用

统计是通过大量样本来估计真实分布的过程，通常与统计相伴出现的一个词是“平滑”，即对统计结果打折扣的处理过程。平滑的思想来源于：如果样本空间非常大，那么统计的结果是稀疏的，这样由于各种偶然因素的存在，导致了小的统计结果不可靠，如频数为1的结果可能只是偶然的结果，其频率并不一定近似于$1/N$，频数为0的不一定就不会出现。这样我们就需要对统计结果进行平滑，使得结论更为可靠。

平滑的方法有很多，这里介绍一种基于遗忘假设的平滑公式。假设的任务为：我们要从一批语料中，统计每个字的字频。我们模仿人脑遗忘的过程，假设这个字出现一次，我们脑里的记忆量就增加1，但是如果一个周期内（先不管这个周期多大），这个字都没有出现，那么脑里的记忆量就变为原来的$\beta$比例。假设字是周期性出现的，那么记忆量$A_n$就满足如下递推公式
$$A_{n+1} = \beta A_n + 1$$

点击阅读全文...

分类：数学研究标签：统计, 语料, 平滑阅读全文抢沙发

13 Jan

【中文分词系列】 6. 基于全卷积网络的中文分词

By 苏剑林 | 2017-01-13 | 59567位读者 | 引用

之前已经写过用LSTM来做分词的方案了，今天再来一篇用CNN的，准确来说是FCN，全卷积网络。其实这个模型的主要目的并非研究中文分词，而是练习tensorflow。从两年前就开始用Keras了，可以说对它比较熟了，也渐渐发现了它的一些不足，比如处理变长输入时不方便、加入自定义的约束比较困难等，所以干脆试试原生的tensorflow了，试了之后发现其实也不复杂。嗯，都是python，能有多复杂。本文就是练习一下如何用tensorflow处理不定长输入任务，以中文分词为例，并在最后加入了硬解码，将深度学习与词典分词结合了起来。

CNN

另外，就是关于FCN的。放到语言任务中看，（一维）卷积其实就是ngram模型，从这个角度来看其实CNN远比RNN来得自然，RNN好像就是为序列任务精心设计的，而CNN则是传统ngram模型的一个延伸。另外不管CNN和RNN都有权值共享，看上去只是为了降低运算量的一个折中选择，但事实上里边大有道理。CNN中的权值共享是平移不变性的必然结果，而不是仅仅是降低运算量的一个选择，试想一下，将一幅图像平移一点点，或者在一个句子前插入一个无意义的空格（导致后面所有字都向后平移了一位），这样应该给出一个相似甚至相同的结果，而这要求卷积必然是权值共享的，即权值不能跟位置有关系。

点击阅读全文...

分类：信息时代标签：深度学习, 分词, 自然语言处理阅读全文 10 评论

26 Jan

SVD分解(二)：为什么SVD意味着聚类？

By 苏剑林 | 2017-01-26 | 76059位读者 | 引用

提前祝各位读者新年快乐，2017行好运～

这篇文章主要想回答两个“为什么”的问题：1、为啥我就对SVD感兴趣了？；2、为啥我说SVD是一个聚类过程？回答的内容纯粹个人思辨结果，暂无参考文献。

为什么要研究SVD？

从2015年接触深度学习到现在，已经研究了快两年的深度学习了，现在深度学习、数据科学等概念也遍地开花。为什么在深度学习火起来的时候，我反而要回去研究“古老”的SVD分解呢？我觉得，SVD作为一个矩阵分解算法，它的价值不仅仅体现在它广泛的应用，它背后还有更加深刻的内涵，即它的可解释性。在深度学习流行的今天，不少人还是觉得深度学习（神经网络）就是一个有效的“黑箱”模型。但是，仅用“黑箱”二字来解释深度学习的有效性显然不能让人满意。前面已经说过，SVD分解本质上与不带激活函数的三层自编码机等价，理解SVD分解，能够为神经网络模型寻求一个合理的概率解释。

点击阅读全文...

分类：信息时代标签：聚类, SVD 阅读全文 15 评论

19 Feb

Python的多进程编程技巧

By 苏剑林 | 2017-02-19 | 38252位读者 | 引用

过程

在Python中，如果要多进程运算，一般是通过multiprocessing来实现的，常用的是multiprocessing中的进程池，比如：

from multiprocessing import Pool
import time

def f(x):
    time.sleep(1)
    print x+1
    return x+1

a = range(10)
pool = Pool(4)
b = pool.map(f, a)
pool.close()
pool.join()

print b

这样写简明清晰，确实方便，有趣的是，只需要将multiprocessing换成multiprocessing.dummy，就可以将程序从多进程改为多线程了。

点击阅读全文...

分类：信息时代标签：编程, python 阅读全文 3 评论

7 Apr

【不可思议的Word2Vec】 3.提取关键词

By 苏剑林 | 2017-04-07 | 198703位读者 | 引用

本文主要是给出了关键词的一种新的定义，并且基于Word2Vec给出了一个实现方案。这种关键词的定义是自然的、合理的，Word2Vec只是一个简化版的实现方案，可以基于同样的定义，换用其他的模型来实现。

说到提取关键词，一般会想到TF-IDF和TextRank，大家是否想过，Word2Vec还可以用来提取关键词？而且，用Word2Vec提取关键词，已经初步含有了语义上的理解，而不仅仅是简单的统计了，而且还是无监督的！

什么是关键词？

诚然，TF-IDF和TextRank是两种提取关键词的很经典的算法，它们都有一定的合理性，但问题是，如果从来没看过这两个算法的读者，会感觉简直是异想天开的结果，估计很难能够从零把它们构造出来。也就是说，这两种算法虽然看上去简单，但并不容易想到。试想一下，没有学过信息相关理论的同学，估计怎么也难以理解为什么IDF要取一个对数？为什么不是其他函数？又有多少读者会破天荒地想到，用PageRank的思路，去判断一个词的重要性？

说到底，问题就在于：提取关键词和文本摘要，看上去都是一个很自然的任务，有谁真正思考过，关键词的定义是什么？这里不是要你去查汉语词典，获得一大堆文字的定义，而是问你数学上的定义。关键词在数学上的合理定义应该是什么？或者说，我们获取关键词的目的是什么？

点击阅读全文...

分类：信息时代标签：词向量, Word2Vec, 语言模型阅读全文 54 评论

1 May

【不可思议的Word2Vec】 4.不一样的“相似”

By 苏剑林 | 2017-05-01 | 141210位读者 | 引用

相似度的定义

当用Word2Vec得到词向量后，一般我们会用余弦相似度来比较两个词的相似程度，定义为
$$\cos (\boldsymbol{x}, \boldsymbol{y}) = \frac{\boldsymbol{x}\cdot\boldsymbol{y}}{|\boldsymbol{x}|\times|\boldsymbol{y}|}$$
有了这个相似度概念，我们既可以比较任意两个词之间的相似度，也可以找出跟给定词最相近的词语。这在gensim的Word2Vec中，由most_similar函数实现。

等等！我们很快给出了相似度的计算公式，可是我们居然还没有“定义”相似！连相似都没有定义，怎么就得到了评估相似度的数学公式了呢？

要注意，这不是一个可以随意忽略的问题。很多时候我们都不知道我们干的是什么，就直接去干了。好比上一篇文章说到提取关键词，相信很多人都未曾想过，什么是关键词，难道就仅仅说关键词就是很“关键”的词？而如果想到，关键词就是用来估计文章大概讲什么的，这样我们就得到一种很自然的关键词定义
$$keywords = \mathop{\text{argmax}}_{w\in s}p(s|w)$$
进而可以用各种方法对它建模。

回到本文的主题来，相似度怎么定义呢？答案是：看场景定义所需要的相似。

点击阅读全文...

分类：信息时代标签：词向量, Word2Vec, 互信息阅读全文 40 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

【外微分浅谈】4. 微分不微

外微分

【备忘】Python中断多重循环的几种思路

跳出单循环

基于遗忘假设的平滑公式

【中文分词系列】 6. 基于全卷积网络的中文分词

CNN

SVD分解(二)：为什么SVD意味着聚类？

为什么要研究SVD？

Python的多进程编程技巧

过程

【不可思议的Word2Vec】 3.提取关键词

什么是关键词？

【不可思议的Word2Vec】 4.不一样的“相似”

相似度的定义

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接