包含关键字条件随机场的文章 - 科学空间|Scientific Spaces

17 Aug

【中文分词系列】 1. 基于AC自动机的快速分词

By 苏剑林 | 2016-08-17 | 104835位读者 | 引用

前言：这个暑假花了不少时间在中文分词和语言模型上面，碰了无数次壁，也得到了零星收获。打算写一个专题，分享一下心得体会。虽说是专题，但仅仅是一些笔记式的集合，并非系统的教程，请读者见谅。

中文分词

关于中文分词的介绍和重要性，我就不多说了，matrix67这里有一篇关于分词和分词算法很清晰的介绍，值得一读。在文本挖掘中，虽然已经有不少文章探索了不分词的处理方法，如本博客的《文本情感分类（三）：分词 OR 不分词》，但在一般场合都会将分词作为文本挖掘的第一步，因此，一个有效的分词算法是很重要的。当然，中文分词作为第一步，已经被探索很久了，目前做的很多工作，都是总结性质的，最多是微弱的改进，并不会有很大的变化了。

目前中文分词主要有两种思路：查词典和字标注。首先，查词典的方法有：机械的最大匹配法、最少词数法，以及基于有向无环图的最大概率组合，还有基于语言模型的最大概率组合，等等。查词典的方法简单高效（得益于动态规划的思想），尤其是结合了语言模型的最大概率法，能够很好地解决歧义问题，但对于中文分词一大难度——未登录词（中文分词有两大难度：歧义和未登录词），则无法解决；为此，人们也提出了基于字标注的思路，所谓字标注，就是通过几个标记（比如4标注的是：single，单字成词；begin，多字词的开头；middle，三字以上词语的中间部分；end，多字词的结尾），把句子的正确分词法表示出来。这是一个序列（输入句子）到序列（标记序列）的过程，能够较好地解决未登录词的问题，但速度较慢，而且对于已经有了完备词典的场景下，字标注的分词效果可能也不如查词典方法。总之，各有优缺点（似乎是废话～），实际使用可能会结合两者，像结巴分词，用的是有向无环图的最大概率组合，而对于连续的单字，则使用字标注的HMM模型来识别。

点击阅读全文...

分类：信息时代标签：动态规划, AC自动机, 分词, 自然语言处理, 词库阅读全文 26 评论

5 Nov

【外微分浅谈】3. 正交标架

By 苏剑林 | 2016-11-05 | 33222位读者 | 引用

众所周知，要掌握黎曼几何，需要强烈的几何直观感。但除此之外，用分量语言描述的黎曼几何，也需要很好的分析能力才能梳理清楚，因为有$N$多的指标在表示着分量和求和，咋看上去处处皆指标。这种繁琐的分量语言并不总讨人喜欢，甚至在不少地方是声名狼籍的。

在分量的语言中，我们本质上可以在局部建立任意形式的坐标系，也就是采用任意形式的基底$\{\boldsymbol{e}_{\mu}\}$，或者说自然标架。但不可否认，在正交标架（标准正交基）之下，很多方程会简单不少，并且得益于我们对欧氏空间的熟练，我们对正交标架下的研究可能会更有感觉。因此，如果条件允许的话，我们应当使用正交标架$\{\hat{\boldsymbol{e}}_{\mu}\}$，哪怕是活动的，这里我们用$\hat{}$标记正交标架。

比如，我们有微元
$$d\boldsymbol{r} = \boldsymbol{e}_{\mu}dx^{\mu} \tag{12} $$
是在一般标架下测量的，那么就可以得到黎曼度量

点击阅读全文...

分类：数学研究标签：对称, 外微分阅读全文 1 评论

19 Dec

【备忘】Python中断多重循环的几种思路

By 苏剑林 | 2016-12-19 | 64956位读者 | 引用

跳出单循环

不管是什么编程语言，都有可能会有跳出循环的需求，比如枚举时，找到一个满足条件的数就终止。跳出单循环是很简单的，比如

for i in range(10):
    if i > 5:
        print i
        break

然而，我们有时候会需要跳出多重循环，而break只能够跳出一层循环，比如

for i in range(10):
    for j in range(10):
        if i+j > 5:
            print i,j
            break

这样的代码并非说找到一组i+j > 5就停止，而是连续找到10组，因为break只跳出了for j in range(10)这一重循环。那么，怎么才能跳出多重呢？在此记录备忘一下。

点击阅读全文...

分类：信息时代标签：python, 备忘阅读全文 9 评论

6 Jan

获取并处理中文维基百科语料

By 苏剑林 | 2017-01-06 | 114533位读者 | 引用

中文语料库中，质量高而又容易获取的语料库，应该就是维基百科的中文语料了，而且维基百科相当厚道，每个月都把所有条目都打包一次（下载地址在这里：https://dumps.wikimedia.org/zhwiki/），供全世界使用，这才是真正的“取之于民，回馈于民”呀。遗憾的是，由于天朝的无理封锁，中文维基百科的条目到目前只有91万多条，而百度百科、互动百科都有千万条了（英文维基百科也有上千万了）。尽管如此，这并没有阻挡中文维基百科成为几乎是最高质量的中文语料库。（百度百科、互动百科它们只能自己用爬虫爬取，而且不少记录质量相当差，几乎都是互相复制甚至抄袭。）

门槛

尽量下载很容易，但是使用维基百科语料还是有一定门槛的。直接下载下来的维基百科语料是一个带有诸多html和markdown标记的文本压缩包，基本不能直接使用。幸好，已经有热心的高手为我们写好了处理工具，主要有两个：1、Wikipedia Extractor；2、gensim的wikicorpus库。它们都是基于python的。

然而，这两个主流的处理方法都不能让我满意。首先，Wikipedia Extractor提取出来的结果，会去掉{{}}标记的内容，这样会导致下面的情形

西方语言中“数学”（；）一词源自于古希腊语的（）

点击阅读全文...

分类：信息时代标签：维基, 语言, 语料阅读全文 22 评论

11 Jan

狄拉克函数：级数逼近

By 苏剑林 | 2017-01-11 | 48182位读者 | 引用

魏尔斯特拉斯定理

将狄拉克函数理解为函数的极限，可以衍生出很丰富的内容，而且这些内容离严格的证明并不遥远。比如，定义
$$\delta_n(x)=\left\{\begin{aligned}&\frac{(1-x^2)^n}{I_n},x\in[-1,1]\\
&0,\text{其它情形}\end{aligned}\right.$$
其中$I_n = \int_{-1}^1 (1-x^2)^n dx$，于是不难证明
$$\delta(x)=\lim_{n\to\infty}\delta_n(x)$$
这样，对于$[a,b]$上的连续函数$f(x)$，我们就得到
$$f(x)=\int_{-1}^1 f(y)\delta(x-y)dy = \lim_{n\to\infty}\int_{-1}^1 f(y)\delta_n(x-y) dy$$
这里$-1 < a < b < 1$，并且我们已经“不严谨”地交换了积分号和极限号，但这不是特别重要。重要的是它的结果：可以看到
$$P_n(x)=\int_{-1}^1 f(y)\delta_n(x-y) dy$$
是$x$的一个$2n$次多项式，因此上式表明$f(x)$是一个$2n$次的多项式的极限！这就引出了著名的“魏尔斯特拉斯定理”：

闭区间上的连续函数都可以用多项式一致地逼近。

点击阅读全文...

分类：数学研究标签：级数, 逼近阅读全文 4 评论

26 Jan

SVD分解(二)：为什么SVD意味着聚类？

By 苏剑林 | 2017-01-26 | 81722位读者 | 引用

提前祝各位读者新年快乐，2017行好运～

这篇文章主要想回答两个“为什么”的问题：1、为啥我就对SVD感兴趣了？；2、为啥我说SVD是一个聚类过程？回答的内容纯粹个人思辨结果，暂无参考文献。

为什么要研究SVD？

从2015年接触深度学习到现在，已经研究了快两年的深度学习了，现在深度学习、数据科学等概念也遍地开花。为什么在深度学习火起来的时候，我反而要回去研究“古老”的SVD分解呢？我觉得，SVD作为一个矩阵分解算法，它的价值不仅仅体现在它广泛的应用，它背后还有更加深刻的内涵，即它的可解释性。在深度学习流行的今天，不少人还是觉得深度学习（神经网络）就是一个有效的“黑箱”模型。但是，仅用“黑箱”二字来解释深度学习的有效性显然不能让人满意。前面已经说过，SVD分解本质上与不带激活函数的三层自编码机等价，理解SVD分解，能够为神经网络模型寻求一个合理的概率解释。

点击阅读全文...

分类：信息时代标签：聚类, SVD 阅读全文 15 评论

7 Apr

【不可思议的Word2Vec】 3.提取关键词

By 苏剑林 | 2017-04-07 | 209553位读者 | 引用

本文主要是给出了关键词的一种新的定义，并且基于Word2Vec给出了一个实现方案。这种关键词的定义是自然的、合理的，Word2Vec只是一个简化版的实现方案，可以基于同样的定义，换用其他的模型来实现。

说到提取关键词，一般会想到TF-IDF和TextRank，大家是否想过，Word2Vec还可以用来提取关键词？而且，用Word2Vec提取关键词，已经初步含有了语义上的理解，而不仅仅是简单的统计了，而且还是无监督的！

什么是关键词？

诚然，TF-IDF和TextRank是两种提取关键词的很经典的算法，它们都有一定的合理性，但问题是，如果从来没看过这两个算法的读者，会感觉简直是异想天开的结果，估计很难能够从零把它们构造出来。也就是说，这两种算法虽然看上去简单，但并不容易想到。试想一下，没有学过信息相关理论的同学，估计怎么也难以理解为什么IDF要取一个对数？为什么不是其他函数？又有多少读者会破天荒地想到，用PageRank的思路，去判断一个词的重要性？

说到底，问题就在于：提取关键词和文本摘要，看上去都是一个很自然的任务，有谁真正思考过，关键词的定义是什么？这里不是要你去查汉语词典，获得一大堆文字的定义，而是问你数学上的定义。关键词在数学上的合理定义应该是什么？或者说，我们获取关键词的目的是什么？

点击阅读全文...

分类：信息时代标签：词向量, Word2Vec, 语言模型阅读全文 54 评论

23 Jun

貌离神合的RNN与ODE：花式RNN简介

By 苏剑林 | 2018-06-23 | 108913位读者 | 引用

本来笔者已经决心不玩RNN了，但是在上个星期思考时忽然意识到RNN实际上对应了ODE（常微分方程）的数值解法，这为我一直以来想做的事情——用深度学习来解决一些纯数学问题——提供了思路。事实上这是一个颇为有趣和有用的结果，遂介绍一翻。顺便地，本文也涉及到了自己动手编写RNN的内容，所以本文也可以作为编写自定义的RNN层的一个简单教程。

注：本文并非前段时间的热点“神经ODE”的介绍（但有一定的联系）。

RNN基本

什么是RNN？

众所周知，RNN是“循环神经网络（Recurrent Neural Network）”，跟CNN不同，RNN可以说是一类模型的总称，而并非单个模型。简单来讲，只要是输入向量序列$(\boldsymbol{x}_1,\boldsymbol{x}_2,\dots,\boldsymbol{x}_T)$，输出另外一个向量序列$(\boldsymbol{y}_1,\boldsymbol{y}_2,\dots,\boldsymbol{y}_T)$，并且满足如下递归关系
$$\boldsymbol{y}_t=f(\boldsymbol{y}_{t-1}, \boldsymbol{x}_t, t)\tag{1}$$
的模型，都可以称为RNN。也正因为如此，原始的朴素RNN，还有改进的如GRU、LSTM、SRU等模型，我们都称为RNN，因为它们都可以作为上式的一个特例。还有一些看上去与RNN没关的内容，比如前不久介绍的CRF的分母的计算，实际上也是一个简单的RNN。

说白了，RNN其实就是递归计算。

点击阅读全文...

分类：数学研究,信息时代标签：微分方程, 递推, RNN 阅读全文 24 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

【中文分词系列】 1. 基于AC自动机的快速分词

中文分词

【外微分浅谈】3. 正交标架

【备忘】Python中断多重循环的几种思路

跳出单循环

获取并处理中文维基百科语料

门槛

狄拉克函数：级数逼近

魏尔斯特拉斯定理

SVD分解(二)：为什么SVD意味着聚类？

为什么要研究SVD？

【不可思议的Word2Vec】 3.提取关键词

什么是关键词？

貌离神合的RNN与ODE：花式RNN简介

RNN基本

什么是RNN？

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接