包含关键字《方程与宇宙》的文章 - 科学空间|Scientific Spaces

1 Jul

从Boosting学习到神经网络：看山是山？

By 苏剑林 | 2016-07-01 | 69702位读者 | 引用

前段时间在潮州给韩师的同学讲文本挖掘之余，涉猎到了Boosting学习算法，并且做了一番头脑风暴，最后把Boosting学习算法的一些本质特征思考清楚了，而且得到一些意外的结果，比如说AdaBoost算法的一些理论证明也可以用来解释神经网络模型这么强大。

AdaBoost算法

Boosting学习，属于组合模型的范畴，当然，与其说它是一个算法，倒不如说是一种解决问题的思路。以有监督的分类问题为例，它说的是可以把弱的分类器（只要准确率严格大于随机分类器）通过某种方式组合起来，就可以得到一个很优秀的分类器（理论上准确率可以100%）。AdaBoost算法是Boosting算法的一个例子，由Schapire在1996年提出，它构造了一种Boosting学习的明确的方案，并且从理论上给出了关于错误率的证明。

以二分类问题为例子，假设我们有一批样本$\{x_i,y_i\},i=1,2,\dots,n$，其中$x_i$是样本数据，有可能是多维度的输入，$y_i\in\{1,-1\}$为样本标签，这里用1和-1来描述样本标签而不是之前惯用的1和0，只是为了后面证明上的方便，没有什么特殊的含义。接着假设我们已经有了一个弱分类器$G(x)$，比如逻辑回归、SVM、决策树等，对分类器的唯一要求是它的准确率要严格大于随机（在二分类问题中就是要严格大于0.5），所谓严格大于，就是存在一个大于0的常数$\epsilon$，每次的准确率都不低于$\frac{1}{2}+\epsilon$。

点击阅读全文...

分类：信息时代标签：神经网络, Boosting, 感情分类阅读全文 13 评论

22 Aug

【中文分词系列】 4. 基于双向LSTM的seq2seq字标注

By 苏剑林 | 2016-08-22 | 491384位读者 | 引用

关于字标注法

上一篇文章谈到了分词的字标注法。要注意字标注法是很有潜力的，要不然它也不会在公开测试中取得最优的成绩了。在我看来，字标注法有效有两个主要的原因，第一个原因是它将分词问题变成了一个序列标注问题，而且这个标注是对齐的，也就是输入的字跟输出的标签是一一对应的，这在序列标注中是一个比较成熟的问题；第二个原因是这个标注法实际上已经是一个总结语义规律的过程，以4tag标注为为例，我们知道，“李”字是常用的姓氏，一半作为多字词（人名）的首字，即标记为b；而“想”由于“理想”之类的词语，也有比较高的比例标记为e，这样一来，要是“李想”两字放在一起时，即便原来词表没有“李想”一词，我们也能正确输出be，也就是识别出“李想”为一个词，也正是因为这个原因，即便是常被视为最不精确的HMM模型也能起到不错的效果。

关于标注，还有一个值得讨论的内容，就是标注的数目。常用的是4tag，事实上还有6tag和2tag，而标记分词结果最简单的方法应该是2tag，即标记“切分/不切分”就够了，但效果不好。为什么反而更多数目的tag效果更好呢？因为更多的tag实际上更全面概括了语义规律。比如，用4tag标注，我们能总结出哪些字单字成词、哪些字经常用作开头、哪些字用作末尾，但仅仅用2tag，就只能总结出哪些字经常用作开头，从归纳的角度来看，是不够全面的。但6tag跟4tag比较呢？我觉得不一定更好，6tag的意思是还要总结出哪些字作第二字、第三字，但这个总结角度是不是对的？我觉得，似乎并没有哪些字固定用于第二字或者第三字的，这个规律的总结性比首字和末字的规律弱多了（不过从新词发现的角度来看，6tag更容易发现长词。）。

双向LSTM

点击阅读全文...

分类：信息时代标签：概率, python, 分词, 自然语言处理阅读全文 139 评论

18 Aug

【中文分词系列】 2. 基于切分的新词发现

By 苏剑林 | 2016-08-18 | 128823位读者 | 引用

上一篇文章讲的是基于词典和AC自动机的快速分词。基于词典的分词有一个明显的优点，就是便于维护，容易适应领域。如果迁移到新的领域，那么只需要添加对应的领域新词，就可以实现较好地分词。当然，好的、适应领域的词典是否容易获得，这还得具体情况具体分析。本文要讨论的就是新词发现这一部分的内容。

这部分内容在去年的文章《新词发现的信息熵方法与实现》已经讨论过了，算法是来源于matrix67的文章《互联网时代的社会语言学：基于SNS的文本数据挖掘》。在那篇文章中，主要利用了三个指标——频数、凝固度（取对数之后就是我们所说的互信息熵）、自由度（边界熵）——来判断一个片段是否成词。如果真的动手去实现过这个算法的话，那么会发现有一系列的难度。首先，为了得到$n$字词，就需要找出$1\sim n$字的切片，然后分别做计算，这对于$n$比较大时，是件痛苦的时间；其次，最最痛苦的事情是边界熵的计算，边界熵要对每一个片段就行分组统计，然后再计算，这个工作量的很大的。本文提供了一种方案，可以使得新词发现的计算量大大降低。

点击阅读全文...

分类：信息时代标签：分词, 无监督, NLP, 新词发现阅读全文 23 评论

5 Sep

进驻中山大学南校区，折腾校园网

By 苏剑林 | 2016-09-05 | 83602位读者 | 引用

开始研究僧之旅，希望有一天能企及扫地僧的境界。

进入中山大学后，各种郁闷的事情就来了。首先最郁闷的就是开学时间特早，8月26日开学，感觉至少比一般学校早了一星期，开学这么早有意思么～～接着就是感觉中大的管理制度各种混乱，比我本科的华师差多了。好吧，这些琐事先不吐槽，接下来弄校园网，这是作死的开始。

我们是在南校区的，校园网是通过锐捷客户端来认证的，而我是用macbook的，不过中大这边还很人性化地提供了Mac版的锐捷，体积就1M左右，挺好的。但众所周知，macbook并没有有线网卡，每次我上网都得插着个USB网卡然后连着网线，这该有多郁闷。于是想办法通过路由器拨号。我也不算没经验的了，对openwrt这个系统有过一定研究，以前在本科的时候也是锐捷，可以用mentohust替代拨号，很简单。于是我在这里重复这样的过程，发现一直认证失败，按照网上提示的各种方法，都无法解决。

经过研究，我发现在Windows下，这里就只能用官方提供了锐捷4.90版本，从其他地方下载的更高级或者更低级的锐捷，都无法通过验证。估计就是因为这个机制，导致了mentohust难以通过验证。而且网上流行的mentohust都是基于V2协议的，但4.90是基于V4的。后来我又去下载了V4版本的进行交叉编译，测试发现还不成功。几近绝望的时候，我发现了mentohust-proxy，一个mentohust的改进版，让我找到了希望。（怎么找到它？我是直接到github搜索了，因为实在没辙了～～）

原理很简单，如果直接通过mentohust无法完成认证，那么就通过代理模式，由电脑来完成认证，而mentohust只需要负责发送心跳包维持联网就行。这是个很折中的方案，但应该说是一个很通用的方案，因为它的成功与否，基本就取决于自己电脑的锐捷客户端而已。看到这个方案，我就知道有戏了，于是赶紧补习了一下交叉编译的知识，最后成功编译好了，并且在路由上成功地完成了认证。

点击阅读全文...

分类：信息时代标签：openwrt, 路由器阅读全文 13 评论

6 Sep

基于双向LSTM和迁移学习的seq2seq核心实体识别

By 苏剑林 | 2016-09-06 | 170337位读者 | 引用

暑假期间做了一下百度和西安交大联合举办的核心实体识别竞赛，最终的结果还不错，遂记录一下。模型的效果不是最好的，但是胜在“端到端”，迁移性强，估计对大家会有一定的参考价值。

比赛的主题是“核心实体识别”，其实有两个任务：核心识别 + 实体识别。这两个任务虽然有关联，但在传统自然语言处理程序中，一般是将它们分开处理的，而这次需要将两个任务联合在一起。如果只看“核心识别”，那就是传统的关键词抽取任务了，不同的是，传统的纯粹基于统计的思路（如TF-IDF抽取）是行不通的，因为单句中的核心实体可能就只出现一次，这时候统计估计是不可靠的，最好能够从语义的角度来理解。我一开始就是从“核心识别”入手，使用的方法类似QA系统：

1、将句子分词，然后用Word2Vec训练词向量；
2、用卷积神经网络（在这种抽取式问题上，CNN效果往往比RNN要好）卷积一下，得到一个与词向量维度一样的输出；
3、损失函数就是输出向量跟训练样本的核心词向量的cos值。

点击阅读全文...

分类：信息时代标签：python, 自然语言处理, 识别, NER 阅读全文 46 评论

12 Sep

【中文分词系列】 5. 基于语言模型的无监督分词

By 苏剑林 | 2016-09-12 | 158468位读者 | 引用

迄今为止，前四篇文章已经介绍了分词的若干思路，其中有基于最大概率的查词典方法、基于HMM或LSTM的字标注方法等。这些都是已有的研究方法了，笔者所做的就只是总结工作而已。查词典方法和字标注各有各的好处，我一直在想，能不能给出一种只需要大规模语料来训练的无监督分词模型呢？也就是说，怎么切分，应该是由语料来决定的，跟语言本身没关系。说白了，只要足够多语料，就可以告诉我们怎么分词。

看上去很完美，可是怎么做到呢？《2.基于切分的新词发现》中提供了一种思路，但是不够彻底。那里居于切分的新词发现方法确实可以看成一种无监督分词思路，它就是用一个简单的凝固度来判断某处该不该切分。但从分词的角度来看，这样的分词系统未免太过粗糙了。因此，我一直想着怎么提高这个精度，前期得到了一些有意义的结果，但都没有得到一个完整的理论。而最近正好把这个思路补全了。因为没有查找到类似的工作，所以这算是笔者在分词方面的一点原创工作了。

语言模型

首先简单谈一下语言模型。

点击阅读全文...

分类：信息时代标签：分词, 自然语言处理, 无监督, 新词发现阅读全文 35 评论

14 Oct

【理解黎曼几何】2. 从勾股定理到黎曼度量

By 苏剑林 | 2016-10-14 | 78091位读者 | 引用

黎曼度量

几何，英文名是Geometry，原意是大地测量。既然是测量，就必须有参考物，还有得知道如何计算距离。

有了参照物，我们就可以建立坐标系，把每个点的坐标都写下来，至于计算距离，我们有伟大的勾股定理：
$$ds^2 = dx^2 + dy^2 \tag{1} $$
但这里我们忽略了两个问题。

第一个问题是，我们不一定使用直角坐标系，如果使用极坐标，那么应该是
$$ds^2 = dr^2 + r^2 d\theta^2 \tag{2} $$
因此可以联想，最一般的形式应该是
$$ds^2 = E(x^1, x^2)(dx^1)^2 + 2F(x^1, x^2)dx^1 dx^2 + G(x^1, x^2)(dx^2)^2 \tag{3} $$
这里的$x^1,x^2$是广义坐标，使用上标而不是下标来标记序号，是为了跟传统的教材记号一致。那这公式是什么意思呢？其实很简单，正如我们没理由要求全世界都使用人民币一样，我们没必要要求世界各地都使用同一个坐标系，而更合理的做法是，每一处地方都使用自己的坐标系（局部坐标系），然后给出当地计算距离的方法。因此，上述公式正是说，在位置$(x^1, x^2)$处计算向量$(dx^1, dx^2)$的长度的公式（当地的勾股定理）是$ds^2 = E(x^1, x^2)(dx^1)^2 + 2F(x_1, x_2)dx^1 dx^2 + G(x^1, x^2)(dx^2)^2$。

点击阅读全文...

分类：数学研究标签：变换, 几何, 黎曼几何阅读全文 8 评论

21 Oct

【理解黎曼几何】7. 高斯-博内公式

By 苏剑林 | 2016-10-21 | 40136位读者 | 引用

令人兴奋的是，我们导出黎曼曲率的途径，还能够让我们一瞥高斯-博内公式（ Gauss–Bonnet formula）的风采，真正体验一番研究内蕴几何的味道。

高斯-博内公式是大范围微分几何学的一个经典的公式，它建立了空间的局部性质和整体性质之间的联系。而我们从一条几何的路径出发，结合一些矩阵变换和数学分析的内容，逐步导出了测地线、协变导数、曲率张量，现在可以还可以得到经典的高斯-博内公式，可见我们在这条路上已经走得足够远了。虽然过程不尽善尽美，然而并没有脱离这个系列的核心：几何直观。本文的目的，正是分享黎曼几何的一种直观思路，既然是思路，以思想交流为主，不以严格证明为目的。因此，对于大家来说，这个系列权当黎曼几何的补充材料吧。

形式改写

首先，我们可以将式$(48)$重写为更有几何意义的形式。从

点击阅读全文...

分类：数学研究标签：几何, 黎曼几何阅读全文抢沙发

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

从Boosting学习到神经网络：看山是山？

AdaBoost算法

【中文分词系列】 4. 基于双向LSTM的seq2seq字标注

关于字标注法

双向LSTM

【中文分词系列】 2. 基于切分的新词发现

进驻中山大学南校区，折腾校园网

基于双向LSTM和迁移学习的seq2seq核心实体识别

【中文分词系列】 5. 基于语言模型的无监督分词

语言模型

【理解黎曼几何】2. 从勾股定理到黎曼度量

黎曼度量

【理解黎曼几何】7. 高斯-博内公式

形式改写

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接