新词发现的信息熵方法与实现
By 苏剑林 | 2015-10-26 | 110585位读者 | 引用在本博客的前面文章中,已经简单提到过中文文本处理与挖掘的问题了,中文数据挖掘与英语同类问题中最大的差别是,中文没有空格,如果要较好地完成语言任务,首先得分词。目前流行的分词方法都是基于词库的,然而重要的问题就来了:词库哪里来?人工可以把一些常用的词语收集到词库中,然而这却应付不了层出不穷的新词,尤其是网络新词等——而这往往是语言任务的关键地方。因此,中文语言处理很核心的一个任务就是完善新词发现算法。
新词发现说的就是不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段。前两天我去小虾的公司膜拜,并且试着加入了他们的一个开发项目中,主要任务就是网络文章处理。因此,补习了一下新词发现的算法知识,参考了Matrix67.com的文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》,尤其是里边的信息熵思想,并且根据他的思路,用Python写了个简单的脚本。
以自然数幂为系数的幂级数
By 苏剑林 | 2010-10-16 | 31809位读者 | 引用$\sum_{i=0}^{\infty} a_i x^i=a_0+a_1 x+a_2 x^2+a_3 x^3+...$
最近为了数学竞赛,我研究了有关数列和排列组合的相关问题。由于我讨厌为某个问题而设计专门的技巧,所以我偏爱通用的方法,哪怕过程相对麻烦。因此,我对数学归纳法(递推法)和生成函数法情有独钟。前者只需要列出问题的递归关系,而不用具体分析,最终把问题转移到解函数方程上来。后者则巧妙地把数列${a_n}$与幂级数$\sum_{i=0}^{\infty} a_i x^i$一一对应,巧妙地通过代数运算或微积分运算等得到结果。这里我们不用考虑该级数的敛散性,只需要知道它对应着哪一个“母函数”(母函数展开泰勒级数后得到了级数$\sum_{i=0}^{\infty} a_i x^i$)。显然,这两种方法的最终,都是把问题归结为代数问题。
当酸溶液遇到了更多的水时...
By 苏剑林 | 2010-10-31 | 25397位读者 | 引用N体问题的30个周期性解
By 苏剑林 | 2010-12-19 | 56913位读者 | 引用[SETI-50周年]送给外星人的礼物
By 苏剑林 | 2011-02-06 | 35661位读者 | 引用转载自2011年1月的《天文爱好者》 作者:钟晚晴
生命出现是天体演化的必然结果
15世纪时,欧洲的文艺复兴运动引起了人们宇宙观的大革命。哥白尼学说的主要传播者之一,意大利思想家布魯诺毫不含糊地宣扬日心说并且提及“外星人”是否存在问题,他这样写到:“宇宙中存在着无数的太阳,存在着无数绕自己太阳运转的地球,就像我们的七个行星绕着我们的太陌运转似的……。在这些世界上居住着各种生物。”科学大师伽利略率先把望远镜指向星空,继而几百年以来有了一系列天文发现。太空视野的大幵阔常引发人类这样的追问:除了地球之外,茫茫宇宙中还存在别的文明星球吗?如果存在,能否找到人类的知音一智慧生命?
科学家通过研究地球化石发现,早在35亿年前地球上就已有了一种发育得比较高级的单细胞生物,即蓝藻类;根据恒星演化理论以及对地球上古老岩石和陨星物质分析知道,太阳和地球的形成比这种生物的出现至少还要早约十几亿年左右。太阳系自原始星云形成后大约经过50亿年地球上才有人类。此外,科学考察表明,在最近五亿年来(根据化石考查)已经有过五次生命大灭绝,人类是五亿年来最后一次灭绝以后从猿进化而来。天体的环境变化往往决定着许许多多生命的命运,例如6500万年前恐龙的绝灭,据说就是遭遇了寒冷的冰期或地球被一颗直径十几千米的小天体撞击的结果。
从20世纪初以来,天文学的研究成果是显著的,例如关于银河系的许多发现,河外星系及宇宙膨胀的发现,特别是后来发现类星体、星际分子、脉冲星、河外星系超新星爆发等等。在进入空间科学和电子计算机科学时代以来,人们对宇宙天体的研究更加深入,每年都有许多新的天体被发现、探究。
[欧拉数学]素数有无穷多个的两个证明
By 苏剑林 | 2011-10-02 | 72668位读者 | 引用素数是数的基本单元,就如同高楼大厦中的砖块一样。显然,素数有无穷多个是数论研究价值的前提。不然,数的研究就局限在有限个素数之内,那么很多数字就会失去了它们的魅力。就好比只有有限块砖头,就不能创建出建筑的奇迹一般。下面介绍两个关于素数无穷的经典证明,其中一个是欧几里得的证明,这是最原始、最简单的证法,相信很多读者已经学习过了,在此还是要提一下;另外一个是我在《怎样解题》中看到的,原作者是欧拉,也是一个非常美妙的证明。当然,本文强调的思想,论证过程可能会有一些不严谨的地方,请读者完善^_^
一、欧几里得证明
这个证明思想非常简单:若干个素数的积加上1后会产生新的素数因子。要是素数只有n个,那么我们就把它们相乘,然后加上1,得到的将会是什么呢?如果是一个素数,那么将会与素数只有n个矛盾;如果是一个合数,它除以原来的n个素数都不是整数,那么它就会拥有新的素数因子了,这还是和只有n个素数矛盾。不论哪种情况,只有素数有限,就会得出矛盾,于是素数必然是无限的。
[欧拉数学]黎曼ζ函数
By 苏剑林 | 2011-11-18 | 51326位读者 | 引用欧拉数学的魅力在于,它运用类比的方法,把各个看似毫无关联的领域联系了起来,生动而巧妙地得出了正确的结果。他对$\frac{1}{1^2}+\frac{1}{2^2}+\frac{1}{3^2}+\frac{1}{4^2}+...=\frac{\pi^2}{6}$的计算便是一个典型的例子。虽然论证过程未必严谨,但是那“神奇”的推导已经令我们拍案叫绝,而且往往发人深思。这种效果通常是严格论证难以实现的,它不仅给予我们答案,而且还给予了我们启迪:新的思想,新的方向;有时,它还揭示了各个学科之间内在而深刻的联系。下面我们来观察一下数论中的“黎曼ζ函数”和“金钥匙”!
黎曼ζ函数指的是:
$$\xi (s)=\sum_{n=1}^{\infty} \frac{1}{n^s}=\frac{1}{1^s}+\frac{1}{2^s}+\frac{1}{3^s}+\frac{1}{4^s}+...$$
本来s应该是一个实数,但是将复分析引入数论后,将s推广至复数具有更大的研究价值。
最近评论