2010年4月全球天文月(One People,One Sky)
By 苏剑林 | 2010-04-06 | 76723位读者 | 引用为什么是抛物线?——聚光面研究
By 苏剑林 | 2010-11-07 | 88376位读者 | 引用[SETI-50周年]茫茫宇宙觅知音
By 苏剑林 | 2011-02-03 | 19721位读者 | 引用转载自2011年1月的《天文爱好者》 作者:薛国轩
“多萝西计划”再探地外文明
据美国空间网站2010年11月13日报道,在人类“探索地外文明”(英文缩写为SETI)50周年纪念之际,世界多个国家的天文学家从本月起再度展开“且听外星人”的联合行动,以延续开始于1960年的“奥兹玛计划”。新的探索活动被命名为“多萝西计划”(Project Dorothy),已于11月5日正式启动,将持续整整一个月时间,来自澳大利亚、日本、韩国、意大利、荷兰、法国、阿根廷和美国的天文学家参与其中。他们将把大大小小的望远镜指向地球周围的一些星球,以期收听到外星人的“天外来音”。
《虚拟的实在(2)》——为什么引力如此复杂?
By 苏剑林 | 2013-06-07 | 31950位读者 | 引用上一篇文章里我已经从我自己的理解角度简单说了一下场论的必要性,这次让我们再次谈到这个话题,企图在文字层面上得到更深入的认识。
上一两周的时间,我一直在找资料,主要是线性引力的资料,并且发现了很多有趣的东西,在此一并与大家分享一下。首先,当我在Google中输入“线性引力”时,我发现了一本“奇书”,一本名副其实的“巨著”——《引力论》!洋洋1300多页的大作,三位“超级巨星”——C.W.麦思纳(Charles W.Misner)、K.S.索恩(Kip S.Thorne)、J.A.惠勒(John Archibald Wheeler)——联合编写,恐怕再也找不到哪本书可以PK它的“全明星阵容”了。该书英文名为Gravitation,中文是由台湾翻译的,繁体中文版。全书讲述了引力的研究历史和发展情况,更重要的是几乎每一处历史都给出了数学论证!最最重要的,作者惠勒还是跟爱因斯坦同一个研究时代的人,我们可以最真实的感受到那年代的研究。看到这里,我就迫不及待地想买了,由于各种原因,我们很难买到,到图书馆找,发现有英文版的,就马上借过来了,另外因为买不到中文版,我只好到网上买了电子版,然后打印出来了。不过不是很清晰,而且自我感觉中文翻译不是很好(当然,已经够我们阅读了)。
不求珍馐百味,但愿开水白菜
By 苏剑林 | 2014-03-15 | 39954位读者 | 引用【不可思议的Word2Vec】 3.提取关键词
By 苏剑林 | 2017-04-07 | 196375位读者 | 引用本文主要是给出了关键词的一种新的定义,并且基于Word2Vec给出了一个实现方案。这种关键词的定义是自然的、合理的,Word2Vec只是一个简化版的实现方案,可以基于同样的定义,换用其他的模型来实现。
说到提取关键词,一般会想到TF-IDF和TextRank,大家是否想过,Word2Vec还可以用来提取关键词?而且,用Word2Vec提取关键词,已经初步含有了语义上的理解,而不仅仅是简单的统计了,而且还是无监督的!
什么是关键词?
诚然,TF-IDF和TextRank是两种提取关键词的很经典的算法,它们都有一定的合理性,但问题是,如果从来没看过这两个算法的读者,会感觉简直是异想天开的结果,估计很难能够从零把它们构造出来。也就是说,这两种算法虽然看上去简单,但并不容易想到。试想一下,没有学过信息相关理论的同学,估计怎么也难以理解为什么IDF要取一个对数?为什么不是其他函数?又有多少读者会破天荒地想到,用PageRank的思路,去判断一个词的重要性?
说到底,问题就在于:提取关键词和文本摘要,看上去都是一个很自然的任务,有谁真正思考过,关键词的定义是什么?这里不是要你去查汉语词典,获得一大堆文字的定义,而是问你数学上的定义。关键词在数学上的合理定义应该是什么?或者说,我们获取关键词的目的是什么?
更别致的词向量模型(五):有趣的结果
By 苏剑林 | 2017-11-19 | 86175位读者 | 引用最后,我们来看一下词向量模型$(15)$会有什么好的性质,或者说,如此煞费苦心去构造一个新的词向量模型,会得到什么回报呢?
模长的含义
似乎所有的词向量模型中,都很少会关心词向量的模长。有趣的是,我们上述词向量模型得到的词向量,其模长还能在一定程度上代表着词的重要程度。我们可以从两个角度理解这个事实。
在一个窗口内的上下文,中心词重复出现概率其实是不大的,是一个比较随机的事件,因此可以粗略地认为
\[P(w,w) \sim P(w)\tag{24}\]
所以根据我们的模型,就有
\[e^{\langle\boldsymbol{v}_{w},\boldsymbol{v}_{w}\rangle} =\frac{P(w,w)}{P(w)P(w)}\sim \frac{1}{P(w)}\tag{25}\]
所以
\[\Vert\boldsymbol{v}_{w}\Vert^2 \sim -\log P(w)\tag{26}\]
可见,词语越高频(越有可能就是停用词、虚词等),对应的词向量模长就越小,这就表明了这种词向量的模长确实可以代表词的重要性。事实上,$-\log P(w)$这个量类似IDF,有个专门的名称叫ICF,请参考论文《TF-ICF: A New Term Weighting Scheme for Clustering Dynamic Data Streams》。
最小熵原理(二):“当机立断”之词库构建
By 苏剑林 | 2018-04-24 | 81439位读者 | 引用在本文,我们介绍“套路宝典”第一式——“当机立断”:1、导出平均字信息熵的概念,然后基于最小熵原理推导出互信息公式;2、并且完成词库的无监督构建、给出一元分词模型的信息熵诠释,从而展示有关生成套路、识别套路的基本方法和技巧。
这既是最小熵原理的第一个使用案例,也是整个“套路宝典”的总纲。
你练或者不练,套路就在那里,不增不减。
为什么需要词语
从上一篇文章可以看到,假设我们根本不懂中文,那么我们一开始会将中文看成是一系列“字”随机组合的字符串,但是慢慢地我们会发现上下文是有联系的,它并不是“字”的随机组合,它应该是“套路”的随机组合。于是为了减轻我们的记忆成本,我们会去挖掘一些语言的“套路”。第一个“套路”,是相邻的字之间的组合定式,这些组合定式,也就是我们理解的“词”。
平均字信息熵
假如有一批语料,我们将它分好词,以词作为中文的单位,那么每个词的信息量是$-\log p_w$,因此我们就可以计算记忆这批语料所要花费的时间为
$$-\sum_{w\in \text{语料}}\log p_w\tag{2.1}$$
这里$w\in \text{语料}$是对语料逐词求和,不用去重。如果不分词,按照字来理解,那么需要的时间为
$$-\sum_{c\in \text{语料}}\log p_c\tag{2.2}$$
最近评论