新词发现的信息熵方法与实现
By 苏剑林 | 2015-10-26 | 115943位读者 | 引用在本博客的前面文章中,已经简单提到过中文文本处理与挖掘的问题了,中文数据挖掘与英语同类问题中最大的差别是,中文没有空格,如果要较好地完成语言任务,首先得分词。目前流行的分词方法都是基于词库的,然而重要的问题就来了:词库哪里来?人工可以把一些常用的词语收集到词库中,然而这却应付不了层出不穷的新词,尤其是网络新词等——而这往往是语言任务的关键地方。因此,中文语言处理很核心的一个任务就是完善新词发现算法。
新词发现说的就是不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段。前两天我去小虾的公司膜拜,并且试着加入了他们的一个开发项目中,主要任务就是网络文章处理。因此,补习了一下新词发现的算法知识,参考了Matrix67.com的文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》,尤其是里边的信息熵思想,并且根据他的思路,用Python写了个简单的脚本。
哥本哈根气候大会召开情况
By 苏剑林 | 2009-12-08 | 16880位读者 | 引用开始了,成与否,期待吧!
我们能够做的,也只有期待......
简介
12月7日起,192个国家的环境部长和其他官员们将在哥本哈根召开联合国气候会议,商讨《京都议定书》一期承诺到期后的后续方案,就未来应对气候变化的全球行动签署新的协议。这是继《京都议定书》后又一具有划时代意义的全球气候协议书,毫无疑问,对地球今后的气候变化走向产生决定性的影响。这是一次被喻为“拯救人类的最后一次机会”的会议。会议将在现代化的Bella中心举行,为期两周。联合国气候会议一年召开一次,其前身为1992年在里约热内卢召开的地球峰会,地球峰会的目的是协调应对气候变化而采取的国际行动。
星座计划“破产”,重返月球搁浅
By 苏剑林 | 2010-01-31 | 19014位读者 | 引用法新社报道说,一名不愿意透露姓名的白宫顾问说,“(重返月球的)星座计划已经死亡。”
28日,美国官员透露,布什政府于2004年通过的、计划耗资高达2300亿美元的“重返月球”计划实际上已经被美国总统奥巴马搁浅了。相反,奥巴马在未来五年将向美国国家航空航天局(NASA)拨款59亿美元,其中一部分将用于延长国际太空站的使用寿命至2020年,另外还将用于在航天飞机退役后,鼓励私人公司研制航天器来向空间站运送宇航员。随着“重返月球”计划的终结,新一代“土星”系列火箭、登月飞船、月球车等一系列相关设备的研制计划也将终止,可以在很大程度上减轻美国政府的财政压力。
大气光学质量(Airmass)
By 苏剑林 | 2010-02-04 | 37896位读者 | 引用天文学中有一个名词Airmass,注意这并非Air mass(空气质量),这是指天顶距等于z的方向上大气光学厚度和天顶方向大气光学厚度之比,我目前也找不到它的中文名称究竟是什么,反正觉得如果译成“大气质量”很怪,就暂且翻译成“大气厚度指数”好了。现在知道它叫做“大气光学质量”了,一般用X表示,如下图中,X=BC/AC。
在一片较小的区域内,大气层和地面都可以视为平行平面,这时有一个很好的近似公式:
X=secz
对于现在的中学教材来说,有的读者可能不了解\sec为何物,实际上:secz=1cosz
400多本数学电子书籍(供下载)
By 苏剑林 | 2010-02-04 | 85165位读者 | 引用转自:http://bbs.emath.ac.cn/redirect.php?tid=1989
来源:http://cid-ec227156e4cad4ab.profile.live.com/
不论是对于学习高等数学还是初中数学,里面都有不少数学精品。BoJone一发现,便用Thunder下了一大堆(正好满足了我加强“数学分析”的需要),并立即与大家分享了。资源储存在微软的网盘,按常理来说不存在链接失效的问题,不过BoJone建议需要的读者还是尽快下载到自己的电脑上,毕竟这样更加保险,因为或许哪一天作者不愿意共享了,那就“走宝”了,呵呵。
最近评论