Processing math: 100%
26 Oct

新词发现的信息熵方法与实现

在本博客的前面文章中,已经简单提到过中文文本处理与挖掘的问题了,中文数据挖掘与英语同类问题中最大的差别是,中文没有空格,如果要较好地完成语言任务,首先得分词。目前流行的分词方法都是基于词库的,然而重要的问题就来了:词库哪里来?人工可以把一些常用的词语收集到词库中,然而这却应付不了层出不穷的新词,尤其是网络新词等——而这往往是语言任务的关键地方。因此,中文语言处理很核心的一个任务就是完善新词发现算法。

新词发现说的就是不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段。前两天我去小虾的公司膜拜,并且试着加入了他们的一个开发项目中,主要任务就是网络文章处理。因此,补习了一下新词发现的算法知识,参考了Matrix67.com的文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》,尤其是里边的信息熵思想,并且根据他的思路,用Python写了个简单的脚本。

点击阅读全文...

31 Dec

网站PR升到3了!

哈哈,在2009年最后一天,还发现了一件好事情:
Spaces.Ac.cn的Google PR已经升到了3了!

PR查询

建立“科学空间”网站,也可以算是2009年做的最重要、最成功的事情之一了。在“宇宙驿站”的支持下,慢慢地建立起来,然后经过多次转换,从原先的转载到现在的撰写,现在已经基本定型,保持每周至少更新一次。

点击阅读全文...

8 Dec

哥本哈根气候大会召开情况

开始了,成与否,期待吧!
我们能够做的,也只有期待......

简介
12月7日起,192个国家的环境部长和其他官员们将在哥本哈根召开联合国气候会议,商讨《京都议定书》一期承诺到期后的后续方案,就未来应对气候变化的全球行动签署新的协议。这是继《京都议定书》后又一具有划时代意义的全球气候协议书,毫无疑问,对地球今后的气候变化走向产生决定性的影响。这是一次被喻为“拯救人类的最后一次机会”的会议。会议将在现代化的Bella中心举行,为期两周。联合国气候会议一年召开一次,其前身为1992年在里约热内卢召开的地球峰会,地球峰会的目的是协调应对气候变化而采取的国际行动。

点击阅读全文...

31 Jan

星座计划“破产”,重返月球搁浅

法新社报道说,一名不愿意透露姓名的白宫顾问说,“(重返月球的)星座计划已经死亡。”

新一代探月飞行器假想图

新一代探月飞行器假想图

28日,美国官员透露,布什政府于2004年通过的、计划耗资高达2300亿美元的“重返月球”计划实际上已经被美国总统奥巴马搁浅了。相反,奥巴马在未来五年将向美国国家航空航天局(NASA)拨款59亿美元,其中一部分将用于延长国际太空站的使用寿命至2020年,另外还将用于在航天飞机退役后,鼓励私人公司研制航天器来向空间站运送宇航员。随着“重返月球”计划的终结,新一代“土星”系列火箭、登月飞船、月球车等一系列相关设备的研制计划也将终止,可以在很大程度上减轻美国政府的财政压力。

点击阅读全文...

4 Feb

大气光学质量(Airmass)

天文学中有一个名词Airmass,注意这并非Air mass(空气质量),这是指天顶距等于z的方向上大气光学厚度和天顶方向大气光学厚度之比,我目前也找不到它的中文名称究竟是什么,反正觉得如果译成“大气质量”很怪,就暂且翻译成“大气厚度指数”好了。现在知道它叫做“大气光学质量”了,一般用X表示,如下图中,X=BC/AC

星光传播示意图

星光传播示意图

在一片较小的区域内,大气层和地面都可以视为平行平面,这时有一个很好的近似公式:
X=secz


对于现在的中学教材来说,有的读者可能不了解\sec为何物,实际上:secz=1cosz

点击阅读全文...

4 Feb

400多本数学电子书籍(供下载)

转自:http://bbs.emath.ac.cn/redirect.php?tid=1989

来源:http://cid-ec227156e4cad4ab.profile.live.com/

不论是对于学习高等数学还是初中数学,里面都有不少数学精品。BoJone一发现,便用Thunder下了一大堆(正好满足了我加强“数学分析”的需要),并立即与大家分享了。资源储存在微软的网盘,按常理来说不存在链接失效的问题,不过BoJone建议需要的读者还是尽快下载到自己的电脑上,毕竟这样更加保险,因为或许哪一天作者不愿意共享了,那就“走宝”了,呵呵。

点击阅读全文...

27 Mar

《方程与宇宙》:活力积分和开普勒方程(二)

二体运动

二体运动

上一回的讨论中,我们已经解决了大部分的问题,并且表达了找到r或者θ关于时间t的函数的希望。在最后的内容中,我们做了以下工作:

由(7)得到˙θ=h/r2,代入(6)得到:
¨rh2/r3=μr2
这是一个二阶微分方程,它的解很容易找出,但是这个积分太复杂:
˙rd˙rdr=h2/r3μr2

˙rd˙r=(h2/r3μr2)dr,两端积分
˙r2=2μ/rh2/r2+K1
dt/dr=rK1r2+2μrh2

t=rK1r2+2μrh2dr

点击阅读全文...

3 Apr

《方程与宇宙》:抛物线与双曲线轨道(三)

圆锥曲线

圆锥曲线

经过上两回的讨论,我们已经基本摸清了二体问题的运动情况。我们已经找到了二体问题在轨道为椭圆的时候的所有积分,给出了“活力公式”等常用公式的证明,并且留下了一些没有解答的问题。那就是在轨道为抛物线和双曲线时的最后一个积分还没有找出来,现在我们解决这两个问题。其中的关键积分依旧是
˙r2=2μ/rμa(1e2)/r2μa——(12)

点击阅读全文...