2012年,地球完蛋了?
By 苏剑林 | 2009-10-25 | 30672位读者 | 引用最新调查解“毒”珠江:工业水污染触目惊心!
By 苏剑林 | 2009-10-30 | 22172位读者 | 引用新词发现的信息熵方法与实现
By 苏剑林 | 2015-10-26 | 112926位读者 | 引用在本博客的前面文章中,已经简单提到过中文文本处理与挖掘的问题了,中文数据挖掘与英语同类问题中最大的差别是,中文没有空格,如果要较好地完成语言任务,首先得分词。目前流行的分词方法都是基于词库的,然而重要的问题就来了:词库哪里来?人工可以把一些常用的词语收集到词库中,然而这却应付不了层出不穷的新词,尤其是网络新词等——而这往往是语言任务的关键地方。因此,中文语言处理很核心的一个任务就是完善新词发现算法。
新词发现说的就是不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段。前两天我去小虾的公司膜拜,并且试着加入了他们的一个开发项目中,主要任务就是网络文章处理。因此,补习了一下新词发现的算法知识,参考了Matrix67.com的文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》,尤其是里边的信息熵思想,并且根据他的思路,用Python写了个简单的脚本。
哥本哈根气候大会召开情况
By 苏剑林 | 2009-12-08 | 16526位读者 | 引用开始了,成与否,期待吧!
我们能够做的,也只有期待......
简介
12月7日起,192个国家的环境部长和其他官员们将在哥本哈根召开联合国气候会议,商讨《京都议定书》一期承诺到期后的后续方案,就未来应对气候变化的全球行动签署新的协议。这是继《京都议定书》后又一具有划时代意义的全球气候协议书,毫无疑问,对地球今后的气候变化走向产生决定性的影响。这是一次被喻为“拯救人类的最后一次机会”的会议。会议将在现代化的Bella中心举行,为期两周。联合国气候会议一年召开一次,其前身为1992年在里约热内卢召开的地球峰会,地球峰会的目的是协调应对气候变化而采取的国际行动。
哥本哈根没有“句号”,留下一个“逗号”
By 苏剑林 | 2009-12-20 | 16574位读者 | 引用新年新天象:2010年1月重要天象
By 苏剑林 | 2009-12-26 | 21717位读者 | 引用2010年全国天文奥赛终于可以报名了
By 苏剑林 | 2009-12-31 | 15933位读者 | 引用新年快乐:2010年2月重要天象
By 苏剑林 | 2010-01-27 | 20022位读者 | 引用精彩天象不断的一月刚刚过去,我们迎来了夜空相对寂寥的2月。对于我们来说,本月是今年天象最少的一个月。尽管如此,我们依旧十分喜庆——本月14日,是我国传统的新春佳节,在此科学空间祝大家新年快乐、工作顺利、生活愉快!
春节期间有几个月光干扰较少的暗夜。近几年不少城里人都喜欢在春节期间到乡村去体验更浓的年味,如果天气晴朗,晚上正好有机会可以看看美丽的星空,过一个欢乐而有意义的长假。 站长也是农村里的孩子,欢迎各位同好来访,站长定会招待。不过今年将近过了一个月了,我只看到过一晚的星星,其余的不是阴天就是下雨,太阳也没有见到几回。因此,欢迎大家来贺新年!
最近评论