最新调查解“毒”珠江:工业水污染触目惊心!
By 苏剑林 | 2009-10-30 | 22703位读者 | 引用“战神”升空看它到底有多神?
By 苏剑林 | 2009-10-31 | 23421位读者 | 引用钱学森:人生书写时代
By 苏剑林 | 2009-10-31 | 19259位读者 | 引用美国科学家用3000幅照片拼接夜空全景
By 苏剑林 | 2009-11-03 | 18100位读者 | 引用新词发现的信息熵方法与实现
By 苏剑林 | 2015-10-26 | 115551位读者 | 引用在本博客的前面文章中,已经简单提到过中文文本处理与挖掘的问题了,中文数据挖掘与英语同类问题中最大的差别是,中文没有空格,如果要较好地完成语言任务,首先得分词。目前流行的分词方法都是基于词库的,然而重要的问题就来了:词库哪里来?人工可以把一些常用的词语收集到词库中,然而这却应付不了层出不穷的新词,尤其是网络新词等——而这往往是语言任务的关键地方。因此,中文语言处理很核心的一个任务就是完善新词发现算法。
新词发现说的就是不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段。前两天我去小虾的公司膜拜,并且试着加入了他们的一个开发项目中,主要任务就是网络文章处理。因此,补习了一下新词发现的算法知识,参考了Matrix67.com的文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》,尤其是里边的信息熵思想,并且根据他的思路,用Python写了个简单的脚本。
精确自由落体运动定律的讨论
By 苏剑林 | 2009-12-26 | 41123位读者 | 引用《积分公式大全》电子书
By 苏剑林 | 2010-01-23 | 76060位读者 | 引用注:2019.02.13 由科学空间苏剑林(https://kexue.fm)更新,修正公式76,并简化latex。
物理、天文研究得深入了,微积分的应用自然也就多了(其实很多内容都用到微积分)。所以弄出一个几何或者力学问题,随手就列出一道积分或者微分方程,这时求解是最重要的。对于我来说,求导数可以娓娓道来,轻松而得;而积分则比较困难(这与个人的技巧有关,更重要的是事实:导数几乎有通用的公式,而积分只能“凑”出来)。
因此,很多积分干脆依靠现成的公式,懒得去推导了。然后,并非随时随地都有《数学分析》在手的,对计算机数学软件的实用又不大熟悉,这时候只能够求助这一本《积分表》了。只要不是故意去钻那些竞赛级别的数学难题,这已经足够应付物理等方面的应用了。
这时候就这也不用愁到处找$\int \sqrt{a^2-x^2}dx$的结果了。
星座计划“破产”,重返月球搁浅
By 苏剑林 | 2010-01-31 | 18962位读者 | 引用法新社报道说,一名不愿意透露姓名的白宫顾问说,“(重返月球的)星座计划已经死亡。”
28日,美国官员透露,布什政府于2004年通过的、计划耗资高达2300亿美元的“重返月球”计划实际上已经被美国总统奥巴马搁浅了。相反,奥巴马在未来五年将向美国国家航空航天局(NASA)拨款59亿美元,其中一部分将用于延长国际太空站的使用寿命至2020年,另外还将用于在航天飞机退役后,鼓励私人公司研制航天器来向空间站运送宇航员。随着“重返月球”计划的终结,新一代“土星”系列火箭、登月飞船、月球车等一系列相关设备的研制计划也将终止,可以在很大程度上减轻美国政府的财政压力。
最近评论