天体力学巨匠——拉普拉斯
By 苏剑林 | 2012-11-16 | 49346位读者 | 引用本文其实好几个月前就已经写好了,讲的是我最感兴趣的天体力学领域的故事,已经发表在2012年11月的《天文爱好者》上。
作为一本天文科普杂志,《天文爱好者》着眼于普及天文,内容偏向于有趣的天体物理等,比较少涉及到天体力学。事实上,在天文发展史中,天体力学——研究天体纯粹在万有引力作用下演化的科学——占据了相当重要的地位。过去,天文就被划分为天体力学、天体物理以及天体测量学三个大块。只是在近现代,由于电子计算机的飞速发展,天体力学的多数问题都交给了计算机数值计算解决,因此这一领域逐渐淡出了人们视野。不过,回味当初那段天体力学史,依然让我们觉得激动人心。
首先引入“天体力学(Celestial mechanics)”这一术语的是法国著名数学家、天文巨匠拉普拉斯。他的全名为皮埃尔?西蒙?拉普拉斯(Pierre?Simon marquis de Laplace),因研究太阳系稳定性的动力学问题被誉为法国的牛顿和天体力学之父。他和生活在同一时代的法国著名数学家拉格朗日以及勒让德(Adrien-Marie Legendre)并称为“三L”。
神秘的少年时期
由于1925年的一场大火,很多拉普拉斯的生活细节资料都丢失了。根据W. W. Rouse Ball的说法,他可能是一个普通农民或农场工人的儿子,1749年3月23日出生于诺曼底卡尔瓦多斯省的伯蒙特恩奥格。少年时期,拉普拉斯凭借着自己的才能和热情,在富人邻居的帮助下完成了学业。他父亲希望这能使他将来以宗教为业,16岁时,他被送往卡昂大学读神学。但他很快在数学上显露头角。
这已经是去年写的稿件了,刊登在今年二月份的《天文爱好者》上,本文的标题还登载了该期天爱的封面上,当时甚是高兴呢!在此与大家分享、共勉。
相信许多天文爱好者都知道第一、第二、第三宇宙速度的概念,也会有不少的天爱自己动手计算过它们。我们道,只要发射速度达到7.9km/s,宇宙飞船就可以绕地球运行了;超过11.2km/s,就可以抛开地球,成为太阳系的一颗“人造行星”;再大一点,超过16.7km/s,那么就连太阳也甩掉了,直奔深空。
16.7km/s,咋看上去并不大,因为地球绕太阳运行的速度已经是30km/s了,这个速度在宇宙中实在是太普通了。但是对于我们目前的技术来说,它大得有点可怕。维基百科上的资料显示,史上最强劲的火箭土星五号在运送阿波罗11号到月球时,飞船最终也只能加速到接近逃逸速度,即11.2km/s,而事实上第三宇宙速度已经是是目前人造飞行器的速度极限了。可是没有速度,我们就不能发射探测器去探索深空,那些科幻小说中的“星际移民”,就永远只能停留在小说上了。
欢聚兴隆,畅言科普
记信息时代的天文科普研讨会暨第三届宇宙驿站站长联谊会
在信息时代的今天,利用互联网相互交流以及查找各种资讯已经成为了许多天文爱好者的必经之道。同好们也许都浏览过牧夫天文论坛、星友空间站、空间天文网等天文科学网站,事实上,它们都源于一个共同的科普网站群体——宇宙驿站。正如她的名字所言,宇宙驿站是我们一大群天文爱好者在互联网上的“家”,她为我们这群热衷于网络科普的站长免费提供了稳定的网站空间。
宇宙驿站发起于2002年,是国家天文台LAMOST项目之一,迄今已经有近百位站长在上面“安家”。2013年6月28日到6月30日,我们这群站长齐聚兴隆,开展了一次别开生面的会议——“信息时代的天文科普研讨会暨第三届站长联谊会”。
【翻译】巨型望远镜:要继续,就得有牺牲!
By 苏剑林 | 2015-06-10 | 28523位读者 | 引用文章来自:新科学家,这是一篇关于30米望远镜(Thirty Meter Telescope,TMT)的新闻,起因是望远镜的制造遭到当地人的不满,当然背后的原因是很深远的,难以说清楚。更多有关TMT的新闻,可以阅读:http://www.ctmt.org/
夏威夷的巨型望远镜:要继续,就得有牺牲!
四分之一必须离开!在停止了两个月之后,夏威夷的巨型30米望远镜(Thirty Meter Telescope,TMT)重新回归到建设进程——但要牺牲其他望远镜。
由于夏威夷当地居民的抗议声越来越大,早在四月望远镜的建设工作就被迫暂停。与该望远镜相比,目前世界上所有的望远镜都相形见绌——它让能够让天文学家们凝视可见的宇宙的边缘。它位于许多夏威夷人认为是“神圣之地”的死火山莫纳克亚山,因此被夏威夷人认为是一种侮辱——尤其是在山顶已经有十多个望远镜了。
【语料】2500万中文三元组!
By 苏剑林 | 2017-04-24 | 93792位读者 | 引用闲聊
这两年,知识图谱、问答系统、聊天机器人等领域是越来越火了。知识图谱是一个很泛化的概念,在我看来,涉及到知识库的构建、检索、利用等机器学习相关的内容,都算知识图谱。当然,这也不是个什么定义,只是个人的直观感觉。
做知识图谱的读者都知道,三元组是结构化知识的一种方法,是做知识型问答系统的重要组成部分。对于英文领域,已经有一些较大的开源的三元组语料库,而很显然,中文目前还没有这样的语料库共享(哪怕有人爬取到了,也珍藏起来了)。笔者前段时间写了个百度百科的爬虫,爬了一段时间,抓了几百万个百度百科的词条。其中不少词条含有一些结构化的信息,直接抽取出来,就是有效的“三元组”了,可以用来做知识图谱。本文分享的三元组语料正是由此而来,共有2500万个三元组。
果壳中的条件随机场(CRF In A Nutshell)
By 苏剑林 | 2017-11-25 | 120219位读者 | 引用本文希望用尽可能简短的语言把CRF(条件随机场,Conditional Random Field)的原理讲清楚,这里In A Nutshell在英文中其实有“导论”、“科普”等意思(霍金写过一本《果壳中的宇宙》,这里东施效颦一下)。
网上介绍CRF的文章,不管中文英文的,基本上都是先说一些概率图的概念,然后引入特征的指数公式,然后就说这是CRF。所谓“概率图”,只是一个形象理解的说法,然而如果原理上说不到点上,你说太多形象的比喻,反而让人糊里糊涂,以为你只是在装逼。(说到这里我又想怼一下了,求解神经网络,明明就是求一下梯度,然后迭代一下,这多好理解,偏偏还弄个装逼的名字叫“反向传播”,如果不说清楚它的本质是求导和迭代求解,一下子就说反向传播,有多少读者会懂?)
好了,废话说完了,来进入正题。
逐标签Softmax
CRF常见于序列标注相关的任务中。假如我们的模型输入为$Q$,输出目标是一个序列$a_1,a_2,\dots,a_n$,那么按照我们通常的建模逻辑,我们当然是希望目标序列的概率最大
$$P(a_1,a_2,\dots,a_n|Q)$$
不管用传统方法还是用深度学习方法,直接对完整的序列建模是比较艰难的,因此我们通常会使用一些假设来简化它,比如直接使用朴素假设,就得到
$$P(a_1,a_2,\dots,a_n|Q)=P(a_1|Q)P(a_2|Q)\dots P(a_n|Q)$$
新词发现的信息熵方法与实现
By 苏剑林 | 2015-10-26 | 115367位读者 | 引用在本博客的前面文章中,已经简单提到过中文文本处理与挖掘的问题了,中文数据挖掘与英语同类问题中最大的差别是,中文没有空格,如果要较好地完成语言任务,首先得分词。目前流行的分词方法都是基于词库的,然而重要的问题就来了:词库哪里来?人工可以把一些常用的词语收集到词库中,然而这却应付不了层出不穷的新词,尤其是网络新词等——而这往往是语言任务的关键地方。因此,中文语言处理很核心的一个任务就是完善新词发现算法。
新词发现说的就是不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段。前两天我去小虾的公司膜拜,并且试着加入了他们的一个开发项目中,主要任务就是网络文章处理。因此,补习了一下新词发现的算法知识,参考了Matrix67.com的文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》,尤其是里边的信息熵思想,并且根据他的思路,用Python写了个简单的脚本。
高三高考用考场,我们就放假了。无奈高三正兴致勃勃地写着作文的同时,我们这群“低年级”也得写作文。这一次作文是标题作文——《人与路》
人与路的关系是什么?是人在走路,还是路在指引着人?
不同的人会有不同的答案。但是在我看来,智者总在走路,而愚者却在“被走路”。走路的人清楚自己的方向,敢于追逐自己所喜欢的,拥有无畏的精神;“被走路”的人无法找到心中的罗盘,就好比云雾中的星光,飘忽不定。两个人的路的终点都是一样的,只是一个人走到了,一个人没有走到。
当我们在人生的大海中航行时,我们是否能够认识到,我们究竟在“走路”还是“被走路”呢?只有自己走路,才能够更好地追逐自己的梦想,使自己的人生更上一层楼!
最近评论