10 Dec

Muon优化器赏析:从向量到矩阵的本质跨越

随着LLM时代的到来,学术界对于优化器的研究热情似乎有所减退。这主要是因为目前主流的AdamW已经能够满足大多数需求,而如果对优化器“大动干戈”,那么需要巨大的验证成本。因此,当前优化器的变化,多数都只是工业界根据自己的训练经验来对AdamW打的一些小补丁。

不过,最近推特上一个名为“Muon”的优化器颇为热闹,它声称比AdamW更为高效,且并不只是在Adam基础上的“小打小闹”,而是体现了关于向量与矩阵差异的一些值得深思的原理。本文让我们一起赏析一番。

Muon与AdamW效果对比(来源:推特@Yuchenj_UW)

Muon与AdamW效果对比(来源:推特@Yuchenj_UW)

点击阅读全文...

20 Mar

《方程与宇宙》:二体问题的来来去去(一)

二体问题的轨道模拟

二体问题的轨道模拟

为了让大家能够查询到“天体力学”方面的内容,同时锻炼我的表达和计算能力,BoJone构思了《方程与宇宙》这个主题,主要是写一些关于使用数学相对深入地讨论一些天文问题。其实我一直觉得,不用公式是无法完美地描述科学的(当然也不能纯公式),我记得霍金的《时间简史》以及《果壳中的宇宙》等之类的书,都力求不用或者尽可能少用数学公式来表达自己的观点。这种模式对于对于公众来说是很好的,但是对于希望深入研究的朋友来说却难以进行。所以我主张:宇宙是算出来的!

这个主题每一个字都是由BoJone敲击出来的,其中包括引用了《天体力学引论》里面的一些内容,以及加入了BoJone个人的一些见解。由于篇幅长及时间有限问题,BoJone打算分若干次撰写发布,并且尽可能写得通俗一点,力求让有一点微积分基础的朋友就可以弄懂。这里首先发布第一部分。由于时间匆忙等原因,可能会出现一些疏忽,欢迎大家挑错!

点击阅读全文...

27 Jun

威力巨大的“有向线段”

向量

向量

向量,又称矢量,定义为线性空间中需要大小和方向才能完整表示的一个量。而对于我们来说,还是使用最简单的概念比较合适:向量就是“有向线段”。向量这一概念,来源于物理,而又不仅仅应用于物理。向量的出现,使得几何学和物理学的发展又多了一个强有力的工具,记得有一句这样的话:“对数的出现,延长了天文学家的寿命。”而我可以毫不夸张地说,向量的发展,也在不断地延长着数学家和物理学家的寿命!

点击阅读全文...

7 Nov

为什么是抛物线?——聚光面研究

很多读者都知道,反射望远镜、射电望远镜、太阳能集热器等都有一个抛物状的面,它们都是利用了抛物面能将平行射入的光汇聚到一个点(焦点)上的性质。如果问为什么抛物面具有此性质,相信很多高中生都可以利用抛物线的相关知识来证明。但是,如果反过来问:为什么具有此性质的曲面是抛物面?相信会难倒一部分读者。我们来尝试寻找这一曲线(由于对称的原因,这个曲面可以看作由曲线旋转而成,因此我们可以研究曲线)。

世上最大单孔径射电望远镜

世上最大单孔径射电望远镜

点击阅读全文...

13 Nov

意犹未尽——继续光学曲线

《为什么是抛物线?——聚光面研究》这篇文章里头,我们从光学性质出发,推导出了符合该光学性质的曲线为抛物线,同时我们也不禁感到了向量分析的美妙。也许有的读者会意犹未尽:圆锥曲线有三种,文章只介绍了一种。那好,在这篇文章里,我们就从另外两个光学性质出发,推导出符合这两个光学性质的曲线(椭圆、双曲线)。

(注:在下面的描述中,橙色加粗向量表示光线,曲线表示反射面。)

一、从一个点发出的光线经过曲线(面)反射后汇集到另外一个点上。

椭圆的光学性质

椭圆的光学性质

点击阅读全文...

1 Jan

你好,2011!

happy.gif

2010已经成为历史了,在2011的第一天,BoJone祝大家新年快乐,生活、学习、工作都更上一层楼!我愿一直与大家探讨科学,分享科学!

一直想好好地总结一下过去的一年内的事情,无奈事情太多,一拖再拖。其实在2010年里,最值得纪念的当然就是完完整整地经历了一次天文竞赛。从3月的预选,到五月的宁夏固原决赛,接着是7月的北京集训,最后是9月下旬的北京IOAA。一步步走来的足迹,浮现在脑海,历历在目。

点击阅读全文...

8 Jan

三连杆装置曲线方程

本创意装置来自牧夫天文论坛的zhangyf1997同好。

三连杆装置——“鱼”

三连杆装置——“鱼”

结构:
1、A、B为两定点,可看作有刚性杆连接;
2、AC为动力杆,绕点A转动;
3、BD为从动杆,CD为连杆。

长度数据:
1、CD=AB=$\sqrt{2}$;
2、AC=BD=1。
3、E是CD中点

求:E点的轨迹方程(即图中黑色那条,很有趣吧?)

点击阅读全文...

20 Jan

《方程与宇宙》:三体问题和它的初积分(六)

The Three Body Problem and its Classical Integration

很多天文爱好者都已经接触到了“二体问题”(我们在高中学习到的“开普勒三定律”就是内容之一),由于在太阳系中行星质量相对较小而且距离相对较远,应用“二体问题”的解对天体进行计算、预报等能够满足一定的近似需求。不过,如果需要更高精度的计算,就不能把其他行星的引力给忽略掉了,于是就产生了所谓N体问题(N-Body Problem),即N个质点尽在它们各自引力的相互作用下的运动规律问题。最简单的二体已经被彻底解决,而三体或更多体的问题则与二体大相径庭,因为庞加莱证明了,三体问题不能严格求解,而且这是一个混沌系统,任何微小的扰动都会造成不可预期的效果。

根据牛顿力学,选择惯性参考系,设三个质点分别为$M_1,M_2,M_3$,向径分别为$\vec{r_1},\vec{r_2},\vec{r_3}$,可以列出运动方程(以下的导数都默认是对时间t求导)

点击阅读全文...