通过前几篇文章的推导和计算,我们可以发现,第一篇《MuP之上:1. 好模型的三个特征》所提的三个稳定性指标通常可以分为“参数稳定性”和“增量稳定性”两部分,而在《MuP之上:2. 线性层与最速下降》《MuP之上:3. 特殊情况特殊处理》中,我们演示了将增量稳定性与最速下降结合来获得新的更新规则(优化器)的过程.

然而,对于参数稳定性,我们之前只是停留在初始化上。这篇文章的任务,正是探讨如何在整个训练过程中维持参数的稳定性,将理论的实践补充完整。

问题背景

《MuP之上:2. 线性层与最速下降》为例,三个稳定性指标分别是:

点击阅读全文...