低秩近似之路(二):SVD
By 苏剑林 | 2024-10-01 | 11611位读者 | 引用上一篇文章中我们介绍了“伪逆”,它关系到给定矩阵$\boldsymbol{M}$和$\boldsymbol{A}$(或$\boldsymbol{B}$)时优化目标$\Vert \boldsymbol{A}\boldsymbol{B} - \boldsymbol{M}\Vert_F^2$的最优解。这篇文章我们来关注$\boldsymbol{A},\boldsymbol{B}$都不给出时的最优解,即
\begin{equation}\mathop{\text{argmin}}_{\boldsymbol{A},\boldsymbol{B}}\Vert \boldsymbol{A}\boldsymbol{B} - \boldsymbol{M}\Vert_F^2\label{eq:loss-ab}\end{equation}
其中$\boldsymbol{A}\in\mathbb{R}^{n\times r}, \boldsymbol{B}\in\mathbb{R}^{r\times m}, \boldsymbol{M}\in\mathbb{R}^{n\times m},r < \min(n,m)$。说白了,这就是要寻找矩阵$\boldsymbol{M}$的“最优$r$秩近似(秩不超过$r$的最优近似)”。而要解决这个问题,就需要请出大名鼎鼎的“SVD(奇异值分解)”了。虽然本系列把伪逆作为开篇,但它的“名声”远不如SVD,听过甚至用过SVD但没听说过伪逆的应该大有人在,包括笔者也是先了解SVD后才看到伪逆。
接下来,我们将围绕着矩阵的最优低秩近似来展开介绍SVD。
结论初探
对于任意矩阵$\boldsymbol{M}\in\mathbb{R}^{n\times m}$,都可以找到如下形式的奇异值分解(SVD,Singular Value Decomposition):
\begin{equation}\boldsymbol{M} = \boldsymbol{U}\boldsymbol{\Sigma} \boldsymbol{V}^{\top}\end{equation}
从动力学角度看优化算法(四):GAN的第三个阶段
By 苏剑林 | 2019-05-03 | 93871位读者 | 引用在对GAN的学习和思考过程中,我发现我不仅学习到了一种有效的生成模型,而且它全面地促进了我对各种模型各方面的理解,比如模型的优化和理解视角、正则项的意义、损失函数与概率分布的联系、概率推断等等。GAN不单单是一个“造假的玩具”,而是具有深刻意义的概率模型和推断方法。
作为事后的总结,我觉得对GAN的理解可以粗糙地分为三个阶段:
1、样本阶段:在这个阶段中,我们了解了GAN的“鉴别者-造假者”诠释,懂得从这个原理出发来写出基本的GAN公式(如原始GAN、LSGAN),比如判别器和生成器的loss,并且完成简单GAN的训练;同时,我们知道GAN有能力让图片更“真”,利用这个特性可以把GAN嵌入到一些综合模型中。
2、分布阶段:在这个阶段中,我们会从概率分布及其散度的视角来分析GAN,典型的例子是WGAN和f-GAN,同时能基本理解GAN的训练困难问题,比如梯度消失和mode collapse等,甚至能基本地了解变分推断,懂得自己写出一些概率散度,继而构造一些新的GAN形式。
3、动力学阶段:在这个阶段中,我们开始结合优化器来分析GAN的收敛过程,试图了解GAN是否能真的达到理论的均衡点,进而理解GAN的loss和正则项等因素如何影响的收敛过程,由此可以针对性地提出一些训练策略,引导GAN模型到达理论均衡点,从而提高GAN的效果。
冥王星呀,你究竟是什么?
By 苏剑林 | 2009-07-30 | 24731位读者 | 引用四次方程的根式求解(通俗版)
By 苏剑林 | 2009-09-06 | 44439位读者 | 引用两男一女分享2009年诺贝尔化学奖
By 苏剑林 | 2009-10-07 | 18022位读者 | 引用德国女作家摘得2009诺贝尔文学奖
By 苏剑林 | 2009-10-10 | 17591位读者 | 引用“战神”升空看它到底有多神?
By 苏剑林 | 2009-10-31 | 21786位读者 | 引用庆祝圆周率(π)节!
By 苏剑林 | 2010-03-14 | 70464位读者 | 引用π = 3.141 592 653 589 793 238 462 643 383 279 502 884 197 169 399 375 105 820 974 944 592 ...
$\pi \approx {355}/{113}$
“山巅一寺一壶酒,尔乐苦煞吾,把酒吃,酒杀尔,杀不死,乐而乐”
$\pi$,一个小小的符号,代表着一个伟大的数字。从古到今,几乎所有国家都有人研究过它。在很长的时期内,$\pi$的有效数字代表了这个国家的数学发展程度,在使用计算机计算以前,$\pi$的计算可谓是马拉松式进行。很早人们就知道了2-4位的有效数字(古希腊、古中国、古印度),众所周知之后祖冲之的3.1415926领先了一千多年;紧接着是西方的35位、100位、500位.....甚至有人穷其一生就为算$\pi$!自从计算机参与到其中之后,有效数字光速般增加,而在2009年末,有科学家已经用超级计算机计算出圆周率暂时计到小数点后2万9千亿个小数位。现在$\pi$的位数已经不大重要了(毕竟30位有效数字就完全足够用来精确衡量宇宙大小!),$\pi$的计算成为了测试计算机性能以及测试算法效率的一个指标!
最近评论