标签优化下的文章 - 科学空间|Scientific Spaces

22 Nov

基于Amos优化器思想推导出来的一些“炼丹策略”

By 苏剑林 | 2022-11-22 | 36705位读者 | 引用

如果将训练模型比喻为“炼丹”，那么“炼丹炉”显然就是优化器了。据传AdamW优化器是当前训练神经网络最快的方案，这一点笔者也没有一一对比过，具体情况如何不得而知，不过目前做预训练时多数都用AdamW或其变种LAMB倒是真的。然而，正如有了炼丹炉也未必能炼出好丹，即便我们确定了选择AdamW优化器，依然有很多问题还没有确定的答案，比如：

1、学习率如何适应不同初始化和参数化？
2、权重衰减率该怎么调？
3、学习率应该用什么变化策略？
4、能不能降低优化器的显存占用？

尽管在实际应用时，我们大多数情况下都可以直接套用前人已经调好的参数和策略，但缺乏比较系统的调参指引，始终会让我们在“炼丹”之时感觉没有底气。在这篇文章中，我们基于Google最近提出的Amos优化器的思路，给出一些参考结果。

点击阅读全文...

分类：数学研究,信息时代标签：分析, 优化, 渐近, 优化器阅读全文 9 评论

18 Aug

生成扩散模型漫谈（八）：最优扩散方差估计（下）

By 苏剑林 | 2022-08-18 | 50428位读者 | 引用

在上一篇文章《生成扩散模型漫谈（七）：最优扩散方差估计（上）》中，我们介绍并推导了Analytic-DPM中的扩散模型最优方差估计结果，它是直接给出了已经训练好的生成扩散模型的最优方差的一个解析估计，实验显示该估计结果确实能有效提高扩散模型的生成质量。

这篇文章我们继续介绍Analytic-DPM的升级版，出自同一作者团队的论文《Estimating the Optimal Covariance with Imperfect Mean in Diffusion Probabilistic Models》，在官方Github中被称为“Extended-Analytic-DPM”，下面我们也用这个称呼。

结果回顾

上一篇文章是在DDIM的基础上，推出DDIM的生成过程最优方差应该是
$\begin{equation}\sigma_t^2 + \gamma_t^2\bar{\sigma}_t^2\end{equation}$
其中 $\bar{\sigma}_t^2$ 是分布 $p(\boldsymbol{x}_0|\boldsymbol{x}_t)$ 的方差，它有如下的估计结果（这里取“方差估计2”的结果）：
$\begin{equation}\bar{\sigma}_t^2 = \frac{\bar{\beta}_t^2}{\bar{\alpha}_t^2}\left(1 - \frac{1}{d}\mathbb{E}_{\boldsymbol{x}_t\sim p(\boldsymbol{x}_t)}\left[ \Vert\boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\boldsymbol{x}_t, t)\Vert^2\right]\right)\label{eq:basic}\end{equation}$

点击阅读全文...

分类：信息时代标签：优化, 生成模型, DDPM, 扩散阅读全文 20 评论

12 Aug

生成扩散模型漫谈（七）：最优扩散方差估计（上）

By 苏剑林 | 2022-08-12 | 93039位读者 | 引用

对于生成扩散模型来说，一个很关键的问题是生成过程的方差应该怎么选择，因为不同的方差会明显影响生成效果。

在《生成扩散模型漫谈（二）：DDPM = 自回归式VAE》我们提到，DDPM分别假设数据服从两种特殊分布推出了两个可用的结果；《生成扩散模型漫谈（四）：DDIM = 高观点DDPM》中的DDIM则调整了生成过程，将方差变为超参数，甚至允许零方差生成，但方差为0的DDIM的生成效果普遍差于方差非0的DDPM；而《生成扩散模型漫谈（五）：一般框架之SDE篇》显示前、反向SDE的方差应该是一致的，但这原则上在 $\Delta t\to 0$ 时才成立；《Improved Denoising Diffusion Probabilistic Models》则提出将它视为可训练参数来学习，但会增加训练难度。

所以，生成过程的方差究竟该怎么设置呢？今年的两篇论文《Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models》和《Estimating the Optimal Covariance with Imperfect Mean in Diffusion Probabilistic Models》算是给这个问题提供了比较完美的答案。接下来我们一起欣赏一下它们的结果。

点击阅读全文...

分类：信息时代标签：优化, 生成模型, DDPM, 扩散阅读全文 49 评论

15 Jul

不成功的尝试：将多标签交叉熵推广到“n个m分类”上去

By 苏剑林 | 2022-07-15 | 27487位读者 | 引用

可能有读者留意到，这次更新相对来说隔得比较久了。事实上，在上周末时就开始准备这篇文章了，然而笔者低估了这个问题的难度，几乎推导了整整一周，仍然还没得到一个完善的结果出来。目前发出来的，仍然只是一个失败的结果，希望有经验的读者可以指点指点。

在文章《将“Softmax+交叉熵”推广到多标签分类问题》中，我们提出了一个多标签分类损失函数，它能自动调节正负类的不平衡问题，后来在《多标签“Softmax+交叉熵”的软标签版本》中我们还进一步得到了它的“软标签”版本。本质上来说，多标签分类就是“ $n$ 个2分类”问题，那么相应的，“ $n$ 个 $m$ 分类”的损失函数又该是怎样的呢？

这就是本文所要探讨的问题。

点击阅读全文...

分类：数学研究标签：优化, 损失函数阅读全文 6 评论

1 Jun

如何训练你的准确率？

By 苏剑林 | 2022-06-01 | 30671位读者 | 引用

最近Arxiv上的一篇论文《EXACT: How to Train Your Accuracy》引起了笔者的兴趣，顾名思义这是介绍如何直接以准确率为训练目标来训练模型的。正好笔者之前也对此有过一些分析，如《函数光滑化杂谈：不可导函数的可导逼近》、《再谈类别不平衡问题：调节权重与魔改Loss的对比联系》等，所以带着之前的研究经验很快完成了论文的阅读，写下了这篇总结，并附上了最近关于这个主题的一些新思考。

失实的例子

论文开头指出，我们平时用的分类损失函数是交叉熵或者像SVM中的Hinge Loss，这两个损失均不能很好地拟合最终的评价指标准确率。为了说明这一点，论文举了一个很简单的例子：假设数据只有 $\{(-0.25,-1),(0,-1),(0.25,,1)\}$ 三个点， $-1$ 和 $1$ 分别代表负类和正类，待拟合模型是 $f(x)=x-b$ ， $b$ 是参数，我们希望通过 $\text{sign}(f(x))$ 来预测类别。如果用“sigmoid + 交叉熵”，那么损失函数就是 $-\log \frac{1}{1+e^{-l \cdot f(x)}}$ ， $(x,l)$ 代表一对标签数据；如果用Hinge Loss，则是 $\max(0, 1 - l\cdot f(x))$ 。

点击阅读全文...

分类：信息时代标签：概率, 优化, 损失函数阅读全文 6 评论

7 May

多标签“Softmax+交叉熵”的软标签版本

By 苏剑林 | 2022-05-07 | 56654位读者 | 引用

（注：本文的相关内容已整理成论文《ZLPR: A Novel Loss for Multi-label Classification》，如需引用可以直接引用英文论文，谢谢。）

在《将“Softmax+交叉熵”推广到多标签分类问题》中，我们提出了一个用于多标签分类的损失函数：
$\begin{equation}\log \left(1 + \sum\limits_{i\in\Omega_{neg}} e^{s_i}\right) + \log \left(1 + \sum\limits_{j\in\Omega_{pos}} e^{-s_j}\right)\label{eq:original}\end{equation}$
这个损失函数有着单标签分类中“Softmax+交叉熵”的优点，即便在正负类不平衡的依然能够有效工作。但从这个损失函数的形式我们可以看到，它只适用于“硬标签”，这就意味着label smoothing、mixup等技巧就没法用了。本文则尝试解决这个问题，提出上述损失函数的一个软标签版本。

巧妙联系

多标签分类的经典方案就是转化为多个二分类问题，即每个类别用sigmoid函数 $\sigma(x)=1/(1+e^{-x})$ 激活，然后各自用二分类交叉熵损失。当正负类别极其不平衡时，这种做法的表现通常会比较糟糕，而相比之下损失 $\eqref{eq:original}$ 通常是一个更优的选择。

点击阅读全文...

分类：信息时代标签：优化, 损失函数, 光滑阅读全文 18 评论

28 Apr

在bert4keras中使用混合精度和XLA加速训练

By 苏剑林 | 2022-04-28 | 30753位读者 | 引用

之前笔者一直都是聚焦于模型的构思和实现，鲜有关注模型的训练加速，像混合精度和XLA这些技术，虽然也有听过，但没真正去实践过。这两天折腾了一番，成功在bert4keras中使用了混合精度和XLA来加速训练，在此做个简单的总结，供大家参考。

本文的多数经验结论并不只限于bert4keras中使用，之所以在标题中强调bert4keras，只不过bert4keras中的模型实现相对较为规整，因此启动这些加速技巧所要做的修改相对更少。

实验环境

本文的实验显卡为3090，使用的docker镜像为nvcr.io/nvidia/tensorflow:21.09-tf1-py3，其中自带的tensorflow版本为1.15.5。另外，实验所用的bert4keras版本为0.11.3。其他环境也可以参考着弄，要注意有折腾精神，不要指望着无脑调用。

顺便提一下，3090、A100等卡只能用cuda11，而tensorflow官网的1.15版本是不支持cuda11的，如果还想用tensorflow 1.x，那么只能用nvidia亲自维护的nvidia-tensorflow，或者用其构建的docker镜像。用nvidia而不是google维护的tensorflow，除了能让你在最新的显卡用上1.x版本外，还有nvidia专门做的一些额外优化，具体文档可以参考这里。

点击阅读全文...

分类：信息时代标签：模型, 优化, 梯度阅读全文 6 评论

29 Mar

为什么Pre Norm的效果不如Post Norm？

By 苏剑林 | 2022-03-29 | 122153位读者 | 引用

Pre Norm与Post Norm之间的对比是一个“老生常谈”的话题了，本博客就多次讨论过这个问题，比如文章《浅谈Transformer的初始化、参数化与标准化》、《模型优化漫谈：BERT的初始标准差为什么是0.02？》等。目前比较明确的结论是：同一设置之下，Pre Norm结构往往更容易训练，但最终效果通常不如Post Norm。Pre Norm更容易训练好理解，因为它的恒等路径更突出，但为什么它效果反而没那么好呢？

笔者之前也一直没有好的答案，直到前些时间在知乎上看到 @唐翔昊的一个回复后才“恍然大悟”，原来这个问题竟然有一个非常直观的理解！本文让我们一起来学习一下。

点击阅读全文...

分类：信息时代标签：优化, 梯度, attention 阅读全文 50 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

基于Amos优化器思想推导出来的一些“炼丹策略”

生成扩散模型漫谈（八）：最优扩散方差估计（下）

结果回顾

生成扩散模型漫谈（七）：最优扩散方差估计（上）

不成功的尝试：将多标签交叉熵推广到“n个m分类”上去

如何训练你的准确率？

失实的例子

多标签“Softmax+交叉熵”的软标签版本

巧妙联系

在bert4keras中使用混合精度和XLA加速训练

实验环境

为什么Pre Norm的效果不如Post Norm？

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接