标签最优传输下的文章 - 科学空间|Scientific Spaces

13 Oct

EMO：基于最优传输思想设计的分类损失函数

By 苏剑林 | 2023-10-13 | 87252位读者 | 引用

众所周知，分类任务的标准损失是交叉熵（Cross Entropy，等价于最大似然MLE，即Maximum Likelihood Estimation），它有着简单高效的特点，但在某些场景下也暴露出一些问题，如偏离评价指标、过度自信等，相应的改进工作也有很多，此前我们也介绍过一些，比如《再谈类别不平衡问题：调节权重与魔改Loss的对比联系》、《如何训练你的准确率？》、《缓解交叉熵过度自信的一个简明方案》等。由于LLM的训练也可以理解为逐token的分类任务，默认损失也是交叉熵，因此这些改进工作在LLM流行的今天依然有一定的价值。

在这篇文章中，我们介绍一篇名为《EMO: Earth Mover Distance Optimization for Auto-Regressive Language Modeling》的工作，它基于最优传输思想提出了新的改进损失函数EMO，声称能大幅提高LLM的微调效果。其中细节如何？让我们一探究竟。

点击阅读全文...

分类：信息时代标签：概率, 优化, 损失函数, 最优传输阅读全文 16 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前33岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

热门标签

随机文章

最近评论

bobo33233: 捉个虫： “将奇异值阶段到不超过” 这里有错别字，应该是截断吧
zyq: 苏神您好，能否问一句题外话，我发现DeepSeek-V4模型MoE层将token的计算结果与对...
hanlinxuy: 苏神你好，“这个偏置项用SignSGD来更新。既然如此，我们可以模仿TTT的“测试时训练”思想...
Yuheng Zhang: 苏神，如果只考虑原本的Quantile Balancing方法，这种分桶估计的方式是否也比之前...
taylorjiang: $(a+bi)^*(c+di)= (ac + bd) + i(bc - ad) $ =====...
苏剑林: 论文的主题其实是FD loss，不单单是FID。FD loss没有问题，不要写死I就行。抛开F...
苏剑林: 是的。
苏剑林: 感觉不大能get到你的意思，具体一点？
苏剑林: 你把DDPM的$t$方向理解为自回归方向的话，那么它确实是自回归模型的一个特例，而且是非常简单...
苏剑林: $\boldsymbol{f}_t(\boldsymbol{x}_t)$吗？确实有些不同，$\...