15 Jul

不成功的尝试：将多标签交叉熵推广到“n个m分类”上去

By 苏剑林 | 2022-07-15 | 35963位读者 |

可能有读者留意到，这次更新相对来说隔得比较久了。事实上，在上周末时就开始准备这篇文章了，然而笔者低估了这个问题的难度，几乎推导了整整一周，仍然还没得到一个完善的结果出来。目前发出来的，仍然只是一个失败的结果，希望有经验的读者可以指点指点。

在文章《将“Softmax+交叉熵”推广到多标签分类问题》中，我们提出了一个多标签分类损失函数，它能自动调节正负类的不平衡问题，后来在《多标签“Softmax+交叉熵”的软标签版本》中我们还进一步得到了它的“软标签”版本。本质上来说，多标签分类就是“$n$个2分类”问题，那么相应的，“$n$个$m$分类”的损失函数又该是怎样的呢？

这就是本文所要探讨的问题。

类比尝试 #

在软标签推广的文章《多标签“Softmax+交叉熵”的软标签版本》中，我们是通过直接将“$n$个2分类”的sigmoid交叉熵损失，在$\log$内做一阶截断来得到最终结果的。同样的过程确实也可以推广到“$n$个$m$分类”的softmax交叉熵损失，这是笔者的第一次尝试。

记$\text{softmax}(s_{i,j}) = \frac{e^{s_{i,j}}}{\sum\limits_j e^{s_{i,j}}}$，$s_{i,j}$为预测结果，而$t_{i,j}$则为标签，那么
\begin{equation}\begin{aligned}-\sum_i\sum_j t_{i,j}\log \text{softmax}(s_{i,j}) =&\,\sum_i\sum_j t_{i,j}\log \left(1 + \sum_{k\neq j} e^{s_{i,k} - s_{i,j}}\right)\\
=&\,\sum_j \log \prod_i\left(1 + \sum_{k\neq j} e^{s_{i,k} - s_{i,j}}\right)^{t_{i,j}}\\
=&\,\sum_j \log \left(1 + \sum_i t_{i,j}\sum_{k\neq j} e^{s_{i,k} - s_{i,j}}+\cdots\right)\\
\end{aligned}\end{equation}
对$i$的求和默认是$1\sim n$，对$j$的求和默认是$1\sim m$。截断$\cdots$的高阶项，得到
\begin{equation}l = \sum_j \log \left(1 + \sum_{i,k\neq j} t_{i,j}e^{- s_{i,j} + s_{i,k}}\right)\label{eq:loss-1}\end{equation}
这就是笔者开始得到的loss，它是之前的结果到“$n$个$m$分类”的自然推广。事实上，如果$t_{i,j}$是硬标签，那么该loss基本上没什么问题。但笔者希望它像《多标签“Softmax+交叉熵”的软标签版本》一样，对于软标签也能得到推导出相应的解析解。为此，笔者对它进行求导：
\begin{equation}\frac{\partial l}{\partial s_{i,j}} = \frac{- t_{i,j}e^{- s_{i,j}}\sum\limits_{k\neq j} e^{s_{i,k}}}{1 + \sum\limits_{i,k\neq j} t_{i,j}e^{- s_{i,j} + s_{i,k}}} + \sum_{h\neq j} \frac{t_{i,h}e^{- s_{i,h}}e^{s_{i,j}}}{1 + \sum\limits_{i,k\neq h} t_{i,h}e^{- s_{i,h} + s_{i,k}}}\end{equation}
所谓解析解，就是通过方程$\frac{\partial l}{\partial s_{i,j}}=0$来解出。然而笔者尝试了好几天，都求不出方程的解，估计并没有简单的显式解，因此，第一次尝试失败。

结果倒推 #

尝试了几天实在没办法后，笔者又反过来想：既然直接类比出来的结果无法求解，那么我干脆从结果倒推好了，即先把解确定，然后再反推方程应该是怎样的。于是，笔者开始了第二次尝试。

首先，观察发现原来的多标签损失，或者前面得到的损失$\eqref{eq:loss-1}$，都具有如下的形式：
\begin{equation}l = \sum_j \log \left(1 + \sum_i t_{i,j}e^{- f(s_{i,j})}\right)\label{eq:loss-2}\end{equation}
我们就以这个形式为出发点，求导
\begin{equation}\frac{\partial l}{\partial s_{i,k}} = \sum_j \frac{- t_{i,j}e^{- f(s_{i,j})}\frac{\partial f(s_{i,j})}{\partial s_{i,k}}}{1 + \sum\limits_i t_{i,j}e^{- f(s_{i,j})}}\end{equation}
我们希望$t_{i,j}=\text{softmax}(f(s_{i,j}))=e^{f(s_{i,j})}/Z_i$就是$\frac{\partial l}{\partial s_{i,k}}=0$的解析解，其中$Z_i=\sum\limits_j e^{f(s_{i,j})}$。那么代入得到
\begin{equation}0=\frac{\partial l}{\partial s_{i,k}} = \sum_j \frac{- (1/Z_i)\frac{\partial f(s_{i,j})}{\partial s_{i,k}}}{1 + \sum\limits_i 1/Z_i} = \frac{- (1/Z_i)\frac{\partial \left(\sum\limits_j f(s_{i,j})\right)}{\partial s_{i,k}}}{1 + \sum\limits_i 1/Z_i}\end{equation}
所以要让上式自然成立，我们发现只需要让$\sum\limits_j f(s_{i,j})$等于一个跟$i,j$都无关的常数。简单起见，我们让
\begin{equation}f(s_{i,j})=s_{i,j}-
\bar{s}_i,\qquad \bar{s}_i=\frac{1}{m}\sum_j s_{i,j}\end{equation}
这样自然地有$\sum\limits_j f(s_{i,j})=0$，对应的优化目标就是
\begin{equation}l = \sum_j \log \left(1 + \sum_i t_{i,j}e^{- s_{i,j} + \bar{s}_i}\right)\label{eq:loss-3}\end{equation}
$\bar{s}_i$不影响归一化结果，所以它的理论最优解是$t_{i,j}=\text{softmax}(s_{i,j})$。

然而，看上去很美好，然而它实际上的效果会比较糟糕，$t_{i,j}=\text{softmax}(s_{i,j})$确实是理论最优解，但实际上标签越接近硬标签，它的效果会越差。因为我们知道对于损失$\eqref{eq:loss-3}$来说，只要$s_{i,j} \gg \bar{s}_i$，损失就会很接近于0，而要达到$s_{i,j} \gg \bar{s}_i$，$s_{i,j}$不一定是$s_{i,1},s_{i,2},\cdots,s_{i,m}$中的最大者，这就无法实现分类目标了。

思考分析 #

现在我们得到了两个结果，式$\eqref{eq:loss-1}$是原来多标签交叉熵的类比推广，它在硬标签的情况下效果还是不错的，但是由于求不出软标签情况下的解析解，因此软标签的情况无法做理论评估；式$\eqref{eq:loss-3}$是从结果理论倒推出来的，理论上它的解析解就是简单的softmax，但由于实际优化算法的限制，硬标签的表现通常很差，甚至无法保证目标logits是最大值。特别地，当$m=2$时，式$\eqref{eq:loss-1}$和式$\eqref{eq:loss-3}$都能退化为多标签交叉熵。

我们知道，多标签交叉熵能够自动调节正负样本不平衡的问题，同样地，虽然我们目前还没能得到一个完美的推广，但理论上推广到“$n$个$m$分类”后依然能够自动调节$m$个类的不平衡问题。那么平衡的机制是怎样的呢？其实不难理解，不管是类比推广的式$\eqref{eq:loss-1}$，还是一般的假设式$\eqref{eq:loss-2}$，对$i$的求和都放在了$\log$里边，原本每个类的损失占比大体上是正比于“该类的样本数”的，改为放在了$\log$里边求和后，每个类的损失占就大致等于“该类的样本数的对数”，从而缩小了每个类的损失差距，自动缓解了不平衡问题。

遗憾的是，本文还没有得出关于“$n$个$m$分类”的完美推广——它应该包含两个特性：1、通过$\log$的方法自动调节类别不平衡现象；2、能够求出软标签情况下的解析解。对于硬标签来说，直接用式$\eqref{eq:loss-1}$应该是足够了；而对于软标签来说，笔者实在是没辙了，欢迎有兴趣的读者一起思考交流。

文章小结 #

本文尝试将之前的多标签交叉熵推广到“$n$个$m$分类”上去，遗憾的是，这一次的推广并不算成功，暂且将结果分享在此，希望有兴趣的读者能一起参与改进。

转载到请包括本文地址：https://kexue.fm/archives/9158

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Jul. 15, 2022). 《不成功的尝试：将多标签交叉熵推广到“n个m分类”上去》[Blog post]. Retrieved from https://kexue.fm/archives/9158

@online{kexuefm-9158,
        title={不成功的尝试：将多标签交叉熵推广到“n个m分类”上去},
        author={苏剑林},
        year={2022},
        month={Jul},
        url={\url{https://kexue.fm/archives/9158}},
}

分类：数学研究标签：优化, 损失函数 6 评论

< 生成扩散模型漫谈（二）：DDPM = 自回归式VAE | 生成扩散模型漫谈（三）：DDPM = 贝叶斯 + 去噪 >

你也许还对下面的内容感兴趣

发表你的看法

allenyl

July 16th, 2022

假設n為1，那麼問題就退化為1個m分類，此處m為單選。
那麼loss應該會回到最原始的softmax

$$-\log \frac{e^{s_t}}{\sum\limits_{i=1}^n e^{s_i}}= - s_t + \log \sum\limits_{i=1}^n e^{s_i}$$

然而從(4)式開始仔細看，
$$l = \sum_j \log \left(1 + \sum_i t_{i,j}e^{- f(s_{i,j})}\right) ... (4)$$

當n=1，i的部分就可以當作沒有，變成下式：
$$l = \sum_j \log \left(1 + t_{j}e^{- f(s_{j})}\right)... (4.1)$$

假如t是硬標籤{0,1}，就會變成：
$$l = \log \left(1 + e^{- f(s_{t})}\right)... (4.2)$$

這形式是不是很像 [将“softmax+交叉熵”推广到多标签](https://kexue.fm/archives/7359) 中的(6)式：

$$-\log \frac{e^{s_t}}{\sum\limits_{i=1}^n e^{s_i}}=-\log \frac{1}{\sum\limits_{i=1}^n e^{s_i-s_t}}=\log \sum\limits_{i=1}^n e^{s_i-s_t}=\log \left(1 + \sum\limits_{i=1,i\neq t}^n e^{s_i-s_t}\right) ... (6)$$

只是少了sum over i，這裡的i是類別數。

因此，從這裡反推回去，我覺得(4)式應該改成：
當n=1時，

$$l = \log \left(1 + \sum_{j, j \neq t} e^{ s_{j} - s_t}\right) ... (4.3)$$

$$ = \log \left(1 + \sum_{j} (1-t_j) e^{ s_{j}}\right) ... (4.3.1)$$

其中$j$表示類別，$s_{t}$ 表示目標類的得分，$t_j$為軟標籤。

當n>1時，應該改成：
$$l = \sum_i \log \left(1 + \sum_{i,j} (1-t_{i,j}) e^{s_{i,j}}\right) ... (4.4)$$

然而當m=2時，就退化成n個2分類，

$$l = \sum_i \log \left(1 + \sum_{i} \left( (1-t_{i,0}) e^{s_{i,0}} + (1-t_{i,1}) e^{s_{i,1}} \right)\right) ... (4.5)$$

回到 [多标签“Softmax+交叉熵”的软标签版本](https://kexue.fm/archives/9064)　式(5)：

$$\log\left(1+\sum_i t_i e^{-s_i}\right)+\log\left(1+\sum_i(1-t_i)e^{s_i}\right) ... (5)$$

整理一下，得到：

$$=\log\left(\left(1+\sum_i t_i e^{-s_i}\right) \left(1+\sum_i(1-t_i)e^{s_i}\right)\right) ... (5.1)$$

$$=\log\left( 1 + \sum_i t_i e^{-s_i} + \sum_i(1-t_i)e^{s_i} + \sum_i t_i e^{-s_i}\sum_i(1-t_i)e^{s_i} \right) ... (5.2)$$

$$=\log\left( 1 + \sum_i \left(t_i e^{-s_i} + (1-t_i)e^{s_i}\right) + ... \right) ... (5.3)$$

可以發現跟(4.5)的差別只在
1. log前面沒有sum over i
2. log中多了高階項

因此，可以將(4.4)改造成：
$$=\log\left( \prod_{j=1}^{m} \left(1+\sum_{i=1}^{n} (1-t_{i,j}) e^{s_{i,j}}\right) \right) ... (4.6)$$

$$= \log \left( 1 + \sum_{j} \sum_{i} (1-t_{i,j}) e^{s_{i,j}} + ... \right) ... (4.7)$$

式(4.7)至少符合了上面兩種退化的情況，分別是「1個m分類，m為單選」及「n個2分類」。

如果要再擴展到「1個m分類，m為多選」，則可以改成這樣：

$$=\log\left( \prod_{j\in\Omega_{neg}} \left(1+\sum_{i=1}^{n} (1-t_{i,j}) e^{s_{i,j}}\right) \prod_{j\in\Omega_{pos}} \left(1+\sum_{i=1}^{n} (t_{i,j}) e^{-s_{i,j}}\right)\right) ... (4.8)$$

因為乘法的關係，所以每一項都會比較到，就像[将“softmax+交叉熵”推广到多标签分类问题](https://kexue.fm/archives/7359)中的式(8)。再把它展開來：

$$= \log \left( \left( 1 + \sum_{j\in\Omega_{neg}} \sum_{i} (1-t_{i,j}) e^{s_{i,j}} + ... \right) \left( 1 + \sum_{j\in\Omega_{pos}} \sum_{i} (t_{i,j}) e^{-s_{i,j}} + ... \right) \right)... (4.9)$$

$$= \log \left( 1 + \sum_{j\in\Omega_{neg}} \sum_{i} (1-t_{i,j}) e^{s_{i,j}} + \sum_{j\in\Omega_{pos}} \sum_{i} (t_{i,j}) e^{-s_{i,j}} + ... \right)... (4.10)$$

我認為這應該就是最一般的形式了。
雖然感覺像是湊出來的，但是至少都滿足了幾種退化的情況。
所不確定的是，是否引入高階項會讓結果更好？

回复评论

allenyl

July 16th, 2022

從(4.9)開始，若考慮到neg跟pos交叉項：

$$= \log \left( \left( 1 + \sum_{j\in\Omega_{neg}} \sum_{i} (1-t_{i,j}) e^{s_{i,j}} + ... \right) \left( 1 + \sum_{j\in\Omega_{pos}} \sum_{i} (t_{i,j}) e^{-s_{i,j}} + ... \right) \right)... (4.9)$$

$$= \log \left( 1 + \sum_{j\in\Omega_{neg}} \sum_{i} (1-t_{i,j}) e^{s_{i,j}} + \sum_{j\in\Omega_{pos}} \sum_{i} (t_{i,j}) e^{-s_{i,j}} + \\ \left( \sum_{j\in\Omega_{neg}} \sum_{i} (1-t_{i,j}) e^{s_{i,j}} \right) \left( \sum_{j\in\Omega_{pos}} \sum_{i} (t_{i,j}) e^{-s_{i,j}} \right)... \right)... (4.11)$$

若令n=1，t為硬標籤{0,1}，則退化成這樣：

$$= \log \left( 1 + \sum_{j\in\Omega_{neg}} e^{s_{j}} + \sum_{j\in\Omega_{pos}} e^{-s_{j}} + \left( \sum_{j\in\Omega_{neg}} e^{s_{j}} \right) \left( \sum_{j\in\Omega_{pos}} e^{-s_{j}} \right)... \right)... (4.12)$$

而其中的

$$
\left(\sum_{j\in\Omega_{neg}} e^{s_{j}} \right) \left( \sum_{j\in\Omega_{pos}} e^{-s_{j}} \right) ... (4.12.1)
$$

展開來就是：
$$
=\left( e^{s_{neg_1}} + e^{s_{neg_2}} + e^{s_{neg_3}} + ... \right) \left( e^{-s_{pos_1}} + e^{-s_{pos_2}} + e^{-s_{pos_3}} + ... \right) ... (4.12.2)
$$

$$
\begin{align*}
=e^{s_{neg_1}-s_{pos_1}} + e^{s_{neg_1}-s_{pos_2}} + e^{s_{neg_1}-s_{pos_3}} + ... \\ + e^{s_{neg_2}-s_{pos_1}} + e^{s_{neg_2}-s_{pos_2}} + e^{s_{neg_2}-s_{pos_3}} + ... \\ + e^{s_{neg_3}-s_{pos_1}} + e^{s_{neg_3}-s_{pos_2}} + e^{s_{neg_3}-s_{pos_3}} + ... \\ ... (4.12.3)
\end{align*}
$$

這裡就出現了跟 [将“softmax+交叉熵”推广到多标签分类问题](https://kexue.fm/archives/7359) 式(7) 類似的正負樣本兩兩相減的形式。

而最小化這些正負樣本的交叉項，就確保了負樣本得分不會高於正樣本。

當m為單選時，表示pos只有一項，記為t，那就應該會退化成一般的softmax

$$
= \log \left( 1 + \sum_{j\in\Omega_{neg}} e^{s_{j}} + e^{-s_{t}} + \sum_{j\in\Omega_{neg}} e^{s_{j}-s_{t}} ... \right)... (4.12.4)
$$

可以看到比[将“softmax+交叉熵”推广到多标签](https://kexue.fm/archives/7359) 中的(6)式多了一階項：

$$
\sum_{j\in\Omega_{neg}} e^{s_{j}} + e^{-s_{t}} ... (4.12.5)
$$

考慮到最小化這些一階項的作用其實已經包含到交叉項裡面，

因此，式(4.11)可以再簡化，把一階項拿掉：

$$
l = \log \left( 1 + \left( \sum_{j\in\Omega_{neg}} \sum_{i} (1-t_{i,j}) e^{s_{i,j}} \right) \left( \sum_{j\in\Omega_{pos}} \sum_{i} (t_{i,j}) e^{-s_{i,j}} \right) \right)... (4.11.1)
$$

我覺得可以做實驗比較看看(4.11)跟(4.11.1)哪個較好？

不過我個人認為，在正類別數量K固定的情況下，可能(4.11.1)保留正負樣本的交叉項就夠了。因為我們希望的是「非目標項得分盡可能小於目標項」，只要知道相對大小即可。

但如果是正類別K數量不是固定的，需要設定一個threshold，那麼(4.11)中的一階項，就有必要了。因為一階項的作用似乎就是限制分數的絕對值，讓正樣本得分盡可能大於0，負樣本小於0。這樣就可以以0為基準，拿出分數大於0的K類。

回复评论

allenyl

July 16th, 2022

從 (4.12.5) 來看，最小化這個式子會讓正類的 $s_j > 0$，負類的 $s_j < 0$。

但若我們希望不要從0開始，而有一個偏移b呢？那就可以改成：

$$
\sum_{j\in\Omega_{neg}} e^{s_{j}-b} + e^{-(s_{t}-b)} ... (4.12.5.1)
$$

這樣會鼓勵正類的$s_j > b$，負類的$s_j < b$。

那如果我們還想加入一個間隔(margin)呢？可以加上m：

$$
\sum_{j\in\Omega_{neg}} e^{(s_{j}-b)+m} + e^{-(s_{t}-b)+m} ... (4.12.5.2)
$$

這樣會鼓勵正類的$s_j > b + m$，負類的$s_j < b - m$。而從式(4.12.3)可知，正負兩類間隔相差2m。

上面這裡的b跟m都是一個固定的數值，現在考慮把軟標籤放回來：

$$
\sum_{j\in\Omega_{neg}} (1-t_j) e^{(s_{j}-b)+m} + t_{pos} e^{-(s_{t}-b)+m} ... (4.12.5.3)
$$

$$
=\sum_{j\in\Omega_{neg}} e^{(s_{j}-b)+m + ln(1-t_j)} + e^{-(s_{t}-b)+m + ln(t_{pos})} ... (4.12.5.4)
$$

任取一個負類，正負類的差距為：
$$
\left((s_{neg}-b)+m + ln(1-t_{neg})\right) + \left(-(s_{pos}-b)+m + ln(t_{pos})\right)
$$

$$
=s_{neg} - s_{pos} + 2m + ln(1-t_{neg}) + ln(t_{pos})
$$

$$
=s_{neg} - s_{pos} + 2m + ln((1-t_{neg})t_{pos})
$$

由於m是固定的，可知軟標籤t的作用為根據樣本的分錯程度動態調整margin。

當 $t_{neg}=0.9$, $t_{pos}=0.1$時，有margin $2m + ln(0.01)$；

當 $t_{neg}=t_{pos}=0.5$時，有margin $2m + ln(0.25)$；

當 $t_{neg}=0.1$, $t_{pos}=0.9$時，有margin $2m + ln(0.81)$；

可以看到，當樣本分錯的很離譜的時候($t_{neg}=0.9$, $t_{pos}=0.1$)，margin 中的ln項是負的，而且負很多，表示它希望把正負樣本的錯誤拉回來；而當樣本分類正確的信心程度越高($t_{neg}=0.1$, $t_{pos}=0.9$)，margin中的ln 會越負越少，直到接近0。這時候最終的margin大小就會由m來決定。模型的目標就會變成把正負類的差距拉開到至少2m。

但是為了避免 $2m + ln((1-t_{neg})t_{pos}) < 0$ 造成模型一直停在分錯的狀態，需要選擇一個夠大的m，讓大部分分錯的情況下，$2m + ln((1-t_{neg})t_{pos}) > 0$ ，這樣模型才有動力往反方向修正。

當然如果太極端的錯誤，如$t_{neg}=0.999$, $t_{pos}=0.001$，就可能要選m>3以上，我想m=5應該就很夠用了。

所以最一般的形式應該長這樣：

$$
l=\log\left( \prod_{j\in\Omega_{neg}} \left(1+\sum_{i=1}^{n} (1-t_{i,j}) e^{s_{i,j}-b + m}\right) \prod_{j\in\Omega_{pos}} \left(1+\sum_{i=1}^{n} (t_{i,j}) e^{-s_{i,j}+b+m}\right)\right) \\ = \log \left( 1 + \sum_{j\in\Omega_{neg}} \sum_{i} (1-t_{i,j}) e^{s_{i,j}-b+m} + \sum_{j\in\Omega_{pos}} \sum_{i} (t_{i,j}) e^{-s_{i,j}+b+m} + \\ \left( \sum_{j\in\Omega_{neg}} \sum_{i} (1-t_{i,j}) e^{s_{i,j}-b+m} \right) \left( \sum_{j\in\Omega_{pos}} \sum_{i} (t_{i,j}) e^{-s_{i,j}+b+m} \right)... \right)... (4.11.2)
$$

取b=0, m=5。

回复评论

苏剑林

July 18th, 2022

@allenyl|comment-19491

感谢你的详细推导哈，我这里统一回复一下。

1、你的$(4.3)$是不等于$(4.3.1)$的，所以后面大体上都有问题～

2、如果只考虑“1个m分类（硬标签）“和”n个2分类（软标签）“两种场景的退化，其实本文的$\eqref{eq:loss-1}$就满足；

3、总的来说，你全程都在类比演绎，但是没考虑结果的合理性，我遇到的主要困难在于如何求出最优解时$t_{i,j}$与$s_{i,j}$的显式关系。

回复评论

LossG

September 21st, 2022

仔细看式$\eqref{eq:loss-1}$和$\eqref{eq:loss-3}$可以注意到一个inductive bias，就是不同分类任务的第j个类别分数出现在同一个log里面。那么需要想一下为什么“$n$个$m$分类”任务的$m$个标签之间会有对应关系，在这样的情况下所设想的loss在平衡什么关系。

回复评论

苏剑林发表于 September 22nd, 2022

你这个分析没错，所以我就是致力于得到具有像$\eqref{eq:loss-3}$一样理论性质的loss，其最优解是解耦开了$n$个$m$分类任务之间的关系的，但很遗憾没找到。

回复评论

取消回复

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

不成功的尝试：将多标签交叉熵推广到“n个m分类”上去

类比尝试 #

结果倒推 #

思考分析 #

文章小结 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接