22 Jul

Keras中自定义复杂的loss函数

By 苏剑林 | 2017-07-22 | 567008位读者 |

Keras是一个搭积木式的深度学习框架，用它可以很方便且直观地搭建一些常见的深度学习模型。在tensorflow出来之前，Keras就已经几乎是当时最火的深度学习框架，以theano为后端，而如今Keras已经同时支持四种后端：theano、tensorflow、cntk、mxnet（前三种官方支持，mxnet还没整合到官方中），由此可见Keras的魅力。

Keras是很方便，然而这种方便不是没有代价的，最为人诟病之一的缺点就是灵活性较低，难以搭建一些复杂的模型。的确，Keras确实不是很适合搭建复杂的模型，但并非没有可能，而是搭建太复杂的模型所用的代码量，跟直接用tensorflow写也差不了多少。但不管怎么说，Keras其友好、方便的特性（比如那可爱的训练进度条），使得我们总有使用它的场景。这样，如何更灵活地定制Keras模型，就成为一个值得研究的课题了。这篇文章我们来关心自定义loss。

输入-输出设计 #

Keras的模型是函数式的，即有输入，也有输出，而loss即为预测值与真实值的某种误差函数。Keras本身也自带了很多loss函数，如mse、交叉熵等，直接调用即可。而要自定义loss，最自然的方法就是仿照Keras自带的loss进行改写。

比如，我们做分类问题时，经常用的就是softmax输出，然后用交叉熵作为loss。然而这种做法也有不少缺点，其中之一就是分类太自信，哪怕输入噪音，分类的结果也几乎是非1即0，这通常会导致过拟合的风险，还会使得我们在实际应用中没法很好地确定置信区间、设置阈值。因此很多时候我们也会想办法使得分类别太自信，而修改loss也是手段之一。

如果不修改loss，我们就是使用交叉熵去拟合一个one hot的分布。交叉熵的公式是
$$S(q|p)=-\sum_i q_i \log p_i$$
其中$p_i$是预测的分布，而$q_i$是真实的分布，比如输出为$[z_1,z_2,z_3]$，目标为$[1,0,0]$，那么
$$loss = -\log \Big(e^{z_1}/Z\Big),\, Z=e^{z_1}+e^{z_2}+e^{z_3}$$
只要$z_1$已经是$[z_1,z_2,z_3]$的最大值，那么我们总可以“变本加厉”——通过增大训练步数，使得$z_1,z_2,z_3$增加足够大的比例（等价地，即增大向量$[z_1,z_2,z_3]$的模长），从而$e^{z_1}/Z$足够接近1（等价地，loss足够接近0）。这就是通常softmax过于自信的来源：只要盲目增大模长，就可以降低loss，训练器肯定是很乐意了，这代价太低了。为了使得分类不至于太自信，一个方案就是不要单纯地去拟合one hot分布，分一点力气去拟合一下均匀分布，即改为新loss：
$$loss = -(1-\varepsilon)\log \Big(e^{z_1}/Z\Big)-\varepsilon\sum_{i=1}^n \frac{1}{3}\log \Big(e^{z_i}/Z\Big),\, Z=e^{z_1}+e^{z_2}+e^{z_3}$$
这样，盲目地增大比例使得$e^{z_1}/Z$接近于1，就不再是最优解了，从而可以缓解softmax过于自信的情况，不少情况下，这种策略还可以增加测试准确率（防止过拟合）。

那么，在Keras中应该怎么写呢？其实挺简单的：

from keras.layers import Input,Embedding,LSTM,Dense
from keras.models import Model
from keras import backend as K

word_size = 128
nb_features = 10000
nb_classes = 10
encode_size = 64

input = Input(shape=(None,))
embedded = Embedding(nb_features,word_size)(input)
encoder = LSTM(encode_size)(embedded)
predict = Dense(nb_classes, activation='softmax')(encoder)

def mycrossentropy(y_true, y_pred, e=0.1):
    loss1 = K.categorical_crossentropy(y_true, y_pred)
    loss2 = K.categorical_crossentropy(K.ones_like(y_pred)/nb_classes, y_pred)
    return (1-e)*loss1 + e*loss2

model = Model(inputs=input, outputs=predict)
model.compile(optimizer='adam', loss=mycrossentropy)

也就是自定义一个输入为y_pred,y_true的loss函数，放进模型compile即可。这里的mycrossentropy，第一项就是普通的交叉熵，第二项中，先通过K.ones_like(y_pred)/nb_classes构造了一个均匀分布，然后算y_pred与均匀分布的交叉熵。就这么简单～

并不仅仅是输入输出那么简单 #

前面已经说了，Keras的模型有固定的输入和输出，并且loss即为预测值与真实值的某种误差函数，然而，很多模型并非这样的，比如问答模型与triplet loss。

这个的问题是指有固定的答案库的FAQ形式的问答。一种常见的做问答模型的方法就是：先分别将答案和问题都encode成为一个同样长度的向量，然后比较它们的cos值，cos越大就越匹配。这种做法很容易理解，是一个比较通用的框架，比如这里的问题和答案都不需要一定是问题，图片也行，反正只不过是encode的方法不一样，最终只要能encode出一个向量来即可。但是怎么训练呢？我们当然希望正确答案的cos值越大越好，错误答案的\cos值越小越好，但是这不是必要的，合理的要求应该是：正确答案的cos值比所有错误答案的\cos值都要大，大多少无所谓，一丁点都行。因此，这就导致了triplet loss：
$$loss = \max\Big(0, m+\cos(q,A_{\text{wrong}})-\cos(q,A_{\text{right}})\Big)$$
其中$m$是一个大于零的正数。

怎么理解这个loss呢？要注意我们要最小化loss，所以只看$m+\cos(q,A_{\text{wrong}})-\cos(q,A_{\text{right}})$这部分，我们知道目的是拉大正确与错误答案的差距，但是，一旦$\cos(q,A_{\text{right}})-\cos(q,A_{\text{wrong}}) > m$，也就是差距大于$m$时，由于$\max$的存在，loss就等于0，这时候就自动达到最小值，就不会优化它了。所以，triplet loss的思想就是：只希望正确比错误答案的差距大一点（并不是越大越好），超过$m$就别管它了，集中精力关心那些还没有拉开的样本吧！

我们已经有问题和正确答案，错误答案只要随机挑就行，所以这样训练样本是很容易构造的。不过Keras中怎么实现triplet loss呢？看上去是一个单输入、双输出的模型，但并不是那么简单，Keras中的双输出模型，只能给每个输出分别设置一个loss，然后加权求和，但这里不能简单表示成两项的加权求和。那应该要怎么搭建这样的模型呢？下面是一个例子：

from keras.layers import Input,Embedding,LSTM,Dense,Lambda
from keras.layers.merge import dot
from keras.models import Model
from keras import backend as K

word_size = 128
nb_features = 10000
nb_classes = 10
encode_size = 64
margin = 0.1

embedding = Embedding(nb_features,word_size)
lstm_encoder = LSTM(encode_size)

def encode(input):
    return lstm_encoder(embedding(input))

q_input = Input(shape=(None,))
a_right = Input(shape=(None,))
a_wrong = Input(shape=(None,))
q_encoded = encode(q_input)
a_right_encoded = encode(a_right)
a_wrong_encoded = encode(a_wrong)

q_encoded = Dense(encode_size)(q_encoded) #一般的做法是，直接讲问题和答案用同样的方法encode成向量后直接匹配，但我认为这是不合理的，我认为至少经过某个变换。

right_cos = dot([q_encoded,a_right_encoded], -1, normalize=True)
wrong_cos = dot([q_encoded,a_wrong_encoded], -1, normalize=True)

loss = Lambda(lambda x: K.relu(margin+x[0]-x[1]))([wrong_cos,right_cos])

model_train = Model(inputs=[q_input,a_right,a_wrong], outputs=loss)
model_q_encoder = Model(inputs=q_input, outputs=q_encoded)
model_a_encoder = Model(inputs=a_right, outputs=a_right_encoded)

model_train.compile(optimizer='adam', loss=lambda y_true,y_pred: y_pred)
model_q_encoder.compile(optimizer='adam', loss='mse')
model_a_encoder.compile(optimizer='adam', loss='mse')

model_train.fit([q,a1,a2], y, epochs=10)
#其中q,a1,a2分别是问题、正确答案、错误答案的batch，y是任意形状为(len(q),1)的矩阵

如果第一次看不懂，那么请反复阅读几次，这个代码包含了Keras中实现最一般模型的思路：把目标当成一个输入，构成多输入模型，把loss写成一个层，作为最后的输出，搭建模型的时候，就只需要将模型的output定义为loss，而compile的时候，直接将loss设置为y_pred（因为模型的输出就是loss，所以y_pred就是loss），无视y_true，训练的时候，y_true随便扔一个符合形状的数组进去就行了。最后我们得到的是问题和答案的编码器，也就是问题和答案都分别编码出一个向量来，我们只需要比较$\cos$，就可以选择最优答案了。

Embedding层的妙用 #

在读这一段之前，请读者务必确定自己对Embedding层有清晰的认识，如果还没有，请移步阅读《词向量与Embedding究竟是怎么回事？》。这里需要反复强调的是，虽然词向量叫Word Embedding，但是，Embedding层不是词向量，跟词向量没有半毛钱关系！！！不要有“怎么就跟词向量扯上关系了”这样的傻问题，Embedding层从来就没有跟词向量有过任何直接联系（只不过在训练词向量时可以用它）。对于Embedding层，你可以有两种理解：1、是one hot输入的全连接层的加速版本，也就是说，它就是一个以one hot为输入的Dense层，数学上完全等价；2、它就是一个矩阵查找操作，输入一个整数，输出对应下标的向量，只不过这个矩阵是可训练的。（你看，哪里跟词向量有联系了？）

这部分我们来关心center loss。前面已经说了，做分类时，一般是softmax+交叉熵做，用矩阵的写法，softmax就是
$$\text{softmax}\Big(\boldsymbol{W}\boldsymbol{x}+\boldsymbol{b}\Big)$$
其中$\boldsymbol{x}$可以理解为提取的特征，而$\boldsymbol{W},\boldsymbol{b}$是最后的全连接层的权重，整个模型是一起训练的。问题是，这样的方案所训练出来的特征模型$\boldsymbol{x}$，具有怎样的形态呢？

有一些情况下，我们更关心特征$\boldsymbol{x}$而不是最后的分类结果，比如人脸识别场景，假如我们有10万个不同的人的人脸数据库，每个人有若干张照片，那么我们就可以训练一个10万分类模型，对于给定的照片，我们可以判断它是10万个中的哪一个。但这仅仅是训练场景，那么怎么应用呢？到了具体的应用环境，比如一个公司内部，可能有只有几百人；在公共安全检测场景，可能有数百万人，所以前面做好的10万分类模型基本上是没有意义的，但是在这个模型softmax之前的特征，也就是前一段所说的$\boldsymbol{x}$，可能还是很有意义的。如果对于同一个人（也就是同一类），$\boldsymbol{x}$基本一样，那么实际应用中，我们就可以把训练好的模型当作特征提取工具，然后把提取出来的特征直接用KNN（最邻近距离）来做就行了。

设想很美好，但事实很残酷，直接训练softmax的话，事实上得到的特征不一定具有聚类特性，相反，它们会尽量布满整个空间（没有给其他人留出位置，参考center loss的相关论文和文章，比如这篇。）。那么，怎样训练才使得结果有聚类特性呢？center loss使用了一种简单粗暴但是却很有效的方案——加聚类惩罚项。完整地写出来，就是
$$loss = - \log\frac{e^{\boldsymbol{W}_y^{\top}\boldsymbol{x}+b_y}}{\sum\limits_i e^{\boldsymbol{W}_i^{\top}\boldsymbol{x}+b_i}} + \lambda \Big\Vert \boldsymbol{x}-\boldsymbol{c}_y \Big\Vert^2$$
其中$y$对应着正确的类别。可以看到，第一项就是普通的softmax交叉熵，第二项就是额外的惩罚项，它给每个类定义了可训练的中心$\boldsymbol{c}$，要求每个类要跟各自的中心靠得很近。所以，总的来说，第一项负责拉开不同类之间的距离，第二项负责缩小同一类之间的距离。

那么，Keras中要怎么实现这个方案？关键是，怎么存放聚类中心？答案就是Embedding层！这部分的开头已经提示了，Embedding就是一个待训练的矩阵罢了，正好可以存放聚类中心参数。于是，模仿第二部分的写法，就得到

from keras.layers import Input,Conv2D, MaxPooling2D,Flatten,Dense,Embedding,Lambda
from keras.models import Model
from keras import backend as K

nb_classes = 100
feature_size = 32

input_image = Input(shape=(224,224,3))
cnn = Conv2D(10, (2,2))(input_image)
cnn = MaxPooling2D((2,2))(cnn)
cnn = Flatten()(cnn)
feature = Dense(feature_size, activation='relu')(cnn)
predict = Dense(nb_classes, activation='softmax', name='softmax')(feature) #至此，得到一个常规的softmax分类模型

input_target = Input(shape=(1,))
centers = Embedding(nb_classes, feature_size)(input_target) #Embedding层用来存放中心
l2_loss = Lambda(lambda x: K.sum(K.square(x[0]-x[1][:,0]), 1, keepdims=True), name='l2_loss')([feature,centers])

model_train = Model(inputs=[input_image,input_target], outputs=[predict,l2_loss])
model_train.compile(optimizer='adam', loss=['sparse_categorical_crossentropy',lambda y_true,y_pred: y_pred], loss_weights=[1.,0.2], metrics={'softmax':'accuracy'})

model_predict = Model(inputs=input_image, outputs=predict)
model_predict.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

model_train.fit([train_images,train_targets], [train_targets,random_y], epochs=10)
#TIPS：这里用的是sparse交叉熵，这样我们直接输入整数的类别编号作为目标，而不用转成one hot形式。所以Embedding层的输入，跟softmax的目标，都是train_targets，都是类别编号，而random_y是任意形状为(len(train_images),1)的矩阵。

读者可能有疑问，为什么不像第二部分的triplet loss模型那样，将整体的loss写成一个单一的输出，然后搭建模型，而是要像目前这样变成双输出呢？

事实上，Keras爱好者钟情于Keras，其中一个很重要的原因就是它的进度条——能够实时显示训练loss、训练准确率。如果像第二部分那样写，那么就不能设置metrics参数，那么训练过程中就不能显示准确率了，这不能说是一个小遗憾。而目前这样写，我们就依然能够在训练过程中看到训练准确率，还能分别看到交叉熵loss、l2_loss、总的loss分别是多少，非常舒服。

Keras就是这么好玩 #

有了以上三个案例，读者应该对Keras搭建复杂模型的步骤心中有数了，应当说，也是比较简单灵活的。Keras确实有它不够灵活的地方，但也没有网上评论的那么无能。总的来说，Keras是能够满足大多数人快速实验深度学习模型的需求的。如果你还在纠结深度学习框架的选择，那么请选择Keras吧——当你真正觉得Keras不能满足你的需求时，你已经有能力驾驭任何框架了，也就没有这个纠结了。

转载到请包括本文地址：https://kexue.fm/archives/4493

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Jul. 22, 2017). 《Keras中自定义复杂的loss函数》[Blog post]. Retrieved from https://kexue.fm/archives/4493

@online{kexuefm-4493,
        title={Keras中自定义复杂的loss函数},
        author={苏剑林},
        year={2017},
        month={Jul},
        url={\url{https://kexue.fm/archives/4493}},
}

分类：信息时代标签：模型, 深度学习, 损失函数, keras 157 评论

< Linux下的误删大坑与简单的恢复技巧 | 基于Xception的腾讯验证码识别（样本+代码） >

你也许还对下面的内容感兴趣

发表你的看法

Donny

April 9th, 2019

您好！我在做CNN识别MNIST的一篇论文时遇到自定义loss的问题。具体是这样的：
1. 输入数据集包括原始MNIST$(x_r)$和加噪MNIST$(x_p)$
2. 神经网络是最简单的四层CNN
3. softmax输出是$y_r$和$y_p$（对应$x_r$和$x_p$）。
4. total loss$E$等于$x_p$的loss$E_p$加上$x_r$的loss$E_r$再加上$x_p$和$x_r$的均方差（）
5. 我用keras编程，利用共享层算出$\alpha E_p+\beta E_r$，使用了loss_weights

问题是我不知道用什么方式把均方差那一项也加上去？看了博主的文章，我有了点启发，但是我不太熟悉keras，还是想请教一下博主，麻烦您有时间指点一下。

- loss_weights的定义：
losses = {
"out1": AntiPiracyDNN.r_loss,
"out2": AntiPiracyDNN.p_loss,
}
lossWeights = {"out1": 1.0, "out2": 1.0}

- $E_r$和$E_p$的loss函数：
def r_loss(y_true, y_pred):
return K.categorical_crossentropy(y_true, y_pred) + 0.001

def p_loss(y_true, y_pred):
return math_ops.reduce_sum(y_true * y_pred, axis=-1)

- total loss的定义公式：
$E=\alpha E_{p}+\beta E_{r}+\gamma\left\|x_{p}-x_{r}\right\|_{2}^{2}$

- 我目前写好的代码：https://github.com/MrDongdongLin/privacyDNN

回复评论

苏剑林发表于 April 10th, 2019

请看这篇文章的第一节：
https://kexue.fm/archives/6311

回复评论

winterstar

April 26th, 2019

苏老师，自定义$keras$的$loss$的时候，是针对整个样本来写代码，还是只针对一个样本来写代码呢？总是对$loss$里面是不是要调用平均函数纠结...

回复评论

sparkingarthur 发表于 June 12th, 2019

我一般都是取mean的，取了mean，即使keras的loss是针对每个样本算的，也不影响最后的loss。

回复评论

zhenzhen

May 2nd, 2019

请教一个问题，在利用keras进行训练模型的时候。怎么返回训练数据的次序啊？也就是现在的输入数据在原输入数据中的次序。

回复评论

苏剑林发表于 May 3rd, 2019

你这个需求好神奇～我觉得你可以自己写一个生成器对象，然后用fit_generator训练，训练词序在生成器中存起来。

回复评论

zhazhuanling

May 5th, 2019

\usepackage{listings}

嗨，苏神你好！看到你这写到“如果像第二部分那样写，那么就不能设置metrics参数，那么训练过程中就不能显示准确率了，这不能说是一个小遗憾。”，我能理解成，如果是多输入模型，就不能显示acc了，这样是对的嘛？
但在我自己的一个实验中，模型相关的代码如下：

即使加了metrics，但在训练过程中的history中都没有acc。

求苏神解答~~

回复评论

苏剑林发表于 May 6th, 2019

你的代码没有贴出来，被防火墙拦住了？

不是多输入模型就不能显示acc，不管是多输入、多输出模型，都可以显示metrics，可以进一步参考：
https://kexue.fm/archives/6311#%E6%9B%B4%E9%9A%8F%E6%84%8F%E7%9A%84metric

回复评论

asdasd

May 8th, 2019

楼主你好，我想针对不同区间的y_true，使用不同的损失函数

因为不太熟练，能不能在损失函数的计算中输出计算的详细过程，观察功能是否是我想要的呢？

回复评论

asdasd 发表于 May 8th, 2019

喷了，我在外面调试好再直接放进去不就好了，又犯二了

回复评论

苏醒丶

May 9th, 2019

苏神，请教个小问题~ 就是在第二部分，做qa训练的时候，有如下的代码：
model_q_encoder = Model(inputs=q_input, outputs=q_encoded)
model_a_encoder = Model(inputs=a_right, outputs=a_right_encoded)

model_q_encoder.compile(optimizer='adam', loss='mse')
model_a_encoder.compile(optimizer='adam', loss='mse')

是否可以把子模型的输出直接改成问题和正确答案的得分呢~，就像下面这样：
model_q_encoder = Model(inputs=[q_input,a_right], outputs=right_cos)

model_q_encoder.compile(optimizer='adam', loss='mse')

回复评论

苏剑林发表于 May 10th, 2019

可以，随你。

回复评论

winterstar

May 20th, 2019

请教博主，自定义loss函数时返回是一个batch_size大小的样本点loss组成的张量吗？

回复评论

苏剑林发表于 May 21st, 2019

对的。但你直接对batch_size那一维也取平均、最终返回一个标量，也是可以的。

回复评论

winterstar 发表于 May 24th, 2019

我试过了，真的可以，只是两种方式貌似效果不一样，我用metrics内置的mae评估时，两种方式得出的结果差别比较大，是不是应该使用自定义的metrics?我的y_true和y_pred形状是(batch_size,1)。感谢回复~

回复评论

苏剑林发表于 May 25th, 2019

没写错的话是等价的，你应该检测有没有写错

回复评论

JieYin

August 7th, 2019

请教博主，我想要在训练的过程中动态的调整loss,在MSE前面乘上一个动态系数，是原始样本与重构样本的互信息相关，请问Keras的自定义loss层中怎么计算这个步骤？不太熟练，写出来总是提示要喂值

回复评论

苏剑林发表于 August 9th, 2019

https://kexue.fm/archives/5765
参考这里边的“修改超参数”这一节。

回复评论

winteriscoming

September 7th, 2019

博主你好，如果在一个自定义的层里使用$add\_loss$添加了一个损失函数$loss_1$，然后又在后面自定义一个$loss$层返回一个损失函数$loss_2$,我想要的最终的损失函数是这两个函数相加，最后$compile$函数里$loss$参数该怎么写呢？写成$loss=loss_2$还是写成loss=loss_1+loss_2$呢？

回复评论

苏剑林发表于 September 8th, 2019

直接loss=loss2即可

回复评论

sarah

September 24th, 2019

苏神您好，想请教一下我的模型是3个输入和3个输出（即半监督学习([x_self, x_super,feature_in], [y_self, y_super,feature_out])），提取了倒数第二个全连接层为feature_out,
并定义了center loss来训练（即总共有3个loss），但是在这一句一直报错：
feature_iter = self_datagen.flow(features,shuffle=True, batch_size=1, seed=None)
“ValueError: setting an array element with a sequence.”
感觉是提取的features没有办法用，因为它的shape是（？，256），不知道怎么解决,所以请教一下您！

回复评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

Keras中自定义复杂的loss函数

输入-输出设计 #

并不仅仅是输入输出那么简单 #

Embedding层的妙用 #

Keras就是这么好玩 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接