14 Oct

训练集、验证集和测试集的意义

By 苏剑林 | 2017-10-14 | 44661位读者 |

在有监督的机器学习中，经常会说到训练集（train)、验证集（validation）和测试集（test），这三个集合的区分可能会让人糊涂，特别是，有些读者搞不清楚验证集和测试集有什么区别。

划分 #

如果我们自己已经有了一个大的标注数据集，想要完成一个有监督模型的测试，那么通常使用均匀随机抽样的方式，将数据集划分为训练集、验证集、测试集，这三个集合不能有交集，常见的比例是8:1:1，当然比例是人为的。从这个角度来看，三个集合都是同分布的。

如果是做比赛，官方只提供了一个标注的数据集（作为训练集）以及一个没有标注的测试集，那么我们做模型的时候，通常会人工从训练集中划分一个验证集出来。这时候我们通常不再划分一个测试集，可能的原因有两个：1、比赛方基本都很抠，训练集的样本本来就少；2、我们也没法保证要提交的测试集是否跟训练集完全同分布，因此再划分一个跟训练集同分布的测试集就没多大意义了。

参数 #

有了模型后，训练集就是用来训练参数的，说准确点，一般是用来梯度下降的。而验证集基本是在每个epoch完成后，用来测试一下当前模型的准确率。因为验证集跟训练集没有交集，因此这个准确率是可靠的。那么为啥还需要一个测试集呢？

这就需要区分一下模型的各种参数了。事实上，对于一个模型来说，其参数可以分为普通参数和超参数。在不引入强化学习的前提下，那么普通参数就是可以被梯度下降所更新的，也就是训练集所更新的参数。另外，还有超参数的概念，比如网络层数、网络节点数、迭代次数、学习率等等，这些参数不在梯度下降的更新范围内。尽管现在已经有一些算法可以用来搜索模型的超参数，但多数情况下我们还是自己人工根据验证集来调。

所以 #

那也就是说，从狭义来讲，验证集没有参与梯度下降的过程，也就是说是没有经过训练的；但从广义上来看，验证集却参与了一个“人工调参”的过程，我们根据验证集的结果调节了迭代数、调节了学习率等等，使得结果在验证集上最优。因此，我们也可以认为，验证集也参与了训练。

那么就很明显了，我们还需要一个完全没有经过训练的集合，那就是测试集，我们既不用测试集梯度下降，也不用它来控制超参数，只是在模型最终训练完成后，用来测试一下最后准确率。

然而 #

聪明的读者就会类比到，其实这是一个无休止的过程。如果测试集准确率很差，那么我们还是会去调整模型的各种参数，这时候又可以认为测试集也参与训练了。好吧，我们可能还需要一个“测试测试集”，也许还需要“测试测试测试集”...

算了吧，还是在测试集就停止吧。

转载到请包括本文地址：https://kexue.fm/archives/4638

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Oct. 14, 2017). 《训练集、验证集和测试集的意义》[Blog post]. Retrieved from https://kexue.fm/archives/4638

@online{kexuefm-4638,
        title={训练集、验证集和测试集的意义},
        author={苏剑林},
        year={2017},
        month={Oct},
        url={\url{https://kexue.fm/archives/4638}},
}

分类：信息时代标签：模型, 深度学习 3 评论

< 【随拍】门口的广州塔 | 浅谈神经网络中激活函数的设计 >

你也许还对下面的内容感兴趣

发表你的看法

star

February 22nd, 2018

我一直认为验证集是扮演了“喊停”的角色。

回复评论

xinghui

June 7th, 2018

请教一个问题：如果在训练过程中，验证集上效果很好，但是在测试集上很差，这种情况一般怎么解决，望赐教

回复评论

毅青

April 24th, 2022

可能验证集和测试集分布差距太大，还有一种可能，就是验证集的部分数据泄露给了训练集合

回复评论

内容速览

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

训练集、验证集和测试集的意义

划分 #

参数 #

所以 #

然而 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接