机器学习中,如何利用训练集测试集来判断-方差varience-偏差bias
目录
机器学习中,如何利用训练集&测试集来判断 方差(varience)& 偏差(bias)
内容基于NG的课程varience and bias tardeoff
假设我们需要对图片中是否是“猫”做出判断,并且数据集D给出的标签是完全正确的。
现在将数据集切分成训练集trainingSet 和 测试集testingSet,训练出了多个模型,并得出以下结果:
模型 | 训练集的错误率 | 测试集的错误率 | 结论 |
---|---|---|---|
A | 1% | 1.2% | low bias & low varience |
B | 1% | 15% | high varience (过拟合) |
C | 15% | 16% | high bias (欠拟合) |
D | 10% | 30% | high varience & high bias (部分维度欠拟合,部分维度过拟合) |
总结:一般情况下,训练集的错误率会略低于测试集的错误率。
若测试集的错误率远高于训练集,则可认为是方差过高(过拟合),若测试集和训练集的错误率均远高于理想结果,则认为是欠拟合(需从增加迭代次数,增加模型复杂度等方面着手)