机器学习 |1 模型评估
1.经验误差与过拟合经验误差/训练误差误差指的是学习器输出的预测值与真实值之间的差距经验误差是学习器在训练数据上的误差泛化误差学习器在新样本上的误差过拟合与欠拟合以前文中猫和狗的分类具体例子假如学习器训练的很完美能区分出每一根毛发甚至看出每一根毛长成啥样以此作为分类依据我给它5000张图片它直接给我设定了5000个特征你不能说它错但是它分的太仔细了。这个就是过拟合。学习器由于精度太高导致泛化性能下降。欠拟合指的就是学的太粗糙。从分类器的角度来说分类依据太少可能仅以皮毛的颜色来区分猫和狗当然不准确就是欠拟合。2.评估方法为了评估学习器的性能通常用测试集来测试学习器对新样本的判别能力然后以测试集上的“测试误差”作为泛化误差的近似。但是为了测试误差的准确性最好是测试集与训练集不重合否则在训练集上判别为正确的在测试的过程中还会判别未正确其实不利于评估。从数据集中划分训练集和测试集主要有以下三种做法三种划分方法1.留出法把D划分为两个互斥的集合S和T分层采样保持S和T中正例比例相同。大约2/3~4/5用作训练。2.交叉验证法将D划分为k个大小相同互斥的子集。每次选择k-1个训练另一个测试重复k次。最常用的k是10次。当km为留一法。3.自助法包含m个样本的样本集D随机抽取一个放入D放回。重复执行m次。样本在m次中始终不被采集到的概率为(1-1/m)^m。每次不被采集的概率为1-1/m) 当m趋向于无穷时可以看作e^(m*ln(1-1/m)) 1/e。发布于 2026-04-26 00:16・北京