点击率预测是一个正负样本不平衡问题(例如 99% 的没有点击,只有 1% 点击)。假如在这个非平衡的数据集上建立一个模型,得到训练样本的正确率是 99%,模型正确率很高,不需要优化模型了
举一反三
- 如果一个模型在训练集上正确率为99%,测试集上正确率为60%。我们应该怎么做()。 A: 加入正则化项 B: 增加训练样本数量 C: 增加模型复杂度 D: 减少模型复杂度
- 如果一个模型在训练集上正确率为99%,测试集上正确率为60%,则下面哪种处理方法是错误的?( ) A: 增加模型复杂度 B: 加入正则化项 C: 减少模型复杂度 D: 增加训练样本数量
- 百度分析云精准评估渠道量,其中归因模型包含: A: 首次点击归因模型,非首次点击归因模型 B: 首次点击归因模型,最终点击归因模型 C: 首次点击归因模型,最终点击归因模型,线性点击归因模型 D: 首次点击归因模型,最终点击归因模型,线性点击归因模型,非线性点击归因模型
- 关于训练集和测试集的划分,下面比较好的做法是: A: 将手头上所有的数据拿来训练模型,预测结果正确率最高的模型就是我们所要选的模型 B: 将所有数据中的前百分之80拿来训练模型,剩下的百分之20作为测试集,测试集预测结果正确率最高的模型就是我们所要选的模型 C: 将所有数据先随机打乱顺序,百分之80用来训练模型,剩下的百分之20作为测试集,测试集预测结果正确率最高的模型就是我们所要选的模型 D: 将所有数据先随机打乱顺序,平均分成5份,轮流拿出其中1份作为测试集,其余的4份做为训练集,各次测试集预测的正确率求均值,正确率均值最高的模型就是我们所要选的模型
- 关于训练样本的描述中,正确的是哪些? A: 样本越多,模型训练越慢,性能一定越好。 B: 训练样本越少,模型的方差越大。 C: 如果模型性能不佳,可增加样本多样性进行优化。 D: 增加数据可以减少模型方差。