在进行数据分析时,经常要分割训练集、测试集,并且还要考虑数据预处理、特征抽取、特征工程等,那么要仔细分析这些步骤之间的相互联系。关于训练集、测试集、数据预处理、特征工程,请回答以下问题关于缺失值填充与训练集、测试集的关系,下面正确的操作是()
A: 先用全数据的均值填充缺失值,然后随机分割训练集、测试集
B: 先随机分割训练集、测试集,然后用各自集合的均值填充缺失值
C: 先随机分割训练集、测试集,然后用训练集的均值填充缺失值
D: 先随机分割训练集、测试集,然后用测试集的均值填充缺失值
A: 先用全数据的均值填充缺失值,然后随机分割训练集、测试集
B: 先随机分割训练集、测试集,然后用各自集合的均值填充缺失值
C: 先随机分割训练集、测试集,然后用训练集的均值填充缺失值
D: 先随机分割训练集、测试集,然后用测试集的均值填充缺失值
举一反三
- 在模型训练的时候为什么要将数据集拆分成训练集和测试集?( ) A: 测试集与训练集数据不能有重复.防止过拟合 B: 需要划分测试集数据用来调参 C: 数据集太多.训练模型用不了这么多数据
- 将训练集随机等分为若干份,并选择其中的一份为测试集,其余作为训练集进行训练,然后将目标函数在该测试集上进行测试,最后用结果来评价其参数设置的性能。这种方法用来解决维度灾难的问题。( )
- 下面的说法中,错误 的是: A: 特征列是指用于预测目标数据的数据列 B: 测试集是用来评估模型效果的数据行 C: 训练集数量一般要大于测试集 D: 即使测试集数量大于训练集,测试集也不能当成训练集
- 以下描述的问题,哪一个是过拟合的表现? A: 训练集和测试集的性能都较低 B: 训练集性能较低,测试集性能较高 C: 训练集性能较高,测试集性能较低 D: 训练集和测试集的性能都较高
- 机器学习系统中通常将数据集划分为训练集和测试集,其中被用来学习得到模型中参数值的是( )。 A: 训练集 B: 测试集 C: 训练集和测试集 D: 以上答案都不对