将训练集随机等分为若干份,并选择其中的一份为测试集,其余作为训练集进行训练,然后将目标函数在该测试集上进行测试,最后用结果来评价其参数设置的性能。这种方法用来解决维度灾难的问题。( )
举一反三
- 在进行数据分析时,经常要分割训练集、测试集,并且还要考虑数据预处理、特征抽取、特征工程等,那么要仔细分析这些步骤之间的相互联系。关于训练集、测试集、数据预处理、特征工程,请回答以下问题关于缺失值填充与训练集、测试集的关系,下面正确的操作是() A: 先用全数据的均值填充缺失值,然后随机分割训练集、测试集 B: 先随机分割训练集、测试集,然后用各自集合的均值填充缺失值 C: 先随机分割训练集、测试集,然后用训练集的均值填充缺失值 D: 先随机分割训练集、测试集,然后用测试集的均值填充缺失值
- 以下描述的问题,哪一个是过拟合的表现? A: 训练集和测试集的性能都较低 B: 训练集性能较低,测试集性能较高 C: 训练集性能较高,测试集性能较低 D: 训练集和测试集的性能都较高
- 一般地,不会把给定的整个数据集都用来训练模型,而是将其分成训练集和测试集两部分,使用训练集对模型进行训练或学习,然后把测试集输入训练好的模型并评估其表现。
- 下列关于train_test_split函数的说法正确的是( ) A: train_test_split能够将数据集划分为训练集、验证集和测试集 B: 生成的训练集和测试集在赋值的时候可以调换位置,系统能够自动识别 C: train_test_split每次的划分结果不同,无法解决 D: train_test_split函数可以自行决定训练集和测试集的占比
- 机器学习系统中通常将数据集划分为训练集和测试集,其中被用来学习得到模型中参数值的是( )。 A: 训练集 B: 测试集 C: 训练集和测试集 D: 以上答案都不对