我们想要训练一个 ML 模型,样本数量有 100 万个,特征维度是 5000,面对如此大数据,如何有效地训练模型?( )
A: 对训练集随机采样,在随机采样的数据上建立模型
B: 尝试使用在线机器学习算法
C: 使用 PCA 算法减少特征维度
D: 选项中都不对
A: 对训练集随机采样,在随机采样的数据上建立模型
B: 尝试使用在线机器学习算法
C: 使用 PCA 算法减少特征维度
D: 选项中都不对
举一反三
- 想要训练一个ML模型,样本数量有100万个,特征维度是5000,面对如此大数据,如何有效地训练模型( )? A: 对训练集随机采样,在随机采样的数据上建立模型 B: 尝试使用在线机器学习算法 C: 使用PCA算法减少特征维度
- 在一个包含5000个特征及超过一百万个观测值的数据集上建立一个机器学习的模型,下面哪种方法能更高效地训练模型?() A: 使用在线学习算法 B: 从数据集中随机抽取样本来建立模型 C: 使用主成分分析法(PCA)对数据降维 D: 使用支持向量机SVM来建立模型
- 模型算法中,对样本数据机器学习时,通常把数据集分为训练集和测试集()
- 如果您的模型在训练数据上表现很好,但在新实例上泛化很差,会发生什么?您如何可能解决这个问题?[br][/br] 选择一个: A: 模型可能会过拟合训练数据,需要使用更复杂的算法。 B: 模型很可能是过拟合训练数据,所以我们应该使用更简单的算法。 C: 模型可能欠拟合训练数据,所以我们应该使用更简单的算法。 D: 模型很可能欠拟合训练数据,所以我们应该使用更复杂的算法。
- 在机器学习过程中,训练过程中使用的数据样本集合称为 A: 训练集 B: 结果集 C: 模型集 D: 学习集