• 2022-07-29
    我们想要训练一个 ML 模型,样本数量有 100 万个,特征维度是 5000,面对如此大数据,如何有效地训练模型?( )
    A: 对训练集随机采样,在随机采样的数据上建立模型
    B: 尝试使用在线机器学习算法
    C: 使用 PCA 算法减少特征维度
    D: 选项中都不对
  • A,B,C

    内容

    • 0

      ____是训练机器学习算法的数据集;____是用来评估经训练后的模型性能的数据集;____是用来微调模型超参数的数据集。

    • 1

      测试集是训练机器学习算法的数据集训练集是用来评估经训练后的模型性能的数据集验证集是用来微调模型超参数的数据集。

    • 2

      机器学习算法在哪一过程中使用? A: 数据准备 B: 训练过程 C: 测试过程 D: 模型选择

    • 3

      如果模型在训练集上表现很好,在新的数据上表现很差,发生了什么? A: 模型很可能出现了过拟合(overfitting)。 B: 需要获取更多的训练数据 C: 用一个简单的模型或算法、减少所用的特征或参数、正则化模型 D: 减少训练数据中的噪音。

    • 4

      对于分类任务而言,IRIS数据集的样本特征维度是______ ; 利用其中每一类80%的样本的全部已知信息作为训练数据构建一个分类器,所采用的机器学习方法应为______ 学习;基于数据学习得到的模型再处理新数据方面的能力被称为______ 能力;一个模型无论如何学习也无法在训练数据上取得令人满意的效果,说明该模型的______ 不足。