为什么最好的mini-batch的大小通常不是1也不是训练集总样本数m,而是介于两者之间 ?
A: 如果mini-batch的大小是1,那么你需要遍历整个训练集后才能更新一次参数
B: 如果mini-batch的大小是m,就是批量梯度下降。你需要遍历整个训练集来更新参数
C: 如果mini-batch的大小是1,那么你将失去mini-batch将数据矢量化带来的的好处
D: 如果mini-batch的大小是m,就是随机梯度下降,而这样做经常会比mini-batch慢
A: 如果mini-batch的大小是1,那么你需要遍历整个训练集后才能更新一次参数
B: 如果mini-batch的大小是m,就是批量梯度下降。你需要遍历整个训练集来更新参数
C: 如果mini-batch的大小是1,那么你将失去mini-batch将数据矢量化带来的的好处
D: 如果mini-batch的大小是m,就是随机梯度下降,而这样做经常会比mini-batch慢
举一反三
- 如果你训练的模型代价函数J随着迭代次数的增加,绘制出来的图如下,那么[img=719x448]18033254a437b9a.jpg[/img] A: 如果你正在使用mini-batch梯度下降,那可能有问题;而如果你在使用批量梯度下降,那是合理的 B: 如果你正在使用mini-batch梯度下降,那看上去是合理的;而如果你在使用批量梯度下降,那可能有问题 C: 无论你在使用mini-batch还是批量梯度下降,看上去都是合理的 D: 无论你在使用mini-batch还是批量梯度下降,都可能有问题
- 下面关于梯度下降法描述正确的是 A: 梯度下降法作为机器学习中较常使用的优化算法,其有着三种不同的形式:批量梯度下降(Batch Gradient Descent)、随机梯度下降(Stochastic Gradient Descent)以及小批量梯度下降(Mini-Batch Gradient Descent)。 B: 批量梯度下降法是最原始的形式,它是指在每一次迭代时使用所有样本来进行梯度的更新。 C: 随机梯度下降法不同于批量梯度下降,是每次迭代使用一个样本来对参数进行更新。 D: 小批量梯度下降法是对批量梯度下降以及随机梯度下降的一个折中办法。更新参数时使用一部分训练样本。一般将训练样本集分成若干个batch,每个batch包含m个样本。每次更新都利用一个batch的数据,而非整个训练集。
- 关于梯度下降算法,以下说法正确的是 A: 随机梯度下降算法是每次考虑单个样本进行权重更新 B: Mini-Batch梯度下降算法是批量梯度下降和随机梯度下降的折中 C: 批量梯度下降算法是每次考虑整个训练集进行权重更新 D: 以上都对
- 在采用机器学习算法对数据集进行训练时,数据集Mini-Batch 的大小通常优选为2个的幂,如 256 或 512。这样选择的原因是什么?() A: Mini-Batch 为偶数的时候,梯度下降算法训练的更快 B: Mini-Batch 设为 2 的 幂,是为了符合 CPU、GPU 的内存要求,利于并行化处理 C: 不使用偶数时,损失函数是不稳定的 D: 以上说法都不对
- 以下说法哪种正确( )? A: spark和flink的streaming实现方法雷同,都是将streaming切成小的batch数据,然后运行 B: flink streaming是mini-batch,而spark streaming是streaming方式 C: mini-batch是无状态的,而streaming方式是有状态的 D: 批量计算可以转化为流计算运行