以下关于深度神经网络的说法中错误的是
A: 使用梯度裁剪(gradient clipping)有助于减缓梯度爆炸问题
B: 若batch size过小,batch normalization的效果会出现退化
C: 在使用SGD训练时,若训练loss的变化逐渐平缓不再明显下降时,通常可以通过减小learning rate的方式使其再进一步下降
D: 增大L2正则项的系数有助于减缓梯度消失问题
A: 使用梯度裁剪(gradient clipping)有助于减缓梯度爆炸问题
B: 若batch size过小,batch normalization的效果会出现退化
C: 在使用SGD训练时,若训练loss的变化逐渐平缓不再明显下降时,通常可以通过减小learning rate的方式使其再进一步下降
D: 增大L2正则项的系数有助于减缓梯度消失问题
举一反三
- 以下哪些方法有助于解决模型训练过程中的过拟合问题? A: 正则化 B: Dropout C: Batch Normalization D: 提前终止训练 E: 梯度下降
- 若batch size过小,batch normalization的效果会出现退化。
- 下面关于梯度下降法描述正确的是 A: 梯度下降法作为机器学习中较常使用的优化算法,其有着三种不同的形式:批量梯度下降(Batch Gradient Descent)、随机梯度下降(Stochastic Gradient Descent)以及小批量梯度下降(Mini-Batch Gradient Descent)。 B: 批量梯度下降法是最原始的形式,它是指在每一次迭代时使用所有样本来进行梯度的更新。 C: 随机梯度下降法不同于批量梯度下降,是每次迭代使用一个样本来对参数进行更新。 D: 小批量梯度下降法是对批量梯度下降以及随机梯度下降的一个折中办法。更新参数时使用一部分训练样本。一般将训练样本集分成若干个batch,每个batch包含m个样本。每次更新都利用一个batch的数据,而非整个训练集。
- 以下哪个不是batch normalization的优点? A: 减少梯度消失 B: 提高网络训练速度 C: 减少过拟合 D: 梯度曲面更加光滑
- 下面哪些是Batch normalization的作用? A: 增加训练时间 B: 可以使用更大的学习率,加快深层网络训练 C: 减少梯度消失和梯度爆炸 D: 使深层网络对隐层参数初始化不敏感