下面哪些是Batch normalization的作用?
A: 增加训练时间
B: 可以使用更大的学习率,加快深层网络训练
C: 减少梯度消失和梯度爆炸
D: 使深层网络对隐层参数初始化不敏感
A: 增加训练时间
B: 可以使用更大的学习率,加快深层网络训练
C: 减少梯度消失和梯度爆炸
D: 使深层网络对隐层参数初始化不敏感
举一反三
- 梯度消失和梯度爆炸不会导致下面哪种情况? A: 梯度消失会导致网络训练变慢 B: 梯度消失使网络性能不佳,分类准确度低 C: 梯度爆炸使网络训练时代价函数震荡,不利于收敛 D: 梯度爆炸会加快网络训练,更易达到最优解
- 以下哪个不是batch normalization的优点? A: 减少梯度消失 B: 提高网络训练速度 C: 减少过拟合 D: 梯度曲面更加光滑
- 下面有关神经网络梯度消失说法错误的是() A: 当神经网络的隐层增加时,就容易发生梯度消失问题,表现在靠近输入层的权重难以更新。 B: 网络梯度消失可能导致有些权重难以更新,导致网路训练失败。 C: 网络梯度消失可以通过改变隐层和输出层的神经元激活函数减弱。 D: 网络梯度消失可以通过减少隐层神经元的个数减弱。
- ResNet的特点不包括以下哪一点? A: 模型参数明显增加。 B: 学习结果对网络权重的波动变化更加敏感。 C: 减少深层网络的梯度消失问题。 D: 残差结果对数据的波动更加敏感。
- 以下说法正确的是哪些? A: 使用ReLU做为激活函数,可有效地防止梯度爆炸 B: 使用Sigmoid做为激活函数,较容易出现梯度消失 C: 使用Batch Normalization层,可有效地防止梯度爆炸 D: 使用参数weight decay,在一程度上可防止模型过拟合