【多选题】批规范化(Batch Normalization)的好处都有:
A: 和原始数据的标准化作用相同。
B: 简化调参,网络更稳定。BN层抑制了参数微小变化随网络加深而被放大的问题,对参数变化的适应能力更强,更容易调参。
C: 防止过拟合。BN层将每一个batch的均值和方差引入到网络中,由于每个batch的这俩个值都不相同,可看做为训练过程增 加了随机噪声,可以起到一定的正则效果,防止过拟合。
D: 缓解梯度消失,加速网络收敛。
A: 和原始数据的标准化作用相同。
B: 简化调参,网络更稳定。BN层抑制了参数微小变化随网络加深而被放大的问题,对参数变化的适应能力更强,更容易调参。
C: 防止过拟合。BN层将每一个batch的均值和方差引入到网络中,由于每个batch的这俩个值都不相同,可看做为训练过程增 加了随机噪声,可以起到一定的正则效果,防止过拟合。
D: 缓解梯度消失,加速网络收敛。
举一反三
- 以下哪个不是batch normalization的优点? A: 减少梯度消失 B: 提高网络训练速度 C: 减少过拟合 D: 梯度曲面更加光滑
- 下面有关批归一化BN(batch normalization)的说法,错误的是哪个? A: BN主要解决深度神经网络各层输入的分布一致,增加训练过程的平衡 B: BN可以减少每个隐层神经元梯度的变化幅度 C: BN起到了减少过拟合的作用 D: BN一般位于隐层神经元的激活函数输出之后
- 以下哪些方法可以减少深度神经网络模型的过拟合问题? A: Dropout B: BN(batch normalization) C: Residual结构 D: 损失函数的正则项
- 以下说法正确的是哪些? A: 使用ReLU做为激活函数,可有效地防止梯度爆炸 B: 使用Sigmoid做为激活函数,较容易出现梯度消失 C: 使用Batch Normalization层,可有效地防止梯度爆炸 D: 使用参数weight decay,在一程度上可防止模型过拟合
- 以下哪些方法有助于解决模型训练过程中的过拟合问题? A: 正则化 B: Dropout C: Batch Normalization D: 提前终止训练 E: 梯度下降