对于卷积神经网络而言,减少梯度消失可以采用以下哪些方法?
A: 增大学习率
B: 减少网络深度(隐层个数)
C: skip connection
D: 减少通道数
A: 增大学习率
B: 减少网络深度(隐层个数)
C: skip connection
D: 减少通道数
举一反三
- 针对深度学习的梯度消失问题,哪种因素可能是无效的? A: 增大学习率 B: 减少网络深度 C: 添加shortcut(skip) connection D: 减少输入层词嵌入向量维度
- 下面有关神经网络梯度消失说法错误的是() A: 当神经网络的隐层增加时,就容易发生梯度消失问题,表现在靠近输入层的权重难以更新。 B: 网络梯度消失可能导致有些权重难以更新,导致网路训练失败。 C: 网络梯度消失可以通过改变隐层和输出层的神经元激活函数减弱。 D: 网络梯度消失可以通过减少隐层神经元的个数减弱。
- 哪些方法可以减少深度学习的梯度消失问题? A: 减少网络深度 B: 预训练+微调 C: 使用ReLU激活函数 D: 使用Sigmoid激活函数
- 在AlexNet等典型的卷积神经网络中,随着网络的深度增加,通常有( ) A: 每层的通道的高度和宽度减少,通道数增加。 B: 每层的通道的高度和宽度增加,通道数增加。 C: 每层的通道的高度和宽度减少,通道数减少。 D: 每层的通道的高度和宽度增加,通道数减少。
- 下面哪些是Batch normalization的作用? A: 增加训练时间 B: 可以使用更大的学习率,加快深层网络训练 C: 减少梯度消失和梯度爆炸 D: 使深层网络对隐层参数初始化不敏感