假设在一个深度学习网络中,批量梯度下降花费了大量时间时来找到一组参数值,使成本函数小。以下哪些方法可以帮助找到值较小的参数值?()
A.令所有权重值初始化为0
B.尝试调整学习率
C.尝试mini-batch梯度下降
D.尝试对权重进行更好的随机初始化
A.令所有权重值初始化为0
B.尝试调整学习率
C.尝试mini-batch梯度下降
D.尝试对权重进行更好的随机初始化
A.随机梯度下降
B.设置Momentum
C.设置不同初始值
D.增大batchsize
A.当优化问题的数值解接近局部最优值时,随着目标函数解的梯度接近或变为零,通过最终迭代获得的数值解可能仅使目标函数局部最优,而不是全局最优
B.在深度学习优化问题中,经常遇到的是梯度爆炸或梯度消失
C.优化问题中设置的学习率决定目标函数能否收敛到局部最小值,以及何时收敛到最小值
D.一般来说,小批量随机梯度下降比随机梯度下降和梯度下降的速度慢,收敛风险较大
A.梯度方向是函数值下降最快方向
B.梯度下降算法是一种使得损失函数最小化的方法
C.梯度下降算法用来优化深度学习模型的参数
D.梯度反方向是函数值下降最快方向
A.学习率为0.3是一个非常好的选择
B.可以考虑使用更大的学习率1.0
C.可以考虑使用较小的学习率0.1
D.以上全部不正确
A.如果学习率很小,则优化成本函数将花费大量时间
B.如果学习率非常高,则梯度下降可能永远不会收敛
C.学习率是使用损失函数导数和步长来计算的
D.学习率是梯度下降算法中的超参数
A.正向传播更新参数
B.正向传播计算结果
C.反向传播更新参数
D.反向传播计算结果
A.AlexNet的网络结构和LeNet非常类似,但更深更大,并且使用了层叠的卷积层来获取特征
B.GoogLeNet的主要贡献是实现了一个bottleneck模块,能够显著地减少网络中参数的数量
C.ResNet使用了特殊的跳跃链接,大量使用了批量归一化,并在最后使用了全连接层
D.VGGNet的主要贡献是展示出网络的深度是算法优良性能的关键部分
A.先反向传播计算出误差,再正向传播计算梯度
B.只有反向传播计算梯度
C.只有反向传播计算输出结果
D.先正向传播计算出误差,再反向传播计算梯度