题目在梯度下降算法中,关于步长的说法,下列说法正确的是()
A.步长越大越好
B.步长越小越好
C.步长大小无所谓
D.步长需要根据实际训练的过程进行动态调
D、步长需要根据实际训练的过程进行动态调
A.步长越大越好
B.步长越小越好
C.步长大小无所谓
D.步长需要根据实际训练的过程进行动态调
D、步长需要根据实际训练的过程进行动态调
A.如果学习率很小,则优化成本函数将花费大量时间
B.如果学习率非常高,则梯度下降可能永远不会收敛
C.学习率是使用损失函数导数和步长来计算的
D.学习率是梯度下降算法中的超参数
A.反向传播只能在前馈神经网络中运用
B.反向传播会经过激活函数
C.反向传播可以结合梯度下降算法更新网络权重
D.反向传播指的是误差通过网络反向传播
A.随机梯度下降是梯度下降中常用的一种
B.梯度下降包括随机梯度下降和批量梯度下降
C.梯度下降算法速度快且可靠
D.随机梯度下降是深度学习算法当中常用的优化算法之一
A.梯度方向是函数值下降最快方向
B.梯度下降算法是一种使得损失函数最小化的方法
C.梯度下降算法用来优化深度学习模型的参数
D.梯度反方向是函数值下降最快方向
A.当目标函数是凸函数时,梯度下降算法的解一般就是全局最优解
B.进行PCA降维时,需要计算协方差矩
C.沿负梯度的方向一定是最优的方向
D.利用拉格朗日函数能解带约束的优化问题
A.当优化问题的数值解接近局部最优值时,随着目标函数解的梯度接近或变为零,通过最终迭代获得的数值解可能仅使目标函数局部最优,而不是全局最优
B.在深度学习优化问题中,经常遇到的是梯度爆炸或梯度消失
C.优化问题中设置的学习率决定目标函数能否收敛到局部最小值,以及何时收敛到最小值
D.一般来说,小批量随机梯度下降比随机梯度下降和梯度下降的速度慢,收敛风险较大
以下哪项是对早期停止(early stop)的最佳描述?()
A.训练网络直到达到误差函数中的局部最小值
B.在每次训练期后在测试数据集上模拟网络,当泛化误差开始增加时停止训练
C.在中心化权重更新中添加一个梯度下降加速算子,以便训练更快地收敛
D.更快的方法是反向传播算法
A.负梯度方向是使函数值下降最快的方向
B.当目标函数是凸函数时,梯度下降法的解是全局最优解
C.梯度下降法比牛顿法收敛速度快
D.拟牛顿法不需要计算Hesse矩阵
A.随机梯度下降法最终收敛的点不一定是全局最优
B.随机梯度下降法最终收敛的点一定是全局最优
C.无论随机梯度下降法存不存在最终收敛的点,一定可以找到最优解
D.无论随机梯度下降法存不存在最终收敛的点,一定不能找到最优解