下面梯度下降说法正确的是?()
A.随机梯度下降是梯度下降中常用的一种
B.梯度下降包括随机梯度下降和批量梯度下降
C.梯度下降算法速度快且可靠
D.随机梯度下降是深度学习算法当中常用的优化算法之一
A.随机梯度下降是梯度下降中常用的一种
B.梯度下降包括随机梯度下降和批量梯度下降
C.梯度下降算法速度快且可靠
D.随机梯度下降是深度学习算法当中常用的优化算法之一
A.随机梯度下降
B.设置Momentum
C.设置不同初始值
D.增大batchsize
A.当优化问题的数值解接近局部最优值时,随着目标函数解的梯度接近或变为零,通过最终迭代获得的数值解可能仅使目标函数局部最优,而不是全局最优
B.在深度学习优化问题中,经常遇到的是梯度爆炸或梯度消失
C.优化问题中设置的学习率决定目标函数能否收敛到局部最小值,以及何时收敛到最小值
D.一般来说,小批量随机梯度下降比随机梯度下降和梯度下降的速度慢,收敛风险较大
A.随机梯度下降法最终收敛的点不一定是全局最优
B.随机梯度下降法最终收敛的点一定是全局最优
C.无论随机梯度下降法存不存在最终收敛的点,一定可以找到最优解
D.无论随机梯度下降法存不存在最终收敛的点,一定不能找到最优解
A.如果mini-batch的大小是1,那么在取得进展前,需要遍历整个训练集
B.如果mini-batch的大小是m,就会变成批量梯度下降。在取得进展前,需要遍历整个训练集
C.如果mini-batch的大小是1,那么将失去mini-batch将数据矢量化带来的的好处
D.如果mini-batch的大小是m,就会变成随机梯度下降,而这样做经常会比mini-batch慢
A.负梯度方向是使函数值下降最快的方向
B.当目标函数是凸函数时,梯度下降法的解是全局最优解
C.梯度下降法比牛顿法收敛速度快
D.拟牛顿法不需要计算Hesse矩阵
A.特征数据归一化加速梯度下降优化的速度
B.特征数据归一化有可能提高模型的精度
C.线性归一化适用于特征数值分化比较大的情况
D.概率模型不需要做归一化处理
A.如果学习率很小,则优化成本函数将花费大量时间
B.如果学习率非常高,则梯度下降可能永远不会收敛
C.学习率是使用损失函数导数和步长来计算的
D.学习率是梯度下降算法中的超参数