在构建一个神经网络时,batchsize通常会选择2的次方,比如256和512,这是为什么呢?()
A.当内存使用最优时这可以方便神经网络并行化
B.当用偶数是梯度下降优化效果最好
C.这些原因都不对
D.当不用偶数时,损失值会很奇怪
A.当内存使用最优时这可以方便神经网络并行化
B.当用偶数是梯度下降优化效果最好
C.这些原因都不对
D.当不用偶数时,损失值会很奇怪
A.随机梯度下降
B.设置Momentum
C.设置不同初始值
D.增大batchsize
A.将数据分组部署在不同GPU上进行训练能提高深度神经网络的训练速度。
B.TensorFlow使用GPU训练好的模型,在执行推断任务时,也必须在GPU上运行。
C.将模型中的浮点数精度降低,例如使用float16代替float32,可以压缩训练好的模型的大小。
D.GPU所配置的显存的大小,对于在该GPU上训练的深度神经网络的复杂度、训练数据的批次规模等,都是一个无法忽视的影响因素
A.Dropout
B.分批归一化(BatchNormalization)
C.正则化(regularization)
D.都可以
A.Dropout
B.分批归一化(BatchNormalization)
C.正则化(regularization)
D.都不可以
A.Dropout背后的思想其实就是把DNN当做一个集成模型来训练,之后取所有值的平均值,而不只是训练单个DNN
B.DNN网络将Dropout率设置为p,也就是说,一个神经元被保留的概率是1-p。当一个神经元被丢弃时,无论输入或者相关的参数是什么,它的输出值就会被设置为0
C.丢弃的神经元在训练阶段,对BP算法的前向和后向阶段都没有贡献。因为这个原因,所以每一次训练,它都像是在训练一个新的网络
D.Dropout方法通常和L2正则化或者其他参数约束技术(比如MaxNorm)一起使用,来防止神经网络的过拟合