在构建一个神经网络时,batchsize通常会选择2的次方,比如256和512,这是为什么呢?()
A.当内存使用最优时这可以方便神经网络并行化
B.当用偶数是梯度下降优化效果最好
C.这些原因都不对
D.当不用偶数时,损失值会很奇怪
A.根据人工经验随机赋值
B.搜索所有权重和偏差的组合,直到得到最佳值
C.赋予一个初始值,然后迭代更新权重,直至损失函数取得极小
D.下一层神经元继承上一层神经元的权重和偏差
A.同样模式的内容(如鸟嘴)在图像不同位置可能出现
B.池化之后的图像主体内容基本不变
C.不同种类鸟的相同部位(如鸟嘴)形状相似
D.池化作用能使不同种类鸟变得相似
A.用改良的网络结构比如LSTM和GRUs
B.梯度裁剪
C.Dropout
D.所有方法都不行