选自 arXiv.org
作者:Jimmy Lei Ba、Jamie Ryan Kiros、Geoffrey E. Hinton
机器之心编译
参与:李亚洲
摘要:训练最先进的深度神经网络计算成本昂贵。减少训练时间的一个方式是将神经元活动归一化。最近介绍的一种名为batch normalization 的技术在小批量(mini-batch)的训练案例上使用一个神经元总结输入( summed input)的分布计算均值与方差,然后用它们归一这一神经元在每个训练案例上的总结输入。这明显减少了前馈神经网络中的训练时间。然而,batch normalization 的效果依赖于 mini-batch 的大小,而且如何应用于循环神经网络也不明显。在此论文中,我们通过计算来自单一训练案例中一层神经元的所有总结输入的均值与方差(用于归一化的),将 batch normalization 调换为层归一化(layer normalization)。如同 batch normalization,我们也给每一个神经元自己的适应偏差( adaptive bias)与增益,它们在归一化之后、非线性(non-linearity)之前被使用。不同于 batch normalization,层归一化在训练以及测试时间上表现出完全同样的计算能力。它也能通过分别计算每一时间步骤上的归一化统计( normalization statistics)直接应用于循环神经网络。层归一化在循环网络中的隐态动态的稳定上非常有效。经验上,我们的结果显示相比于先前公开的技术,层归一化能充分的减少训练时间。
?本文由机器之心编译,转载请联系本公众号获得授权。
?------------------------------------------------
加入机器之心(全职记者/实习生):hr@almosthuman.cn
投稿或寻求报道:editor@almosthuman.cn
广告&商务合作:bd@almosthuman.cn
本文暂时没有评论,来添加一个吧(●'◡'●)