当然,包括深度网络在内的神经网络需要仔细调整权重初始值和学习参数。批量标准化能够使这个过程更加简单。
权重问题:
无论怎么设置权重初始值,比如随机或按经验选择,初始权重和学习后的权重差别都很大。考虑一小批权重,在较初时,对于所需的特征激活可能会有很多异常值。
深度神经网络本身就具有病态性,即初始层的微小变化就会导致后一层的巨大变化。
在反向传播过程中,这些现象会导致梯度的偏移,这就意味着在学习权重以产生所需要的输出之前,梯度必须补偿异常值。而这将导致需要额外的时间才能收敛。
批量标准化将这些梯度从异常值调整为正常值,并在小批量范围内(通过标准化)使其向共同的目标收敛。
学习率问题:
通常来说,学习率都比较小,这样只有一小部分的梯度用来校正权重,因为异常激活的梯度不应该影响已经学习好的权重。
通过批量标准化,这些异常激活的可能性会被降低,就可以使用更大的学习率加速学习过程。