归一化的核心思想是改变输入数据的分布,使其具有统一的均值和方差,以此来帮助神经网络更好地训练。Batch Normalization和Layer Normalization都是这一思想的实现,但它们在具体的实施细节上有所不同。
Batch Normalization是计算一个批次中每个特征维度的平均值和标准差,然后再对每个特征维度进行标准化计算。
操作方式和方式如下:
Layer Normmalization是计算一个数据中所有特征维度的平均值和标准差,然后再对这个数据进行标准化计算。
与Batch Normalization不同,Layer Normalization是在每个数据点上独立地进行的,它计算的是一个数据点内部所有特征的均值和方差。
公式:与Batch Normalization的公式类似,但均值和方差是在特征维度上计算的。
Batch Normalization和Layer Normmalization都可以起到标准化数据的效果,其在不同的场景下可能会得到不同的效果。在Transformer模型中使用Layer Normmalization效果会更好。
本文暂时没有评论,来添加一个吧(●'◡'●)