Normalization

  • https://zhuanlan.zhihu.com/p/33173246

    对于魏秀参博士的理解:各层通过层内作用,其输出分布与各层对应的输入信号分布差异很大,而且差异会随着网络的加深而增大(边缘概率不同),可是它们指示的label是相同的,也就是条件概率相同。这就是ICS。

    ICS导致的问题:

    每个神经元的输入数据不再是独立同分布。上层参数需要不断适应新的输入数据分布,降低学习速度。下层输入的变化可能趋向于变大或者变小,导致上层落入饱和区,使得学习过早停止。每层的更新都会影响到其它层,因此每层的参数更新策略需要尽可能的谨慎。

    如何理解神经元的输入数据?

    因为神经元接受的是一组输入向量,有batch_size个,那么输入为X=(x1,x2,…..xd)。d表示上一层有d个神经元,而x1本身是batch_size维度的向量。

  • 在将数据喂给深度网络之前,“白化”:去除特征之间的相关性,即特征独立;使得所有特征具有相同的均值和方差,即同分布。白化最典型的方法就是独立同分布。