神经网络中BN层简介及位置分析

本文介绍: Ba t c h Norm a liza tion是深度学习中常用的技巧，Ba t c h Norm a liza tion: Ac c eleratin g Deep Network Tra ining by Reducing Internal Cov ariate Shift (Ioffe and Szegedy, 2015) 第一次介绍了这个方法。这个方法的命名，明明是Standardization, 非要叫Normalization, 把本来就混用、意义不明的两个词更加搅得一团糟。

Batch Normalization是深度学习中常用的技巧，Batch Normalization: Ac c elerating Deep Network Training by Reducing Internal Cov ariate Shift (Ioffe and Szegedy, 2015) 第一次介绍了这个方法。

这个方法的命名，明明是Standardization, 非要叫Normalization, 把本来就混用、意义不明的两个词更加搅得一团糟。那standardization 和 Normalization有什么区别呢？

一般是下面这样（X是输入数据集）：

Batch-Norm 是一个网络层，对中间结果作上面说的 standardization 操作。实际上 standardization 也可以叫做 Z-score normalization。所以可以这样理解，standardization 是一种特殊的 normalization。normalization 作为一个 sca ling 的大类，包括 m in–max sca ling，standardization 等。

我们翻一翻常见的backbone的结构。可以看到在官方Pytorch的resnet.py的class BasicBlock中，forward时的基本结构是Conv+BN+Relu:

# 省略了一些地方
class BasicBlock(nn.Module):
    def __init__(self,...) -> None:
        ...
        self.conv1 = conv3x3(inplanes, planes, stride)
        self.bn1 = norm_layer(planes)
        self.relu = nn.ReLU(inplace=True)
        self.conv2 = conv3x3(planes, planes)
        self.bn2 = norm_layer(planes)
        self.downsample = downsample
        self.stride = stride

    def forward(self, x: Tensor) -> Tensor:
        identity = x
        # 常见的Conv+BN+Relu
        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu(out)
        # 又是Conv+BN+relu
        out = self.conv2(out)
        out = self.bn2(out)
        if self.downsample is not None:
            identity = self.downsample(x)
        out += identity
        out = self.relu(out)

        return out