本文介绍: Batch Normalization 在其操作包含均值的减去和方差的除以等操作,这些操作本身具有平移和缩放效果。如果在 Batch Normalization 层之前加上了偏置,它的作用在某种程度上会被 Batch Normalization操作所抵消,从而可能减弱 Batch Normalization 的效果。通常,在batch normalization层之前的层中是没有bias的,因为这是无用的,也是对参数浪费,因为任何常数都会被batch normalization抵消掉。

深度学习入门 – 知乎、这本书也很好,作者写的专栏不错。

机器学习,深度学习一些好文_一只菜得不行的鸟的博客-CSDN博客

卷积神经网络学习路线(五)| 卷积神经网络参数设置,提高泛化能力?_”eval_type”:”pr”-CSDN博客

关于BN折叠问题

使用Batch Normalization折叠来加速模型推理-CSDN博客

BN层和前一层(Conv,Linear

通常,在batch normalization层之前的层中是没有bias的,因为这是无用的,也是对参数浪费,因为任何常数都会被batch normalization抵消掉。

深度神经网络中,有时在 Batch Normalization 层之前的线性层(例如连接层或卷积层)会被设计没有偏置(bias)。这样的设计是有一些原因的,尤其是在使用 Batch Normalization 时:

Batch Normalization的效果 Batch Normalization 在其操作中包含均值的减去和方差的除以等操作,这些操作本身具有平移和缩放效果。如果在 Batch Normalization 层之前加上了偏置,它的作用在某种程度上会被 Batch Normalization 的操作所抵消,从而可能减弱 Batch Normalization 的效果

BN

标准化与归一化_标准化和归一化_Weber77的博客-CSDN博客

ML领域更常使用标准化,如果数据不为稳定,存在极端的最大最小值,不要用归一化。z值归一化=标准

BN可以省去dropout,L1, L2等正则处理方法.

这人写的都不错:

Transformer 相关理解(上)_向量内积 相似性-CSDN博客

原文地址:https://blog.csdn.net/IsayIwant/article/details/134746182

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_24484.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注