【机器学习】039_合理初始化

互联网 12 月前 0 5

本文介绍: 【学习笔记】机器学习_039：学习了达到稳定训练所需的操作；为什么要合理初始化参数，以及合理初始化参数的方法。

一、稳定训练

目标：使梯度值在更合理的范围内

常见方法如下：

· 将乘法变为加法

· ResNet：当层数较多时，会加入一些加法进去

· LSTM：如果时序序列较长时，把一些对时序的乘法做加法

· 归一化

· 梯度归一化：把梯度转化为一个均值0、方差1这样的数，从而避免梯度的数值过大或过小

· 梯度裁剪：如果梯度大于一个阈值，就强行拉回来减到一个范围里

· 合理的权重初始化、选取合理的激活函数

二、合理初始化 操作

目标：让每层的方差都为一个常数

· 让每层的输出和梯度都看作“随机变量”

· 让输出和梯度的均值和方差都保持一致，那么就可以在每层的传递之间保持，不会出现问题

权重初始化

目标：将参数和权重初始化在一个合理的区间值里，防止参数变化过大或过小导致出现问题

· 当训练开始时，数值更易出现不稳定的问题

· 随机初始的参数可能离最优解很远，更新幅度较陡，损失函数会很大，从而导致梯度较大

· 最优解附近一般较缓，更新幅度会较小

· 假设不定义初始化方法，框架将使用默认初始化，即采用正态分布初始化权重值

· 这种初始化方法对小型神经网络较为有效，但当网络较深时，这种初始化方法往往表现较差

· Xa vier初始化：

某些没有非线性的全连接层输出（例如，隐藏变量） $o_i$ 的尺度分布：

· 对于某一层 $n_{in}$ 输入 $x_j$ 以及其相关权重 $w_{ij}$ ，输出由下式给出：

权重 $w_{ij}$ 都是从同一分布中独立抽取的

· 假设该分布具有均值 0 和方差 $sigma ^2$ （不一定是标准正态分布，只需均值方差存在）

· 假设层 $x_j$ 的输入也具有均值 0 和方差 $gamma ^2$ ，且独立于 $w_{ij}$ 并彼此独立

可以按下列方式计算 $o_i$ 的均值与方差：

为了保障 $o_i$ 的方差不变化，可设置 $n_{in}sigma ^2 = 1$ 。

现在考虑反向传播过程，我们面临着类似的问题，尽管梯度是从更靠近输出的层传播的。

使用与前向传播相同的推断，我们可以看到：

· 除非 $n_{out}sigma ^2=1$ ，否则梯度的方差可能会增大。其中 $n_{out}$ 是该层输出的数量。

· 然而，我们不可能同时满足 $n_{in}sigma ^2 = 1$ 和 $n_{out}sigma ^2=1$ 这两个条件。

但我们只需满足：

即可达到要求，这便是Xa vier初始化的基础。

通常，Xa vier初始化从均值为 0，方差 $sigma ^2=frac{2}{n_{in}+n_{out}}$ 的高斯分布中采样权重。

Xa vier初始化表明：

· 对于每一层，输出的方差不受输入数量的影响；

· 任何梯度的方差不受输出数量的影响。

原文地址:https://blog.csdn.net/Yukiice/a rticle/d etails/134521050

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。

如若转载，请注明出处：http://www.7code.cn/show_3636.html

如若内容造成侵权/违法违规/事实不符，请联系代码007邮箱：suwngjj01@126.com进行投诉反馈，一经查实，立即删除！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

初始化合理梯度

相关文章

STM32F407移植OpenHarmony笔记9

STM32F407移植OpenHarmony笔记9

互联网 10 月前 4

SpringBoot源码解读与原理分析(二十)IOC容器的刷新(一)

SpringBoot源码解读与原理分析(二十)IOC容器的刷新(一)

spring 10 月前 5

前端-Vue項目初始化

vue 10 月前 3

机器学习_12_梯度下降法、拉格朗日、KKT

机器学习_12_梯度下降法、拉格朗日、KKT

互联网 10 月前 3

机器学习的精髓-梯度下降算法

互联网 10 月前 2

外星人入侵（python）

python 10 月前 7

JVM之GC垃圾回收

互联网 10 月前 3

行为型设计模式—中介者模式

互联网 10 月前 4

发表回复取消回复