本文介绍: Hi, 你好。我是茶桁。上一节课中我们预告了,本节课是一个难点,同时也是一个重点,大家理解清楚。我们在做机器学习时候,会用不同优化方法

+εVdbcorrected

刚刚讲过的RMS特点其实动态的调整了我们学习率,之前讲Momentum其实还保持了上一时刻的方向,RMS就没有解决这个问题,RMS把上一时刻的方向给弄没了。

RMS,它的定义其实没有考虑上次的方向,它只考虑上次变化的大小。而现在提出来这个ADAM,这个ADAM的意思就是Adaptive Momentum, 还记不记得咱们讲随机森林和Adaboost一节我们讲过Adaboost就是Adaptive Boosting这里的Adaptive其实就是一个意思,就是自适应动量,也叫动态变化动量。

ADAM就结合了RMS和动量的两个优点。第一个是他在分母上也加了一个根号下的数,也就做了RMS做的事,然后在分子上还有一个数,这个数就保留了上一时刻的数,比如

V

d

w

c

o

r

r

e

c

t

e

d

V_{dw}^{corrected}

Vdwcorrected, 就保留了上一时刻的V,就保留了上一时刻的方向

所以ADAM既是动态的调整了学习率,又保留了上一时刻的方向

那除此之外,其实还有一个AdaGrad和L-BFGS方法,不过常用方法也就是上面详细讲的这几种

到此为止,我们进阶神经网络基础知识就都差不多具备了,接下来我们就该来讲解下卷机和序列,比如说LSTM和RNN、CNN的东西。在这些结束之后,我们还会有Attention机制,Transformer机制,YOLO机制,Segmentation机制,还有强化深度学习其实都是基于这些东西。

那我们下节课,就先从RNN来说开去。

原文地址:https://blog.csdn.net/ivandoo/article/details/134750782

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_45046.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注