+ϵηm^t
其中,
θ
t
theta_t
η
eta
η 是学习率,
ϵ
epsilon
ϵ 是为了数值稳定性而添加的小常数。
以上描述了Adam优化算法中用于更新梯度估计、计算动量和RMSProp的过程,并最终利用它们来更新模型参数的方法。
概率论与数理统计中的矩估计介绍
在优化算法中,一阶矩估计和二阶矩估计是指对梯度的统计特征进行估计的过程,涉及了概率论与数理统计的知识。我来详细解释一下:
一阶矩估计通常表示对随机变量的期望值的估计,也可以理解为均值的估计。在优化算法中,一阶矩估计可以用来估计梯度的平均值,在Adam和RMSProp等算法中起到了动量的作用。动量可以帮助优化算法在参数更新时更平稳地前进,避免陷入局部极小值点。一阶矩估计可以通过指数加权移动平均的方式来计算,从而更好地反映梯度的变化趋势。
二阶矩估计则通常表示对随机变量的方差的估计。在优化算法中,二阶矩估计可以用来估计梯度的方差或者标准差,如在RMSProp算法中所使用的。通过估计梯度的方差,我们可以更好地了解梯度的变化范围,并且利用这个信息来自适应地调整学习率,以提高训练的效率和稳定性。
概率论与数理统计为我们提供了对随机变量的期望、方差等统计特征的概念和计算方法,优化算法中的一阶矩估计和二阶矩估计正是借鉴了这些概念和方法,使得优化算法能够更好地利用梯度的统计信息来指导参数更新的过程,从而提高模型的训练效果。
二、PyTorch实现算法优化器的代码
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
# 定义一个简单的多层感知器
class MLP(nn.Module):
def __init__(self):
super(MLP, self).__init__()
self.fc1 = nn.Linear(28 * 28, 128)
self.fc2 = nn.Linear(128, 64)
self.fc3 = nn.Linear(64, 10)
def forward(self, x):
x = x.view(-1, 28 * 28)
x = torch.relu(self.fc1(x))
x = torch.relu(self.fc2(x))
x = self.fc3(x)
return x
# 准备数据
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))])
train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
# 定义损失函数
criterion = nn.CrossEntropyLoss()
# 定义优化器列表
optimizers = [
optim.SGD,
optim.ASGD,
optim.Rprop,
optim.Adagrad,
optim.Adadelta,
optim.RMSprop,
optim.Adam
]
# 训练函数
def train(optimizer_class, model, dataloader, criterion, epochs=3):
optimizer = optimizer_class(model.parameters(), lr=0.01)
model.train()
for epoch in range(epochs):
running_loss = 0.0
correct = 0
total = 0
for batch_idx, (data, target) in enumerate(dataloader):
optimizer.zero_grad()
output = model(data)
loss = criterion(output, target)
loss.backward()
optimizer.step()
running_loss += loss.item()
_, predicted = torch.max(output.data, 1)
total += target.size(0)
correct += (predicted == target).sum().item()
print(f'Optimizer: {optimizer_class.__name__}, Epoch: {epoch + 1}, Loss: {running_loss / len(dataloader)}, Accuracy: {correct / total * 100}%')
# 使用不同的优化器训练模型
for optimizer_class in optimizers:
model = MLP()
train(optimizer_class, model, train_loader, criterion)
运行结果:
Optimizer: SGD, Epoch: 1, Loss: 0.8009015738265093, Accuracy: 79.87333333333333%
Optimizer: SGD, Epoch: 2, Loss: 0.31090657713253106, Accuracy: 91.07333333333332%
Optimizer: SGD, Epoch: 3, Loss: 0.2509216960471894, Accuracy: 92.69833333333334%
Optimizer: ASGD, Epoch: 1, Loss: 0.8227703367659787, Accuracy: 79.11333333333333%
Optimizer: ASGD, Epoch: 2, Loss: 0.3227304352451362, Accuracy: 90.68833333333333%
Optimizer: ASGD, Epoch: 3, Loss: 0.2698148043155035, Accuracy: 92.145%
Optimizer: Rprop, Epoch: 1, Loss: 8.706047950292637, Accuracy: 85.69333333333333%
Optimizer: Rprop, Epoch: 2, Loss: 16.184261398441567, Accuracy: 85.75166666666667%
Optimizer: Rprop, Epoch: 3, Loss: 15.855906286521126, Accuracy: 85.99166666666666%
Optimizer: Adagrad, Epoch: 1, Loss: 0.24328371752172645, Accuracy: 92.56166666666667%
Optimizer: Adagrad, Epoch: 2, Loss: 0.12497247865737311, Accuracy: 96.25333333333333%
Optimizer: Adagrad, Epoch: 3, Loss: 0.09774033319570426, Accuracy: 97.06666666666666%
Optimizer: Adadelta, Epoch: 1, Loss: 1.3385312659526938, Accuracy: 69.485%
Optimizer: Adadelta, Epoch: 2, Loss: 0.5202090000229349, Accuracy: 86.955%
Optimizer: Adadelta, Epoch: 3, Loss: 0.39094064729427225, Accuracy: 89.41666666666667%
Optimizer: RMSprop, Epoch: 1, Loss: 0.6654755138456504, Accuracy: 88.81666666666666%
Optimizer: RMSprop, Epoch: 2, Loss: 0.23642293871569037, Accuracy: 93.51833333333333%
Optimizer: RMSprop, Epoch: 3, Loss: 0.20657251488222783, Accuracy: 94.41833333333334%
Optimizer: Adam, Epoch: 1, Loss: 0.2741849403957457, Accuracy: 91.88833333333334%
Optimizer: Adam, Epoch: 2, Loss: 0.18909314711804567, Accuracy: 94.86833333333334%
Optimizer: Adam, Epoch: 3, Loss: 0.1710762643500535, Accuracy: 95.42166666666667%
以上代码将为每个优化器运行3个训练周期,并打印损失值和准确率。我们可以看到针对这个任务Adagrad优化器表现较好,在实际应用中,我们可能需要运行更多的训练周期并调整学习率等超参数以获得最佳性能。
原文地址:https://blog.csdn.net/weixin_42878111/article/details/134548297
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.7code.cn/show_2921.html
如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除!