pytorch中Conv1d、Conv2d与Conv3d详解

本文介绍: CNN是深度学习的重中之重，而conv1D，conv2D，和c on v3D又是CNN的核心，所以理解 c on v的工作原理就变得尤为重要。

卷积（c on v olut i on），是一种运算，你可以类比于加，减，乘，除，矩阵的点乘与叉乘等等，它有自己的运算规则，卷积的符号是星号*。表达式为：

连续卷积表达式：

从参数上来看，x + (n-x) = n，可以类比为x + y = n，也就是说f, g的参数满足规律y = –x + n，即g的参数是f的参数先翻转再平移n。把g 从右边褶到左边去，也就是卷积的卷的由来。然后在这个位置对两个函数的对应点相乘，然后相加，这个过程是卷积的积的过程。

对图像的blur操作，即降噪平滑操作，就是使用的卷积运算，最终的效果取决于卷积核的设置。以单通道卷积为例。

均值卷积核，就是认为目标像素点的值是周围值的平均数，即周围各点对它的影响是一样的，此处卷积核以3X3为例。

我们把这个矩阵看成f(x,y)函数，下标为参数，像素点的值为函数结果，那么要求f(1,1)处的卷积运算结果，因为现在是二维函数了，因此对应的卷积表达式为：

对应到本例u=1, v=1

我们来构建g(1-x, 1-y)函数，暂定为3X3的矩阵，我们知道目标点f(1,1)要对应g(0,0)，如果将g(0,0)设置在核的中心，那么根据下标展开之后我们就可以构建出g

有了g函数之后，就可以执行运算了，注意运算的时候 f 和 g 的参数要符合卷积公式，即

CNN是深度学习的重中之重，而conv1D，conv2D，和conv3D又是CNN的核心，所以理解conv的工作原理就变得尤为重要，卷积中几个核心概念如下：

一维卷积nn.Conv1d主要用于文本数据，只对宽度进行卷积，对高度不卷积。通常，输入大小为word_embedding_dim * max_length，其中，word_embedding_dim为词向量的维度，max_length为句子的最大长度。卷积核窗口在句子长度的方向上滑动，进行卷积操作。

torch.nn.Conv1d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros', device=None, dtype=None)

import torch
import torch.nn as nn

conv1 = nn.Conv1d(in_channels=256, out_channels=100, kernel_size=2)
input = torch.randn(32, 35, 256)
input = input.permute(0, 2, 1)
output = conv1(input)
print(output.shape)

假设window_size = [3, 4, 5, 6]，即共有四个卷积核，基于上述代码，具体计算过程如下：

二维卷积nn.Conv2d通常用于图像数据，对宽度和高度都进行卷积。

class torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros', device=None, dtype=None)

假设现有大小为32 x 32的图片样本，输入样本的channels为1，该图片可能属于10个类中的某一类。CNN框架定义如下：

class CNN(nn.Module):
    def __init__(self):
        nn.Model.__init__(self)
 
        self.conv1 = nn.Conv2d(1, 6, 5)  # 输入通道数为1，输出通道数为6
        self.conv2 = nn.Conv2d(6, 16, 5)  # 输入通道数为6，输出通道数为16
        self.fc1 = nn.Linear(5 * 5 * 16, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        # 输入x -> conv1 -> relu -> 2x2窗口的最大池化
        x = self.conv1(x)
        x = F.relu(x)
        x = F.max_pool2d(x, 2)
        # 输入x -> conv2 -> relu -> 2x2窗口的最大池化
        x = self.conv2(x)
        x = F.relu(x)
        x = F.max_pool2d(x, 2)
        # view函数将张量x变形成一维向量形式，总特征数不变，为全连接层做准备
        x = x.view(x.size()[0], -1)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

网络整体结构：[conv + relu + pooling] * 2 + FC * 3
原始输入样本的大小：32 x 32 x 1

class torch.nn.Conv3d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros', device=None, dtype=None)

class torch.nn.ConvTranspose1d(in_channels, out_channels, kernel_size, stride=1, padding=0, output_padding=0, groups=1, bias=True, dilation=1, padding_mode='zeros', device=None, dtype=None)

class torch.nn.ConvTranspose2d(in_channels, out_channels, kernel_size, stride=1, padding=0, output_padding=0, groups=1, bias=True, dilation=1, padding_mode='zeros', device=None, dtype=None)

class torch.nn.ConvTranspose3d(in_channels, out_channels, kernel_size, stride=1, padding=0, output_padding=0, groups=1, bias=True, dilation=1, padding_mode='zeros', device=None, dtype=None)

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

卷积参数表达式

1 卷积 介绍

1.1 什么是卷积

1.2 卷积的意义

1.3 图像的卷积处理

2 pytorch中的卷积

2.1 一维卷积nn.Conv1d

2.1.1 函数原型

2.1.2 原理示意图

2.1.3 示例 代码

2.2 二维卷积Conv2D

2.2.1 函数原型

2.2.2 原理示意图

2.2.3 示例 代码

2.3 三维卷积Conv3D

2.3.1 函数原型

2.3.2 原理示意图

2.4 空洞卷积

2.5 转置卷积

2.6 深度可分离卷积

发表回复取消回复

1 卷积介绍