[全连接神经网络]Transformer代餐，用MLP构建图像处理网络

互联网 1 年前 0 3

本文介绍: Vision MLP合集

使用纯MLP处理图像信息，其原理类似vit，将图片进行分块(patch)后展平(fallten)，然后输入到MLP中。理论上MLP等价于1×1卷积，但实际上1×1卷积仅能结合通道信息而不能结合空间信息。根据结合的信息不同分为channel-mixing MLPs和token-mixing MLPs。

总体结构如下图，基本上可以视为以mlp实现的vit。

传统卷积仅能处理局部领域信息，不具备捕获长程依赖的能力，其特性被称为归纳偏置(inductive bias)或局部先验性质(local prior)。而Transformer虽然可以使用自注意力捕获长程依赖，却无法有效获取局部先验信息。全连接(FC)结构与Transformer类似，可以捕获长程依赖(每个输入和输出都有连接)但是缺乏局部先验性质。而RepVGG则是通过将MLP和CNN的优点结合在一起实现高质量的特征提取。其核心是结构重参数技术(structural reparameterization technique)。

训练时的RepMLP与预测时截然不同。训练时，每一层都会添加平行的卷积+BN分支，而预测时会将卷积分支等效为MLP分支。

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

mlp transformer 卷积

相关文章

计算机设计大赛深度学习+python+opencv实现动物识别 – 图像识别

计算机设计大赛深度学习+python+opencv实现动物识别 – 图像识别

python 1 年前 4

Pytorch从零开始实战18

Pytorch从零开始实战18

互联网 1 年前 5

Transformer 自然语言处理（二）

Transformer 自然语言处理（二）

互联网 1 年前 12

【计算机视觉】万字长文详解：卷积神经网络

【计算机视觉】万字长文详解：卷积神经网络

互联网 1 年前 3

2024-人工智能-关于mlp.predict_classes失效报错的问题-如何修改

2024-人工智能-关于mlp.predict_classes失效报错的问题-如何修改

互联网 1 年前 5

RTDETR 引入 UniRepLKNet：用于音频、视频、点云、时间序列和图像识别的通用感知大卷积神经网络 | DRepConv

RTDETR 引入 UniRepLKNet：用于音频、视频、点云、时间序列和图像识别的通用感知大卷积神经网络 | DRepConv

互联网 1 年前 2

JVM之GC垃圾回收

互联网 1 年前 3

行为型设计模式—中介者模式

互联网 1 年前 4

发表回复取消回复