MLP-Mixer: An all-MLP Architecture for Vision

本文介绍: 在计算机视觉领域，卷积神经网络（CNNs）是首选的模型。最近，基于注意力机制的网络，如Vision Transformer，也变得流行起来。在这篇论文中，我们展示了卷积和注意力虽然都足以实现良好的性能，但它们两者都不是必需的。我们提出了MLP-Mixer，这是一种仅基于多层感知机（MLPs）的架构。MLP-Mixer包含两种类型的层：一种是独立应用于图像块的MLPs（即“混合”每个位置的特征），另一种是跨图像块应用MLPs（即“混合”空间信息）。

在计算机视觉领域，卷积神经网络（CNNs）是首选的模型。最近，基于注意力机制的网络，如Vision Transformer，也变得流行起来。在这篇论文中，我们展示了卷积和注意力虽然都足以实现良好的性能，但它们两者都不是必需的。我们提出了MLP-Mixer，这是一种仅基于多层感知机（MLPs）的架构。MLP-Mixer包含两种类型的层：一种是独立应用于图像块的MLPs（即“混合”每个位置的特征），另一种是跨图像块应用MLPs（即“混合”空间信息）。在大型数据集上进行训练，或使用现代正则化方案时，MLP-Mixer在图像分类基准测试中取得了竞争性的分数，其预训练和推断成本与最先进的模型相当。我们希望这些结果能够激发超越已经建立的CNNs和Transformers领域的进一步研究。

计算机视觉的历史表明，更大的数据集与增强的计算能力往往导致范式转变。尽管卷积神经网络（CNNs）一直是计算机视觉的事实标准，但最近基于自注意力层的Vision Transformers [14]（ViT）取得了最先进的性能，成为一种替代方案。ViT延续了去除手工制作的视觉特征和归纳偏见的长期趋势，并进一步依赖于从原始数据中学习。

我们提出了MLP-Mixer架构（简称”Mixer”），这是一种竞争性但在概念上和技术上简单的替代方案，不使用卷积或自注意力。相反，Mixer的架构完全基于多层感知机（MLPs），这些MLPs反复应用于空间位置或特征通道。Mixer

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。