大模型背景下计算机视觉年终思考小结（一）

本文介绍: 本文主要用来回顾了23年相关大模型在计算机视觉多个领域的发展现状，以及一些突出的技术论文概要分享，主要涉及图像大模型到图文大模型以及生成式大模型。对于这些大模型，在实际工作和项目中，我们更多的应该是思考如何在我们特定的、小规模的背景下利用好它们。本章节主要为相关论文的梳理和概述总结，下一节我们会针对实际项目中如何结合大模型进行数据集的构造等方向进行归纳总结。

在过去的十年里，出现了许多涉及计算机视觉的项目，举例如下：

在这里插入图片描述
上述应用所采用的计算机视觉的方法遵循统一的标准流程：

到2023年底，人工智能领域迎来了来自生成式AI的新爆发：大语言模型（LLM）和图像生成式模型。每个人都在谈论它，那么它对计算机视觉领域的应用有什么改变呢？本文我们将探索是否可以利用它们来构建数据集，以及如何利用新的架构和新的预训练权重，或者从大模型中进行蒸馏学习。

在工业界，我们通常感兴趣的是可以以相对较小的成本来构建和部署计算机视觉相关应用，小规模计算机视觉特性如下：

小规模计算机视觉显然不是当今人工智能的趋势，因为我们看到具有数十亿参数的模型开始成为一些应用程序的标准设计。我们听到了很多关于这方面的消息，但重要的是要记住，关注较小的规模在某些场景的应用也是至关重要的，并不是所有项目都应该遵循谷歌、Meta、OpenAI或微软的大模型规模趋势。事实上，大多数有趣的计算机视觉项目实际上比那些成为头条新闻的项目规模要小得多。

考虑到这一点，我们还能利用人工智能的最新发展来进行相关应用开发吗？首先让我们深入了解下计算机视觉下的基础模型。

最近的大语言模型（LLM）非常流行，因为大家可以轻松地在应用程序中使用基础模型（许多是开源的，或者可以通过API使用），事实上大家也可以把GPT、Bert、Llama想象成这样的提取文本特征的基础模型。基础模型是一个非常大的通用神经网络，可作为大多数下游任务的基础。它包含了关于非常广泛的主题、语义、语法等的知识。

在计算机视觉的世界里，除了ImageNet外，今年来有很多自监督网络的例子，其中一些是生成式模型（想想最新的GAN和最近大火的扩散模型）。它们仅在原始图像或图像-文本对（例如图像及其描述）上进行训练。它们通常被称为LVM（大规模视觉模型）。

业内还涌现一批封闭源代码，仅通过API调用的大型多用途大模型，虽然不以视觉为中心，但展示了卓越的视觉功能，而且还具有生成式功能：比如Open AI的GPT-4V 以及Google的Gemini（下图所示），都带来了行业内新的大模型发展高度。与之对比，还有许多开源的、较小规模的多用途视觉+文本大模型也在开发中，例如LlaVA。
在这里插入图片描述