中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

本文介绍: 随着人工智能技术的不断演进，多模态大模型已是当下比较热的研究方向，它可以同时理解和生成多种输入和输出模态，如文本、图像、语音等，能够更好地模拟人类的多感知能力，给文档图像的分析处理带来了新的机遇和挑战！近期，中国模式识别与计算机视觉大会在厦门举办，是国内顶级的模式识别和计算机视觉领域学术盛会。大会汇聚了国内国外模式识别和计算机视觉理论与应用研究的广大科研工作者及工业界同行，分享我国模式识别与计算机视觉领域的最新理论和技术成果。

在这里插入图片描述

近期，中国模式识别与计算机视觉大会在厦门举办，是国内顶级的模式识别和计算机视觉领域学术盛会。大会汇聚了国内国外模式识别和计算机视觉理论与应用研究的广大科研工作者及工业界同行，分享我国模式识别与计算机视觉领域的最新理论和技术成果。通过此次会议，进一步加强本领域的同行与东南沿海地区的学者和企业进行学术交流和技术碰撞，从而促进模式识别与计算机视觉领域的协同合作与融合创新。

合合信息是人工智能及大数据领域的领先企业。在本次大会中合合信息智能技术平台事业部副总经理郭丰俊博士分享了文档图像前沿技术中的成果及探索，主要包括多模态模型以及图像安全，让我们一起来了解一下吧。

多模态大模型可以用于提高文档图像的处理和分析能力，使文档变得更易于管理、检索和理解。而文档图像是多模态天然的一个属性，它们能够为文档管理、信息提取和文档分析等任务提供有力支持。

随着 GPT-4V 到来，多模态能力发生了跃迁，不仅能理解文本，还能理解图像。经过初步的测试发现它对英文 OCR 较好，但是对中文 OCR 不理想。GPT-4V 有时会错误地将图像中的两串文字组合在一起，创造出一个虚构的术语。它还会遗漏文字或字符、忽略数学符号，以及无法识别相当明显的物体和地点设置。下图展示了 GPT-4V 的错误识别：
在这里插入图片描述

LLM 时代，文档图像处理技术在不断演进，郭丰俊博士从三个方面来介绍文档图像处理技术趋势：

合合信息在处理图像篡时基于分割模型的图像处理，Backbone使用ConvNeXt作为编码器，使用LightHam和EANet两个网络并行作为解码器。充分利用了编码器-解码器结构，其中编码器负责提取特征，解码器负责还原图像并执行分割。并行使用两个不同的解码器可以提供更多的特征表示和捕获能力，从而增强了分割性能。
在这里插入图片描述
在文档图像处理时，郭丰俊博士提到有两个挑战的方面：一个是大量数据的构建，构建大规模且高质量的数据集对于训练文档图像处理模型至关重要。这些数据集应该包括多种字体、多种场景、多种篡改形式、头像物体篡改，以覆盖各种应用场景；另一个是训练策略，需要不断进行优化调整。在深度学习中，选择合适的训练策略对于模型性能至关重要。这包括超参数的调整、学习率的优化、数据增强方法的选择以及模型的选择。不断调整和优化这些策略可以帮助提高模型的性能，使其在文档图像处理任务中更加强大和可靠。