Qwen2-VL:增强视觉语言模型对世界任意分辨率的感知能力

news/2025/2/9 6:44:44 标签: 语言模型, 人工智能, 自然语言处理

1、摘要

Qwen2-VL系列是Qwen-VL模型的高级升级版本,它重新定义了传统视觉处理中预设分辨率的方法。Qwen2-VL引入了Naive Dynamic Resolution机制,使模型能够动态处理不同分辨率的图像,并将其转换为不同数量的视觉标记。这种机制使模型能够生成更高效、更准确的视觉表示,更接近人类的感知过程。此外,模型还集成了多模态旋转位置嵌入(M-RoPE),有效融合了文本、图像和视频中的位置信息。Qwen2-VL采用统一的图像和视频处理范式,增强了模型的视觉感知能力。通过扩展模型规模(2B、8B和72B参数)和训练数据量,Qwen2-VL系列在多模态基准测试中取得了极具竞争力的性能,特别是Qwen2-VL-72B模型,在各种多模态基准测试中表现与GPT-4o和Claude3.5Sonnet相当,超越了其他通用模型。

2、引言

大型视觉语言模型(LVLMs)是人工智能领域的重要进展,它们在传统大型语言模型的基础上扩展了对图像、音频和视频等多种数据的处理能力。这些模型通过整合不同形式的数据,更接近人类感知和与环境互动的方式。然而,当前的LVLMs通常受限于固定的图像输入大小,这限制了模型对不同尺度信息的捕捉能力。此外,大多数LVLMs依赖于静态的、冻结的CLIP风格视觉编码器,这引发了对预训练模型生成的视觉表示是否足够的担忧。Qwen2-VL通过引入动态分辨率训练和2D旋转位置嵌入(RoPE)来解决这些问题,进一步增强了模型对不同分辨率的适应能力。

3、方法

Qwen2-VL系列包括三种不同规模的模型:Qwen2-VL-2B、Qwen2-VL-7B和Qwen2-VL-72B。所有模型均采用675M参数的Vision Transformer(ViT)作为视觉编码器,以确保计算负载与LLM的规模无关。以下是Qwen2-VL的关键改进:

3.1、Naive Dynamic Resolution

Qwen2-VL引入了动态分辨率支持,能够处理任意分辨率的图像,并将其动态转换为不同数量的视觉标记。为此,模型移除了ViT中原有的绝对位置嵌入,并引入了2D-RoPE来捕获图像的二维位置信息。在推理阶段,不同分辨率的图像被打包成一个序列,通过简单的MLP层将相邻的2×2标记压缩成一个标记,从而减少视觉标记的数量。

3.2、多模态旋转位置嵌入(M-RoPE)

M-RoPE通过将旋转嵌入分解为时间、高度和宽度三个分量,有效建模多模态输入的位置信息。对于文本输入,这些分量使用相同的位置ID,与1D-RoPE功能等效。对于图像,每个视觉标记的时间ID保持不变,而高度和宽度分量根据标记在图像中的位置分配不同的ID。对于视频,时间ID随每帧递增,高度和宽度分量的ID分配模式与图像相同。

3.3、统一的图像和视频理解

Qwen2-VL采用混合训练方案,同时处理图像和视频数据,确保模型在图像理解和视频理解方面的能力。为了保留尽可能多的视频信息,模型以每秒两帧的频率对视频进行采样,并结合3D卷积处理视频输入,使模型能够处理3D管而不是2D块,从而在不增加序列长度的情况下处理更多视频帧。

4、训练

Qwen2-VL采用三阶段训练方法:

第一阶段:专注于训练Vision Transformer(ViT)组件,使用大量的图像-文本对来增强语义理解。
第二阶段:解冻所有参数,并使用更广泛的数据进行训练,以实现更全面的学习。
第三阶段:锁定ViT参数,仅对LLM进行微调,使用指令数据集进行训练。

模型在预训练阶段接触了约6000亿个标记,包括图像-文本对、OCR数据、图像-文本文章、视觉问答数据集、视频对话和图像知识数据集。数据来源包括清理后的网页、开源数据集和合成数据。预训练阶段主要关注图像-文本关系学习、图像中文本内容识别和图像分类任务。第二阶段预训练引入了额外的8000亿个标记的图像相关数据,进一步提升了模型对视觉和文本信息交互的理解能力。在指令微调阶段,模型使用ChatML格式构建指令跟随数据,包括纯文本对话数据和多模态对话数据。

5、实验

Qwen2-VL在多个视觉基准测试中表现出色,特别是在文档理解任务中。以下是关键的实验结果和分析:

多语言文本识别与理解

Qwen2-VL在多语言OCR方面超越了所有现有的通用LVLMs,包括GPT-4o和Claude 3.5 Sonnet等。模型不仅在公共可用的MTVQA数据集上表现出色,还在内部基准测试中超越了GPT-4o,支持多种欧洲语言、日语、韩语、阿拉伯语、越南语等。

数学推理

Qwen2-VL在MathVista和MathVision数据集上进行了数学推理能力的评估。MathVista包含6141个数学和视觉任务的多样化示例,而MathVision包含3040个嵌入视觉上下文中的数学问题。Qwen2-VL在MathVista上取得了70.5的优异成绩,并在MathVision上设定了新的开源基准,得分为25.9。

视觉定位任务

Qwen2-VL在RefCOCO、RefCOCO+和RefCOCOg数据集上进行了评估,这些数据集专注于科学图表中的文本选择问题。Qwen2-VL在这些任务中取得了顶尖的通用模型结果,尤其是在高分辨率图像细节感知方面表现出色。

视频理解

Qwen2-VL在多个视频理解任务上进行了评估,包括MVBench、PerceptionTest和EgoSchema等。Qwen2-VL-72B在这些基准测试中表现最佳,尤其是在处理长达一小时的视频时,模型展现了强大的能力。

视觉代理能力

Qwen2-VL在功能调用和复杂任务完成方面表现出色。在UI操作、机器人控制、卡牌游戏和视觉语言导航等任务中,Qwen2-VL展现了强大的能力,特别是在需要多步操作的任务中。

7、消融研究

动态分辨率

动态分辨率方法在不同基准测试中表现优于固定分辨率方法,同时平均消耗的标记数量更少。通过调整图像大小,模型在不同分辨率下表现出色,尤其是在InfoVQA、HallusionBench和OCRBench等感知任务中。

M-RoPE

M-RoPE在多种下游任务中表现优于1D-RoPE,尤其是在视频基准测试中。M-RoPE还使模型在推理长度超出训练最大长度时表现出色,即使在训练时限制了最大标记数量,模型在推理时也能处理长达80K标记的视频。

模型规模扩展

随着模型规模的增加,模型在多种能力维度上的表现一致提升,尤其是在数学能力方面。模型在OCR相关任务中表现出色,即使在较小规模的模型中也能取得较好的成绩。

8、结论

Qwen2-VL系列是功能强大的大型视觉语言模型,包括2B、8B和72B参数的模型。Qwen2-VL在多种多模态场景中与GPT-4o和Claude3.5-Sonnet等顶级模型表现相当,超越了其他所有开源的LVLMs。Qwen2-VL引入了动态分辨率和M-RoPE,能够理解超过20分钟的视频,并支持多语言文本理解。Qwen2-VL模型权重已公开,以便研究人员和开发人员在各种应用和研究项目中充分利用其潜力。


http://www.niftyadmin.cn/n/5845740.html

相关文章

【web自动化】指定chromedriver以及chrome路径

selenium自动化,指定chromedriver,以及chrome路径 对应这篇文章,可以点击查看,详情 from selenium import webdriverdef get_driver():# 获取配置对象option webdriver.ChromeOptions()option.add_experimental_option("de…

vite + axios 代理不起作用 404 无效

vite axios 代理不起作用 先看官方示例 export default defineConfig({server: {proxy: {// 字符串简写写法/foo: http://localhost:4567,// 选项写法/api: {target: http://jsonplaceholder.typicode.com,changeOrigin: true,rewrite: (path) > path.replace(/^\/api/, )…

编写Bash实现Linux网络流量监控统计,无需额外工具

项目需求: 编写Linux脚本,运行后可以统计所有网口的流量汇总数据,对出口流量区分内网流量和公网流量,并自动保存到日志文件。 运行效果: 完整代码: #!/bin/bash# 日志文件路径 LOG_FILE"/var/log/n…

基于javaweb的SpringBoothis智能医院管理系统(源码+文档+部署讲解)

🎬 秋野酱:《个人主页》 🔥 个人专栏:《Java专栏》《Python专栏》 ⛺️心若有所向往,何惧道阻且长 文章目录 运行环境开发工具适用功能说明一、项目运行 环境配置: 运行环境 Java≥8、MySQL≥5.7、Node.js≥14 开发工具 后端&…

【Python实战练习】Python类中的方法:形式与作用详解

文章目录 Python类中的方法:形式与作用详解1. 实例方法 (Instance Method)定义与使用作用2. 类方法 (Class Method)定义与使用作用3. 静态方法 (Static Method)定义与使用作用4. 特殊方法 (Magic/Dunder Methods)常见的特殊方法定义与使用作用5. 抽象方法 (Abstract Method)定…

< 评论 > 阿里云 与 腾讯云 国内的轻量应用服务器(VPS)产品对比

前置条件: 地理:北京 操作系统 :Ubuntu 24.04 服务类型:轻量应用服务器 vps 底层 CPU/SSD 性能未知 直观对比: 截图自腾讯云: 登录 - 腾讯云 截图自阿里云: 阿里云登录 - 欢迎登录阿里云&am…

深度学习在医疗影像分析中的应用

引言 随着人工智能技术的快速发展,深度学习在各个领域都展现出了巨大的潜力。特别是在医疗影像分析中,深度学习的应用不仅提高了诊断的准确性,还大大缩短了医生的工作时间,提升了医疗服务的质量。本文将详细介绍深度学习在医疗影像…

【自学笔记】文言一心的基础知识点总览-持续更新

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 文心一言知识点总览一、文心一言简介二、文心一言的核心功能三、文心一言的技术特点四、文心一言的应用场景五、文心一言的使用技巧六、文心一言的未来发展 总结 文…