杭州领跑AI 开源！阿里Qwen除夕开源视觉理解新旗舰，全系列3尺寸，7B模型超GPT-4o-mini

衡宇
2025-01-28
10:37:54

来源：量子位

Qwen也在加班！横扫多个榜单

衡宇白交发自川渝

量子位 | 公众号 QbitAI

眼看着半只脚都跨进蛇年了，杭州城还是一如既往真卷啊！

今天凌晨4点，阿里通义Qwen发布新春节礼第二弹：推出视觉理解模型Qwen2.5-VL，开源的。

可以支持视觉理解事物、Agent、理解长视频并且捕捉事件、视觉定位和结构化输出等等。

Qwen2.5-VL是Qwen系列旗下全新的视觉理解模型，也被官方称为“旗舰视觉语言模型”，推出了3B、7B和72B三个版本。

官方放出的测试结果，Qwen系列视觉旗舰中的旗舰——Qwen2.5-VL-72B-Instruct，在一系列涵盖多个领域和任务的基准测试中表现如下。

包括大学水平的问题、数学、文档理解、视觉问答、视频理解和视觉Agent：

杭州领跑AI开源！阿里Qwen除夕开源视觉理解新旗舰，全系列3尺寸，7B模型超GPT-4o-mini

而此系列中的7B模型，Qwen2.5-VL-7B-Instruct，在多个任务中超越了GPT-4o-mini。

此外，通义Qwen团队还将Qwen2.5-VL-3B称为“端侧AI的潜力股”，它以3B之身，超越了此前的Qwen2-VL-7B。

可以观察到的一点是，Qwen2.5-VL在理解文档和图表方面表现突出。

此外，当作为视觉Agent操作时，Qwen2.5-VL无需进行特定任务的微调。

官方宣布，Qwen2.5-VL的Base和Instruct模型，全系列3B、7B、72B仨尺寸的模型，已经统统开源。

（按惯例，文末有之指路直通车）

Qwen旗下全新视觉旗舰，模型能力如何？

下面展示对Qwen2.5-VL在6个方面的能力：

视觉定位能力
通用图像识别能力
Qwen特色的文档解析
能够操作电脑和手机的视觉Agent
增强的视频理解能力
文字识别和理解能力

视觉定位能力

据官方信息，Qwen2.5-VL可以采用矩形框和点的多样化方式，对通用物体定位，并实现层级化定位和规范的 JSON格式输出。

譬如，喂给它一张街头实拍图，并输入Prompt：

检测图像中的所有摩托车手，并以坐标形式返回他们的位置。输出格式应类似于{“bbox_2d”: [x1, y1, x2, y2], “label”: “motorcyclist”, “sub_label”: “wearing helmat” # 或 “not wearing helmat”}。

然后你将得到一个用不同颜色方框，框选中图中载人摩托车的返回结果：

坐标返回也没落下，按要求返回：

Qwen团队表示，Qwen2.5-VL增强的定位能力，提供了在复杂场景中，视觉Agent进行理解和推理任务的基础。

通用图像识别能力

此外，相较于视觉模型系列前作Qwen2-VL，Qwen2.5-VL主要提升了其通用图像识别能力。

同时扩大了模型可识别的图像类别量级，包括动植物、著名山川河流等地标，还包括各种影视IP，以及各类商品。

Prompt：这些景点是什么？请用中文和英文给出它们的名字。

量子位亲测，Qwen2.5-VL-72B-Instruct给出的答案如下：

Qwen特色的文档解析

在Qwen2.5-VL中，研发团队设计了一种“更全面的文档解析格式”，称为QwenVL HTML格式。

简单来说，该模式下的Qwen2.5-VL，既可以将文档中的文本精准地识别出来，也能够提取文档元素（如图片、表格等）的位置信息，从而准确地将文档中的版面布局进行精准还原。

以下为Qwen团队的官方测试demo。

Prompt：QwenVL HTML。

同时喂给下面这张图片：

Qwen2.5-VL吐回的结果是酱婶儿的：

研发人员还表示，基于精心构建的海量数据，QwenVL HTML可以对广泛的场景进行鲁棒的文档解析，比如杂志、论文、网页等。

甚至包含手机截屏～

能够操作电脑和手机的视觉Agent

通过利用内在的感知、解析和推理能力，Qwen2.5-VL展现出了不错的设备操作能力。

包括在手机、网络平台和电脑上执行任务。

譬如，让它帮忙订一张今天从重庆飞北京的机票：

Prompt：请帮我通过预订应用查看单程机票。出发点是重庆江北机场，终点是北京首都机场，日期是1月28日。

请欣赏它的执行过程和背后代码（虽然执行过程的动作速度还比较缓慢）：

视频理解能力

视频里能力方面，在时间处理上，Qwen2.5-VL引入了动态帧率（FPS）训练和绝对时间编码技术。

如此一来，模型不仅能够支持小时级别的超长视频理解，还具备秒级的事件定位能力。

它不仅能够准确地理解小时级别的长视频内容，还可以在视频中搜索具体事件，并对视频的不同时间段进行要点总结，从而快速、高效地帮助用户提取视频中蕴藏的关键信息。

譬如，让它观看以下视频，并列出视频中出现的paper名字。

它吐出来的结果如下：

文字识别和理解能力

最后，Qwen2.5-VL提升了OCR识别能力——

增强了多场景、多语言和多方向的文本识别和文本定位能力。

同时，该系列模型又着重增强了信息抽取能力，以满足日益增长的资质审核、金融商务等数字化、智能化需求。

Qwen2.5-VL系列，升级在哪里？

去年9月2日，阿里通义团队开源了上一代（也是第二代）视觉语言模型 Qwen2-VL，当时推出的是2B、7B两个参数版本，及其及其量化版本。

当时的Qwen2-VL可以理解20分钟以上长视频，以及可集成后自主操作手机和机器人。

与Qwen2-VL相比，Qwen2.5-VL增强了模型对时间和空间尺度的感知能力，并进一步简化了网络结构以提高模型效率。

具体可分为两个方面。

其一是时间和图像尺寸的感知。

在空间维度上，Qwen2.5-VL不仅能够动态地将不同尺寸的图像转换为不同长度的token，还直接使用图像的实际尺寸来表示检测框和点等坐标，而不进行传统的坐标归一化。

这使得模型能够直接学习图像的尺度。

在时间维度上，引入了动态FPS（每秒帧数）训练和绝对时间编码，将mRoPE id直接与时间流速对齐。

这使得模型能够通过时间维度id的间隔来学习时间的节奏。

其二是更简洁高效的视觉编码器。

视觉编码器在多模态大模型中扮演着至关重要的角色。

Qwen2.5-VL团队从头开始训练了一个原生动态分辨率的ViT，包括CLIP、视觉-语言模型对齐和端到端训练等阶段。

为了解决多模态大模型在训练和测试阶段ViT负载不均衡的问题，研究人员又引入了窗口注意力机制，有效减少了ViT端的计算负担。

在Qwen2.5-VL的ViT设置中，只有四层是全注意力层，其余层使用窗口注意力。

最大窗口大小为8×8，小于8×8的区域不需要填充，而是保持原始尺度，确保模型保持原生分辨率。

此外，为了简化整体网络结构，团队使ViT架构与LLMs更加一致，采用了RMSNorm和SwiGLU结构。

在此基础上，Qwen2.5-VL呈现出如下主要特点：

第一，视觉理解：

Qwen2.5-VL不仅擅长识别常见物体，如花、鸟、鱼和昆虫，还能够分析图像中的文本、图表、图标、图形和布局。

第二，Agent：

Qwen2.5-VL直接作为一个视觉Agent，可以推理并动态地使用工具，初步具备了使用电脑和使用手机的能力。

第三，理解长视频和捕捉事件：

Qwen2.5-VL能够理解超过1小时（进步了40分钟）的视频，并且它具备了通过精准定位相关视频片段来捕捉事件的新能力。

第四，视觉定位：

Qwen2.5-VL可以通过生成bounding boxes或者points来准确定位图像中的物体，并能够为坐标和属性提供稳定的JSON输出。

第五，结构化输出：

对于发票、表单、表格等数据，Qwen2.5-VL支持其内容的结构化输出，有助于在金融、商业等领域的应用。

One More Thing

目前，Qwen2.5-VL全系列已经开源在抱抱脸、魔搭社区。

而Qwen Chat官网可直接体验Qwen2.5-VL-72B-Instruct。

Qwen团队还表示：

在不久的将来，我们将进一步提升模型的问题解决和推理能力，同时整合更多模态。
这将使模型变得更加智能，并推动我们向着能够处理多种输入类型和任务的综合全能模型迈进。

看来，推理、多模态是Qwen团队的下一步重点，最终星辰大海是综合全能模型。

Qwen Chat：
https://chat.qwenlm.ai

抱抱脸：
https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5

魔搭：
https://modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47

参考链接：
https://mp.weixin.qq.com/s/RhRcULJrEGwasMLoNYXPOw

— 完 —

量子位 QbitAI · 头条号

关注我们，第一时间获知前沿科技动态

2025 年 1 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

杭州领跑AI开源！阿里Qwen除夕开源视觉理解新旗舰，全系列3尺寸，7B模型超GPT-4o-mini

杭州领跑AI 开源！阿里Qwen除夕开源视觉理解新旗舰，全系列3尺寸，7B模型超GPT-4o-mini

Qwen旗下全新视觉旗舰，模型能力如何？

视觉定位能力

通用图像识别能力

Qwen特色的文档解析

能够操作电脑和手机的视觉Agent

视频理解能力

文字识别和理解能力

Qwen2.5-VL系列，升级在哪里？

One More Thing

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定