挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

1,816次阅读
没有评论

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

看看这张图中有几个子?如果你回答3个,就和GPT-4V的答案一样。

但是最新开源的国产多模态模型CogVLM-17B,就能看出另有玄机。

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

甚至能区分在图中完整可见的有3个和部分可见的有1个。

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

CogVLM由清华和智谱AI合作开发,通讯作者为唐杰和丁铭,论文和开源代码已上传到GitHub。

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

除这个单独案例之外,CogVLM-17B还在10项权威跨模态基准上取得了SOTA性能。

另外在VQAv2, OKVQA, TextVQA, COCO captioning取得第二,超越或匹配谷歌的PaLI-X 55B。

与之前的开源多模态大模型相比,可以算是14边形战士。

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

雷达图中包含13个基准,最后一个TDIUC单独展现。

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

CogVLM可以回答各种类型的视觉问题,比如从马斯克的阴阳怪气中推理出小扎假装去旅行了,回避约架。

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

认出照片中的C罗,并回答他在2018年世界杯中有多少进球。

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

带图的编程题也能给出代码了。

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

甚至能完成复杂的目标检测,并打上标签,自动数据标注成了。

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

从浅层对齐到深度融合

CogVLM模型包含4个基本组件

  • ViT编码器

  • MLP适配器

  • 大型预训练语言模型

  • 视觉专家模块

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

其中,每层中都添加了可训练的视觉专家模块,以实现图像特征和文本特征的深度对齐,而不会牺牲任何NLP任务的性能。

之前主流的浅层对齐方法,如BLIP-2,图像特征和语言模型之间缺乏深度融合,导致性能不佳。

但微调语言模型的全部参数又会损害其NLP能力。

CogVLM的方法可以说是改变了视觉语言模型的训练范式,从浅层对齐转向深度融合

另外值得注意的是,CogVLM训练数据中没有专门的OCR数据,但表现出了很强的文字识别能力。

CogVLM开源并给出了在线试玩。

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

不过目前仅支持英文,后续会提供中英双语版本支持,可以持续关注。

试玩地址:
http://36.103.203.44:7861

开源及论文地址:
https://github.com/THUDM/CogVLM

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 

MEET 2024大会已启动!点此了解详情

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 10 月
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二! 西风 2026-01-08 19:02:20 来源:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...
杜比在CES 2026重塑了观影、娱乐的方式

杜比在CES 2026重塑了观影、娱乐的方式

杜比在CES 2026重塑了观影、娱乐的方式 十三 2026-01-07 12:47:06 来源:量子位 树立...
全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026

全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026

全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026 量子位的朋友们 2026-01-06 16...
港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了

港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了

港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了 梦瑶 2026-01-0...