挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

1,738次阅读
没有评论

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

看看这张图中有几个子?如果你回答3个,就和GPT-4V的答案一样。

但是最新开源的国产多模态模型CogVLM-17B,就能看出另有玄机。

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

甚至能区分在图中完整可见的有3个和部分可见的有1个。

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

CogVLM由清华和智谱AI合作开发,通讯作者为唐杰和丁铭,论文和开源代码已上传到GitHub。

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

除这个单独案例之外,CogVLM-17B还在10项权威跨模态基准上取得了SOTA性能。

另外在VQAv2, OKVQA, TextVQA, COCO captioning取得第二,超越或匹配谷歌的PaLI-X 55B。

与之前的开源多模态大模型相比,可以算是14边形战士。

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

雷达图中包含13个基准,最后一个TDIUC单独展现。

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

CogVLM可以回答各种类型的视觉问题,比如从马斯克的阴阳怪气中推理出小扎假装去旅行了,回避约架。

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

认出照片中的C罗,并回答他在2018年世界杯中有多少进球。

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

带图的编程题也能给出代码了。

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

甚至能完成复杂的目标检测,并打上标签,自动数据标注成了。

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

从浅层对齐到深度融合

CogVLM模型包含4个基本组件

  • ViT编码器

  • MLP适配器

  • 大型预训练语言模型

  • 视觉专家模块

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

其中,每层中都添加了可训练的视觉专家模块,以实现图像特征和文本特征的深度对齐,而不会牺牲任何NLP任务的性能。

之前主流的浅层对齐方法,如BLIP-2,图像特征和语言模型之间缺乏深度融合,导致性能不佳。

但微调语言模型的全部参数又会损害其NLP能力。

CogVLM的方法可以说是改变了视觉语言模型的训练范式,从浅层对齐转向深度融合

另外值得注意的是,CogVLM训练数据中没有专门的OCR数据,但表现出了很强的文字识别能力。

CogVLM开源并给出了在线试玩。

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

不过目前仅支持英文,后续会提供中英双语版本支持,可以持续关注。

试玩地址:
http://36.103.203.44:7861

开源及论文地址:
https://github.com/THUDM/CogVLM

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 

MEET 2024大会已启动!点此了解详情

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 10 月
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...