挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

812次阅读
没有评论

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

多模态能力升级

刚刚,商汤科技日日新SenseNova多模态大模型,在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

OpenCompass多模态大模型评测排名

商汤日日新平均得分达到77.4,领先GPT-4o、Claude 3.5 Sonnet以及国内所有不同尺寸的开源和闭源模型。尤其在涵盖算术、统计、代数、几何、数值常识、科学和逻辑的权威数据集MathVista维度上,取得78.4 分的最高分,展现了领先的“数理”能力。

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

OpenCompass 多模态评测包含八个核心数据集,从多种视角客观量化多模态大模型的能力。此次评测中,商汤日日新在几乎所有维度上都达到或超过GPT-4o水平,其中四个维度上(MMStar、MathVista、OCRBench、MMVet)排名全球第一。

OpenCompass大模型开放评测体系是上海人工智能实验室推出的,拥有完整开源可复现的评测框架,定期发布对各类大模型的评测成绩和排名。体系覆盖了语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等多个方面,是对大模型真实能力各个维度的全面诊断。

商汤多模态进阶

作为计算机视觉领域的先行者和领军企业,早在几年前,商汤就确定了多模态大模型的研究方向,并在研发中,融合积累的领先算法、丰富数据和场景认知建立起核心优势。

2023年4月,商汤率先发布了行业领先的多模态大模型;

2024年2月,基于商汤日日新4.0的多模态大模型,在当时权威评测基准测试集MME Benchmark上位列第一,综合得分达2199.5(超过GPT-4V的1926.57),并应用到智能驾驶、智能车舱、电力行业等多个场景;

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

2024 年7 月,商汤发布国内首个交互体验上对标GPT-4o的大模型——日日新 5o,实现无延时的实时流式交互。

跨模态深度融合

今年三季度以来,商汤已跨越初期探索,进入了多模态大模型的研发新阶段——实现跨模态深度融合。以此目标,商汤打造了全新原生多模态大模型——日日新SenseNova多模态大模型。

跨模态深度融合指能够跨越不同模态(自然语言、代码、语音、图像、医疗影像、视频等)之间的鸿沟,充分利用不同模态的信息,通过跨模态逆渲染、多模态思维链等技术创新,实现数据之间的集成和交互。由此,模型的感知和理解能力将得到极大增强,并支持多模态融合推理的实现。

跨模态融合有多种方法。例如,通过融合预训练以及后训练技术,商汤日日新多模态大模型大幅增强了数理逻辑和推理能力。

评测中,当我们从“五年高考,三年模拟”里随机抽取几道高考数学题,日日新多模态大模型都可以轻松应对。

提问:这道选择题要怎么做?

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新输出结果,并给出详细解题过程:

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

提问:这道题要怎么解?请告诉我详细的思路

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新输出结果:

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新再次输出正确结果。

数学回答满分,再来看看物理。

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新输出结果:

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

物理题也答对啦~

此外,通过多模态融合并对模型进行定向优化,商汤日日新多模态大模型还大幅提升了对统计图表和多模态文档的理解能力。

评测中,当难度提升,让我们看看结果如何。

提问:使用下表中的数据,计算2011年每股FCFE的金额。

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新输出推理结果:

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新成功输出推理结果,效果令人惊叹。

随着融合模态有效提升AI大模型性能,多模态融合未来可广泛应用于诸多场景,例如在线上教育、语音客服等场景,结合语音和自然语言来提升交互体验;在自动驾驶场景,融合视觉及多种模态数据,来提升感知精度和决策能力等。

数理还只是起点。目前,日日新SenseNova多模态大模型已经可以通过API调用,即将开放普通用户体验。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 12 月
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

Failed to fetch content Read More 
LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了 一水 2025-12-21 19:13:08 来源:量子位 “LLM到不了AGI...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026 一水 2025-12-21 19:11:12 ...