挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

42次阅读
没有评论

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

多模态能力升级

刚刚,商汤科技日日新SenseNova多模态大模型,在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

OpenCompass多模态大模型评测排名

商汤日日新平均得分达到77.4,领先GPT-4o、Claude 3.5 Sonnet以及国内所有不同尺寸的开源和闭源模型。尤其在涵盖算术、统计、代数、几何、数值常识、科学和逻辑的权威数据集MathVista维度上,取得78.4 分的最高分,展现了领先的“数理”能力。

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

OpenCompass 多模态评测包含八个核心数据集,从多种视角客观量化多模态大模型的能力。此次评测中,商汤日日新在几乎所有维度上都达到或超过GPT-4o水平,其中四个维度上(MMStar、MathVista、OCRBench、MMVet)排名全球第一。

OpenCompass大模型开放评测体系是上海人工智能实验室推出的,拥有完整开源可复现的评测框架,定期发布对各类大模型的评测成绩和排名。体系覆盖了语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等多个方面,是对大模型真实能力各个维度的全面诊断。

商汤多模态进阶

作为计算机视觉领域的先行者和领军企业,早在几年前,商汤就确定了多模态大模型的研究方向,并在研发中,融合积累的领先算法、丰富数据和场景认知建立起核心优势。

2023年4月,商汤率先发布了行业领先的多模态大模型;

2024年2月,基于商汤日日新4.0的多模态大模型,在当时权威评测基准测试集MME Benchmark上位列第一,综合得分达2199.5(超过GPT-4V的1926.57),并应用到智能驾驶、智能车舱、电力行业等多个场景;

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

2024 年7 月,商汤发布国内首个交互体验上对标GPT-4o的大模型——日日新 5o,实现无延时的实时流式交互。

跨模态深度融合

今年三季度以来,商汤已跨越初期探索,进入了多模态大模型的研发新阶段——实现跨模态深度融合。以此目标,商汤打造了全新原生多模态大模型——日日新SenseNova多模态大模型。

跨模态深度融合指能够跨越不同模态(自然语言、代码、语音、图像、医疗影像、视频等)之间的鸿沟,充分利用不同模态的信息,通过跨模态逆渲染、多模态思维链等技术创新,实现数据之间的集成和交互。由此,模型的感知和理解能力将得到极大增强,并支持多模态融合推理的实现。

跨模态融合有多种方法。例如,通过融合预训练以及后训练技术,商汤日日新多模态大模型大幅增强了数理逻辑和推理能力。

评测中,当我们从“五年高考,三年模拟”里随机抽取几道高考数学题,日日新多模态大模型都可以轻松应对。

提问:这道选择题要怎么做?

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新输出结果,并给出详细解题过程:

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

提问:这道题要怎么解?请告诉我详细的思路

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新输出结果:

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新再次输出正确结果。

数学回答满分,再来看看物理。

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新输出结果:

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

物理题也答对啦~

此外,通过多模态融合并对模型进行定向优化,商汤日日新多模态大模型还大幅提升了对统计图表和多模态文档的理解能力。

评测中,当难度提升,让我们看看结果如何。

提问:使用下表中的数据,计算2011年每股FCFE的金额。

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新输出推理结果:

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新成功输出推理结果,效果令人惊叹。

随着融合模态有效提升AI大模型性能,多模态融合未来可广泛应用于诸多场景,例如在线上教育、语音客服等场景,结合语音和自然语言来提升交互体验;在自动驾驶场景,融合视觉及多种模态数据,来提升感知精度和决策能力等。

数理还只是起点。目前,日日新SenseNova多模态大模型已经可以通过API调用,即将开放普通用户体验。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy