AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

1,233次阅读
没有评论

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

评测维度包括视频-文本一致性 、视频质量、运动质量

AGI-Eval团队 投稿

量子位 | 公众号 QbitAI

说到2024年AI圈的热门话题,当然不能错过视频生成模型了!

即使是在12月,国内外视频模型的更新脚步依旧没有放缓。其中以Sora、可灵AI为代表。

12月9日,OpenAI正式推出视频产品Sora。用户可以创建任意长宽比例的分辨率高达1080p(最长 20 秒)的视频,可接收文本、图像和视频输入并生成新视频作为输出。

12月19日,可灵AI宣布基座模型再升级,视频生成推出可灵1.6模型,文本响应度、画面美感及运动合理性,均有明显提升,画面更稳定更生动,同时支持标准和高品质模式,特别是1.6模型的图生视频,内部评测比 1.5 模型整体效果提升195%。

视频模型竞争激烈,评测榜单也变得尤为重要。

AGI-Eval通过构建上百条评测数据和专家级人工评测团队,对Sora 、及国产头部视频生成模型进行了更深度的专业评测。

主要结论有以下3个:

结论1

与国内头部大模型(国内前三)相比,Sora在视频-文本一致性维度、视频质量上均有小幅落后。总体来看,国内大模型仍保持领先水平

结论2

Sora在运动质量维度表现略好于可灵1.6,即生成的视频画面在动态过程中的主体一致性和动态幅度更自然。

结论3

在视频-文本一致性维度上,Sora存在文本理解有误、指令遵循不符的问题,即生成的视频内容与提示词的描述不符的现象。

详细的榜单排名如下,评测维度包括视频-文本一致性 、视频质量(含真实性、合理性) 、运动质量等,确保评测结果反馈模型真实水平。

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

注:以上数据为示例,具体评分请参考AGI-Eval评测社区平台的最新数据。

榜单数据经过归一化处理,与原始分值有所区别,但排名一致。

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

AGI-Eval平台链接:https://agi-eval.cn/mvp/listSummaryIndex

详细评测对比:Sora VS 国内视频生成模型

一起来看看详细的测评结果。

从视频生成的整体效果来看,Sora在视频质量、创作自由度、风格支持等方面的表现更优,尤其是在动态场景下五官的呈现上更为细致。

示例对比

【示例1】:文本一致性

Prompt: 地上放着一个篮球、面包和背包,镜头跟随劳累的运动员来到物品面前,拿起一样物品用来补充能量。
英文prompt:There is a basketball, a loaf of bread, and a backpack on the ground. The camera follows the exhausted athlete as he approaches the items and picks up one of them to replenish his energy.

该prompt本身较为复杂,同时存在多个实体、人物状态表现,且需要模型进行正确的推理,考察的能力更加全面。

Sora-1080P

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:2分
分析:要求生成的实体中,背包缺失,面包表现较差,丢失实体特征;人物动作”拿起“不符合,无法判断是否符合推理正确的物体。

可灵1.6

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:2.67分
分析:要求生成的实体中,面包缺失,”拿起“的动作有趋势但表现较差,同样无法判断是否符合推理正确的物体。

Pixverse-V3

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:3.5分
分析:要求生成的实体及人物动作“拿起”均满足,也能达成正确的推理,理解需要拿的是面包,但不符合镜头跟随和人物动作“来到”,相对来说已经表现得不错。

MiniMax-Video-01

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:3分
分析:要求生成的实体中,面包缺失,“拿起”动作不符合,但推理正确,理解需要拿的是面包。

Prompt:高温变色马克杯广告。一个黑色高温变色马克杯正被加入热水,逐渐变成白色的过程。重点需要突出马克杯的变色能力。
英文prompt:High-temperature color-changing thermos advertisement. A black high-temperature color-changing thermos cup is being filled with hot water, gradually transforming into white. The key focus is to highlight the thermos cup’s color-changing capability.

该prompt实体较简单,但倾向于考察水流、热气、颜色渐变等细节,流畅的细节变化通常来说较为困难。

Sora-1080P

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:2.67分
分析:忽略prompt要求的重点,未体现出变色的过程。

可灵1.6

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:4分
分析:变色过程不完全符合要求,但相对来说较好。

Pixverse-V3

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:3分
分析:未体现正在加水,变色有体现,但不符合逐渐变白的要求。

MiniMax-Video-01

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:2.67分
分析:同样未体现出变色的过程,也无法看出是热水。

【示例2】:物品生成稳定性(突然出现或消失)

Prompt: 一款创意蛋糕的宣传广告。一把餐刀切开了蛋糕,从蛋糕的切口处涌出了草莓酱。
英文prompt:An advertisement for a creative cake. A dining knife slices through the cake, and strawberry sauce flows out from the cut.

该prompt重在考察运动细节及实体之间的交互,模型在“切口处涌出了草莓酱”上表现得各有差异。

Sora-1080P

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:2.5分
分析:该视频中果酱多次忽然出现和忽然消失,蛋糕忽然出现缺口,仅针对稳定性较差。

可灵1.6

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:3.5分

分析:能看到刀的动作导致蛋糕出现切口,果酱的出现比较突兀不合理。

Pixverse-V3

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:3.5分
分析:果酱和刀的形态稳定,蛋糕的切口出现较为突兀。

MiniMax-Video-01

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:3分
分析:刀和蛋糕的形态较稳定,符合切开的状态,但果酱忽然大量出现不合理。

【示例3】:实体畸形

Prompt: 生成一个动画风格的视频,内容是一个女孩正在巴黎旅行,她的面前是埃菲尔铁塔。
英文prompt:Generates an animated-style video of a girl traveling in Paris with the Eiffel Tower in front of her.

Sora-1080P

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:2.67分
分析:背景鸟群出现明显畸形及不合理滞空,背景行人有粘连及行走姿态明显不合理,整体观感上较为明显。

可灵1.6

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:4分
分析:主体人物及建筑物整体的形态均较好,部分背景人物出现轻微畸形,整体对观感影响较小。

Pixverse-V3

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:3分
分析:主体人物手指有轻微粘连形变,背景建筑物发生形变,观感上稍有不合理。

MiniMax-Video-01

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:3.5分
分析:主体人物手指轻微形变,左侧出现的背景人物面部有轻微扭曲,观感上稍有不合理。

Prompt: 同事们正在办公室门前交谈。
英文prompt:Colleagues are talking in front of the office door.

Sora-1080P

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:2.5分
分析:人物有明显的穿模,门发生的形变也较明显,影响严重。

可灵1.6

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:3.5分
分析:人物整体形象较好,无明显畸形,部分镜头中人物手部存在形变,造成一定的影响。

Pixverse-V3

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:3分
分析:人物手指形变持续存在且较严重,较影响视觉效果。

MiniMax-Video-01

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:3.5分
分析:人物整体形象较好,无明显畸形,部分镜头中人物手部存在形变,造成一定的影响。

【示例4】:镜头技巧

Prompt: 创意视频,升镜拉镜结合,镜头从一座繁忙的城市拉升到空中、太空、宇宙外,需要展示出地球是其他宇宙高维生命手中的玻璃球
英文prompt:A creative video combining zoom-in and zoom-out techniques, with the shot pulling up from a bustling city to the sky, into space, and beyond the universe, revealing Earth as a glass ball in the hands of higher-dimensional beings from another universe.

Sora-1080P

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:3分
分析:拉镜有所表现,但升镜体现较差,视频整体镜头表现较单一。

可灵1.6

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:4分
分析:视频能较好的体现升镜、拉镜,场景变化的过度比较自然,整体流畅。

Pixverse-V3

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:3.5分
分析:升镜体现较好,但拉镜未明确表现,视频整体场景转化较流畅。

MiniMax-Video-01

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

该维度打分:3分
分析:拉镜有所表现,但升镜体现较差,视频整体效果较为突兀。

是怎么评测的?

针对基础模型,AGI-Eval采用了不同的评测方法及不同的评测方式,包含人工主观评测、模型打分(modeleval)、众包评测三种方式,考察模型在不同版本下是否有能力下降、风格等影响导致榜单结果差异,反馈模型综合能力。

人工评测

评测说明
给定prompt的视频,人工从视频文本一致性、视频质量、运动质量等维度综合给被测视频打1-5绝对值分,并标注出被测视频的错误标签;视频采用多轮标注的方式,2人打分结果相同则为该prompt结果,若2人打分diff则进入3标,最终3人平均为被测视频最终分数。

评测思路

视频文本一致性:是否按照prompt的要求生成视频,包括对物体、人物、场景、风格、运动细节等所有相关要素的描述是否完整遵循。

视频质量

合理性:视频在逻辑、结构、设计、运动轨迹等维度是否符合常规,即,是否符合物理规律。

真实性:视频具有逼真效果,无明显AI痕迹。

运动质量:视频中的运动表现是否流畅、连贯、动态效果是否丰富。

评测集介绍

根据一致性、运动质量、画面质量等关键性能指标,构建了包含500条中英文对照样本的黑盒测试集,覆盖了从动作生成到情绪生成多种复杂场景和能力项及应用场景;在构建中也结合到了物理常识和百科知识,评估生成视频的真实感和逻辑性。

评测案例

任务类型:相互影响多实体生成

Prompt:一只猫叫醒了正在睡觉的主人。
模型答案:

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

评测分析:
视频综合打分:3分
一致性:4分,实体生成符合要求,但对于“叫醒”的动作过程体现不完整。
视频质量:3分,运动过程中人物肢体、猫面部都呈现出变形。
运动质量:3分,运动基本连贯,最后猫爪收回动作不自然,机械感较明显。

任务类型:实体&动作生成

Prompt:跳水运动员们正在热身。
模型答案:

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

评测分析:
视频综合打分:1分
一致性:1分,要求的实体及动作完全未体现。
视频质量:1分,视觉中心的主体畸形,场景下方也存在变形不连贯。
运动质量:2分,下方凭空出现实体,运动连贯性、动态效果、运动幅度均差。

AGI-Eval评测平台

鉴于传统评测方式难以充分反映模型的真实水平,AGI-Eval创新性地提出了人机协作评测模式,探索建设高质量评测社区建设。

在这种模式下,参与者可以与最新的大模型共同完成任务,既有助于提高任务完成度又便于建立更加直观的区分度。

基于前期的一些用户实验表明,通过这种方式不仅可以获得更为简洁、完善的推理过程描述,还可以进一步提升用户与大模型之间的互动体验。

未来,随着更多类似平台的出现和发展,相信人机协作将成为评测领域的一个重要发展方向。

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

人机社区链接:https://agi-eval.cn/llmArena/home

AGI-Eval 平台基于真实数据回流、能力项拆解等方式,自建万量级私有数据,并经过多次质检保证准确率。

黑盒100%私有化数据,可保证评测数据不可“穿越”。

从数据建设到模型评测,实现全层级能力项目,一级能力涵盖指令遵循、交互能力、认知能力(含推理、知识、其他认知能力等);完美实现自动与人工评测相结合。

对于Chat模型,平台官方榜单结合主观、客观评测结果,中英文权重分布均衡。

客观评测基于模型打分,可处理具有一定自由度问题,准确率95%+;主观评测基于三人独立标注,并记录细分维度标签结果,全面诊断模型问题。

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

想要申请文生视频测评的朋友可以直接联系AGI-Eval团队。

AGI-Eval团队介绍

AGI-Eval是由上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区,以“评测助力,让AI成为人类更好的伙伴”为使命。平台旨在打造公正、可信、科学、全面的评测生态,号召大众共同投入到大模型评测工作,参与数据构建及丰富有趣的人机协作比赛,与大模型协同完成复杂任务,实现评测方案共建。

AGI-Eval多模态评测可承接全模态(any toany)模型评测(部分榜单待上线),欢迎各位模型厂商提报评测合作交流。

文生视频测评申请方式

请使用单位邮箱,将测评研究目的、计划,研究机构、申请者介绍和联系方式(手机或微信),发送到邮箱。
邮箱:agieval17@gmail.com,标题是:AGI-Eval文生视频测评申请

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 1 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

Failed to fetch content Read More 
LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了 一水 2025-12-21 19:13:08 来源:量子位 “LLM到不了AGI...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026 一水 2025-12-21 19:11:12 ...