模型“看视频写网页”,GPT-5仅36.35分!首个video2code基准发布

3,213次阅读
没有评论

模型“看视频写网页”,GPT-5仅36.35分!首个video2code基准发布

旨在更真实地评估LVLM交互式网页重建能力

IWR-Bench团队投稿

量子位 | 公众号 QbitAI

多模态大模型在根据静态截图生成网页代码(Image-to-Code)方面已展现出不俗能力,这让许多人对AI自动化前端开发充满期待。

然而,一个网页的真正价值远不止于其静态布局。用户的点击、筛选、表单提交,乃至游戏中的每一步操作,都构成了其核心的交互功能。这些动态、有状态的交互逻辑,恰恰是传统静态评测无法触及的盲区。

为了填补这一关键空白,上海人工智能实验室联合浙江大学等机构的研究者,提出了IWR-Bench——一个旨在更真实地评估LVLM交互式网页重建能力的评测基准。

模型“看视频写网页”,GPT-5仅36.35分!首个video2code基准发布

IWR-Bench的核心转变在于,它不再提供静态截图,而是要求模型观看一段记录了完整用户操作流程的视频,并结合网页所需的全部静态资源(如图片、图标、子视频等),去理解并复现整个页面的动态行为。任务的复杂性跨度很大,从简单的浏览功能,到需要逆向工程游戏规则的2048、订机票等应用。

这项任务的难度远超预期。在对28个主流模型的全面测试中,即便是表现最好的模型GPT-5,其综合得分也仅有36.35分。这一结果清晰地指出了当前模型的核心短板,IWR-Bench不仅为领域提供了一个更具挑战性的新目标,也为未来的研究指出了一个新的方向。

核心亮点

  • 首个视频输入的交互网页重建评测:从“image-to-code”迈向“video-to-code”,对网页事件驱动逻辑的生成提出刚性要求
  • 真实场景、完整资源:113个网站任务、1001次交互动作;提供全部静态资源并匿名化命名,逼近真实开发
  • 自动化Agent-as-a-Judge:用编程代理复现动作轨迹,双重评分同时评估功能正确性(IFS)与视觉保真度(VFS)
  • 28个LVLM系统测评:最佳模型总分36.35%,IFS仅24.39%、VFS为64.25%;通用多模态模型显著优于“视频专长”模型
模型“看视频写网页”,GPT-5仅36.35分!首个video2code基准发布

10个代表性模型在IWR-Bench任务上的评测总览

覆盖全面的真实世界网页任务

现有的网页代码生成基准(如Design2Code、WebSight)主要聚焦于静态截图转代码(image2code),而IWR-Bench则专注于动态视频转可交互网页代码(video2code):

传统任务: 给AI一张网页截图 → 生成HTML/CSS代码
IWR任务: 给AI一段用户操作视频 + 网页静态资源 → 生成包含完整交互逻辑的代码

值得一提的是,每个任务都提供了完整的静态资源(图片、图标、视频等),并且所有文件名都经过匿名化处理(如logo.png → asset_001.png),迫使模型必须依靠视觉匹配而非语义推理。静态资源的引入,也为直接基于渲染结果而非HTML代码进行评测提供了关键帮助。

下图为IWR-Bench任务和评测总览,模型输入包括(a)用户交互视频,(b)爬取的静态资源的缩略图与文件路径,要求模型输出html代码。评测时,通过agent在浏览器上基于(c)标注的操作轨迹进行操作,以实现基于检查点的自动化评分。

模型“看视频写网页”,GPT-5仅36.35分!首个video2code基准发布

IWR任务对模型的三大核心挑战包括:

  • 多模态理解:从视频帧精准捕捉布局、文本与组件状态
  • 多模态推理:在时间序列中推断交互逻辑与因果关系,并将视频元素与静态资源可靠匹配与绑定
  • 高级代码生成:将推断出的状态机与事件逻辑实现为可运行的前端代码
模型“看视频写网页”,GPT-5仅36.35分!首个video2code基准发布

IWR任务的规模和覆盖范围如下:

  • 113个来自真实网站的任务,分辨率覆盖桌面与移动端(19种,移动占10.62%)
  • 共1001个交互动作,平均每任务8.9步;其中620个视觉检查点、403个逻辑断言
  • 复杂任务包含2048、扫雷等完整游戏逻辑与GUI重建

评测框架和指标

IWR-Bench采用了一套严格的自动化评测协议,通过编程代理(基于browser-use库)来模拟真实用户的网页操作。

评测流程

  • 操作执行:代理按照预定义的动作序列操作生成的网页
  • 功能验证:检查每个操作是否能正确执行,以及逻辑断言是否满足
  • 视觉对比:在关键检查点截图,与参考页面进行多维度对比

双重评分体系

交互功能分数(IFS):衡量功能正确性

  • 计算成功完成的操作占总操作数的比例, 操作失败包括浏览器执行失败、逻辑断言失败
  • SOTA模型GPT-5的IFS仅为24.39%

视觉保真度分数(VFS):衡量视觉还原度 – 结合低级特征(OCR文本相似度、DINO结构相似度)

  • 融合高级评估(由Gemini-2.5-Pro进行整体评判)
  • SOTA模型GPT-5的VFS为64.25%

评测结果

模型“看视频写网页”,GPT-5仅36.35分!首个video2code基准发布

IWR-Bench在28个模型上的评测结果

研究人员从中得到了三个关键发现。

首先,功能实现是最大瓶颈

所有模型的VFS都显著高于IFS,这揭示了一个核心问题:

模型能够较好地复现静态视觉效果,但在生成事件驱动逻辑方面严重不足。

例如,GPT-5能够达到64.25%的视觉保真度,但功能正确性仅为24.39%——这意味着即使页面”看起来对”,实际操作时有75%以上的功能无法正常工作。

其次,thinking版本带来部分提升

“thinking”版本模型普遍表现更好:

  • Claude-Sonnet-4 (thinking) vs. 普通版:34.62 vs. 34.00
  • Claude-Opus-4 (thinking) vs. 普通版:34.13 vs. 33.33
  • Gemini-2.5-Pro (thinking) vs. 普通版:30.36 vs. 30.31

但提升幅度有限,说明基础模型能力仍是决定性因素。

另外,现在的专有视频理解模型效果不如通用多模态模型

专门针对视频理解训练的模型(如VideoLLaMA3、InternVideo)表现垫底,而通用的多模态大模型表现更优。这表明,该任务与传统的视频理解任务具有显著的差异性。

IWR-Bench的推出,标志着AI从“看懂静态网页”到“理解动态交互”的关键一步。36分的成绩告诉我们:这条路还很长。这不仅是对AI多模态能力的一次全面体检,更是为多模态能力涌现指明了下一阶段的攻坚方向。

IWR-Bench由上海人工智能实验室联合浙大、2077AI、港中文、斯坦福等单位共同完成,第一作者陈杨是浙江大学硕士生,通讯作者为上海人工智能实验室沈宇帆、石博天。

论文链接:
https://arxiv.org/abs/2509.24709
代码地址:
https://github.com/L-O-I/IWR-Bench
数据地址:
https://huggingface.co/datasets/IWR-Bench/IWR-Bench
项目主页:
https://l-o-i.github.io/IWR-Bench/

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 10 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了 衡宇 2025-12-16 20:10:53 来...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026 克雷西 2025-...
顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式 思邈 2025-12-16 10:24:0...
PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026 梦瑶 2025-12...
Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控 量子位的朋友们 2025-12-16...
推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码 henry 2025-12-16 15:03:31 ...