腾讯发布混元3D世界模型1.0:首个支持物理仿真的开源世界生成系统

585次阅读
没有评论

腾讯发布混元3D世界模型1.0:首个支持物理仿真的开源世界生成系统

一键生成不同风格的高质量3D场景

腾讯混元 投稿

量子位 | 公众号 QbitAI

首个支持物理仿真的开源3D世界生成模型来了!

一句话、一张图就能生成完整3D世界,可编辑、可仿真。

在2025年世界人工智能大会(WAIC)上,腾讯正式发布混元3D世界模型1.0——首个开源且兼容传统CG管线的可漫游世界生成模型。

在腾讯混元3D生成引擎上即可体验,海内外均可使用;正式开源后,也可在Hugging Face等开源社区下载模型本地部署体验。

腾讯发布混元3D世界模型1.0:首个支持物理仿真的开源世界生成系统

实现可漫游3D场景生成

从文本或图像生成沉浸式且可交互的3D世界,是计算机视觉与图形学领域的核心挑战。在理解混元世界生成模型的创新之前,不妨先看看现有技术面临的挑战。现有世界生成方法主要分为两类:

视频驱动方法

想象一下制作动画片,传统的视频生成方法就像是一帧一帧地画画。虽然能画出丰富多彩的内容,但存在缺乏3D一致性、逐帧渲染成本高昂、无法与现有3D建模工具兼容等致命问题。

三维驱动方法

直接生成3D形式的世界场景,而不是视频序列帧。这种方法虽具备更好的3D结构的一致性,却受限于3D训练数据稀缺与3D表征内存效率低下等问题。

此外,现有3D生成方法往往将场景表示为一个整体,无法对场景中的物体进行单独交互。

混元3D世界模型1.0(HunyunWorld-1.0)是融合两类方法优势的创新框架,能够依据文本或图像输入生成沉浸式、可探索、可交互的3D场景。有以下三大核心优势:

1、360°沉浸体验:通过全景图将复杂的3D世界高效地表征为360度覆盖的2D图像代理,为后续生成完整的3D世界建模提供了丰富的空间信息;

2、工业级兼容性 :生成的世界场景支持导出标准的3D网格格式,能够无缝导入现有3D建模软件和主流游戏引擎,用于二次开发;

3、原子级交互 :通过物体解耦的3D建模方式,生成物体和背景可分离的3D世界,支持精准的物体级交互控制,提升了生成世界的操作自由度。

HunyunWorld-1.0采用生成式架构,结合全景图像合成与分层3D重建技术,实现了高质量、沉浸式的可漫游3D场景生成。

该模型通过语义分层的3D场景表征与生成算法,同时支持”文生世界”和”图生世界”两种生成方式。主要技术框架包括三部分,即全景世界代理生成、基于语义的世界分层与分层世界重建。

腾讯发布混元3D世界模型1.0:首个支持物理仿真的开源世界生成系统

一键生成不同风格的高质量3D场景

3D全景代理生成

3D全景可以捕获场景的360°视觉信息,可通过等距柱状投影(ERP)转化为全景图像,这使其成为3D世界生成的中间媒介。

HunyunWorld-1.0正是通过文本或图像条件生成全景图,作为驱动3D世界生成的代理媒介。

HunyunWorld-1.0的全景生成基于扩散变换器(Diffusion Transformer, DiT)框架,同时支持输入文本和图像生成3D全景。

文本到全景生成

将文本输入(prompt)通过文本编码器(Text Encoder)转化为扩散模型的输入条件。

图像到全景生成

将输入图像投影至全景空间,并通过变分自编码器(Variational Autoencoder, VAE) 将其编码至潜在空间(Latent Space)得到条件图像的潜在表示(Latent Tokens)。

该潜在表示会与随机噪声的潜在表示(Noisy Latent)拼接,输入扩散模型进行去噪,生成最终的3D全景世界代理。

腾讯发布混元3D世界模型1.0:首个支持物理仿真的开源世界生成系统

相较于通用图像生成,全景图生成面临两大独特挑战:球面投影导致的几何畸变以及全景拼接引发的边界不连续问题。针对上述挑战,HunyunWorld-1.0引入两项关键策略:

高程感知增强(Elevation-Aware Augmentation)

在训练阶段,以一定概率和位移比例对真实全景图像进行随机垂直偏移,以增强对视点变化的鲁棒性。

环形去噪(Circular Denoising)

在推理阶段,在去噪过程中采用环形填充(Circular Padding)与渐进混合(Progressive Blending)技术,确保全景图边界的结构与语义连续性。

腾讯发布混元3D世界模型1.0:首个支持物理仿真的开源世界生成系统

HunyunWorld-1.0可以生成高质量的3D全景。

腾讯发布混元3D世界模型1.0:首个支持物理仿真的开源世界生成系统

文生360°全景指标

腾讯发布混元3D世界模型1.0:首个支持物理仿真的开源世界生成系统

图生360°全景指标

分层世界重建

尽管全景图能有效充当世界代理,但其无法提供被遮挡区域的信息,无法实现自由探索(如视角平移)。

为了解决该问题,HunyunWorld-1.0创新性地提出了”语义层次化3D场景表征及生成算法” ,将复杂的3D世界解构为不同的语义层级,实现前景与背景、地面与天空的智能分离,并基于该分层表示搭建3D世界。

基于语义的世界分层

为实现语义分层的自动化,此研究利用智能体(VLM视觉语言模型)识别可交互物体,然后采用”洋葱剥离法”分离天空、背景、前景,最终达到前景物体与背景分离,地面与天空分层处理的效果。

该智能化的世界分层方法,主要包含三阶段流程:实例识别(检测场景中的独立物体),图层分解(将物体分配到语义层),图层补全(生成被遮挡区域的合理内容)。通过该分层方案支持后续的分层3D重建。

分层深度估计与对齐

基于全景世界代理,研究人员预测各图层的深度并执行跨图层深度对齐。采用深度估计模型(如MoGe或UniK3D)获取原始全景图基础深度图,并对后续图层分别预测深度,最终通过跨层深度匹配技术将各层深度向基础深度图对齐。

具体而言,该跨层深度方法最小化不同图层重叠区域的深度距离,确保跨图层深度关系一致性,维持重建3D场景的几何连贯性。

腾讯发布混元3D世界模型1.0:首个支持物理仿真的开源世界生成系统

分层的3D世界生成

给定分层图像和深度对齐后的各层深度,研究采用WorldSheet提出的网格表示(Grid Mesh Representation) 进行薄板变形(Sheet Warping) ,将3D全景转换为3D网格进行实现世界重建。

针对每个前景层,HunyunWorld-1.0提供直接投影法、3D生成两种重建策略。

前者基于物体深度与语义掩码,通过薄板变形将前景物体直接转换为3D网格,研究提出极区平滑处理(Polar Region Smoothing)与网格边界抗锯齿(Mesh Boundary Anti-Aliasing)来保证重建世界的质量。

后者则借助3D物体生成大模型(如Hunyuan3D 2.5),创建高质量3D物体资产后通过自动布景算法将生成物体植入3D场景中。

此外研究也针对背景层与天空层进行了重建。

对于背景层全景图,研究人员采用自适应深度压缩以确保深度分布合理性,再通过薄板变形转换为3D网格。天空层则是使用天空图像重建,其深度设为大于背景深度的固定值,确保天空深度的合理性。

除通过薄板变形获取传统网格表示外,HunyunWorld-1.0也支持HDRI环境贴图(HDRI Environment Map)表示法,以在VR应用中实现更逼真的天空光照效果。

腾讯发布混元3D世界模型1.0:首个支持物理仿真的开源世界生成系统

文生3D场景指标

腾讯发布混元3D世界模型1.0:首个支持物理仿真的开源世界生成系统

图生3D场景指标

长距离、世界一致的漫游拓展

尽管分层世界重建提供了初步的场景探索能力,其仍面临遮挡视图与探索范围受限(Limited Exploration Range) 的挑战。

为突破此局限,HunyunWorld-1.0提出基于视频生成的视图补全模型 Voyager,支持空间一致的世界拓展与长距离探索,从初始场景视图和用户指定相机轨迹中,合成空间连贯的RGB-D视频。

腾讯发布混元3D世界模型1.0:首个支持物理仿真的开源世界生成系统

空间一致的视频扩散模型

研究提出可扩展的世界缓存机制,以维持空间一致性并抑制视觉幻象(Visual Lallucination)。

该机制利用生成的3D场景构建一个初始的3D点云缓存,然后将此缓存投影到目标相机视图中,为扩散模型生成提供指导。生成的帧不断更新并扩展世界缓存,从而创建一个闭环系统,该系统支持任意相机轨迹,同时保持几何一致性。

长距离世界探索

为解决单次生成长距离视频的局限,提出结合平滑视频采样的世界缓存方案,用于自回归世界探索。

支持VR、游戏、物体编辑与物理仿真,无限应用可能

得益于HunyuanWorld-1.0的分层3D网格表示法,生成的3D网格世界能够高效支持多种专业应用场景,包括虚拟现实(VR)、游戏开发、物体编辑和物理仿真四大核心领域。

腾讯发布混元3D世界模型1.0:首个支持物理仿真的开源世界生成系统

虚拟现实(VR)应用

通过全景世界代理(panoramic world proxies),HunyuanWorld-1.0生成360°无缝覆盖的环境,可直接部署至主流VR平台如Apple Vision Pro,支持自由视角旋转和探索,适用于虚拟旅游教育培训等场景,提供真实的临场感。

游戏开发应用

生成的3D网格世界导出为标准格式,无缝集成行业引擎如Unity和Unreal Engine,支持快速构建多样化场景,包括外星景观、中世纪遗迹和未来都市,加速游戏原型开发和内容迭代,同时保持高保真视觉质量。

物体编辑应用

基于解耦对象表示(disentangled object representations),用户可在场景中对单个元素进行精确3D操控,包括平移、旋转和缩放,而不会破坏环境整体性。

这为交互式设计提供了灵活性,例如在虚拟环境中调整物体布局或创建定制场景,适用于建筑预览、艺术创作等领域,提升用户控制的自由度。

物理仿真应用

导出的分层网格兼容主流物理引擎,支持碰撞检测、刚体动力学和流体模拟等真实世界行为仿真。这确保了场景元素(如物体和地形)的物理属性准确再现,适用于自动驾驶测试、工程模拟等专业领域,实现从视觉到行为的全链路一致性。

论文链接:https://arxiv.org/abs/2507.21809
Github项目地址:https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
项目主页:https://3d-models.hunyuan.tencent.com/world/
体验地址:https://3d.hunyuan.tencent.com/sceneTo3D
Hugging Face模型地址:https://huggingface.co/tencent/HunyuanWorld-1

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 7 月
 123456
78910111213
14151617181920
21222324252627
28293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔

2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔

2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔 鹭羽 2025-12-24 09:1...
AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI C++oding新王登场!MiniMax M2.1拿下多语言编程SOTA 克雷西 2025-12-24 ...
智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify

智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify

智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify 鹭羽 2025-12-23 1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
易烊千玺的华为绿手机,真的AI了

易烊千玺的华为绿手机,真的AI了

Failed to fetch content Read More 
AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背

AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背

AI狼人杀大决战!GPT、Qwen、DeepSeek大乱斗,人类高玩汗流浃背 鹭羽 2025-12-23 14...
长城首个VLA车型发布,魏建军回应「赌上姓氏造车」

长城首个VLA车型发布,魏建军回应「赌上姓氏造车」

长城首个VLA车型发布,魏建军回应「赌上姓氏造车」 贾浩楠 2025-12-23 13:57:25 来源:量子...