首个沉浸式体积视频数据集ImViD上线,定义沉浸式媒体新形态丨CVPR‘25 Highlight

20次阅读
没有评论

首个沉浸式体积视频数据集ImViD上线,定义沉浸式媒体新形态丨CVPR‘25 Highlight

“体积视频技术”让大众看到元宇宙的曙光

当Meta用天价堆砌「元宇宙」却困在卡通画风,当Vision Pro用户为3-DoF的“电子橱窗”眩晕买单,当影视巨头砸千万搭建穹顶摄影棚却只能产出“人像手办”……

猛然发现——没有高保真体积视频的元宇宙,不过是高清版的《我的世界》。

今天为大家带来清华大学-咪咕团队发表于CVPR 2025的最新工作《ImViD: Dynamic Volumetric Video Reconstruction and Rendering for Immersive VR》。

作者用360°真实光场+多模态6-DoF自由漫游,将VR体验从“隔着玻璃看展”推向“穿越时空的在场感”。

背景与挑战:我们距离高逼真的数字世界还有多远?

随着Meta Quest和Apple Vision Pro等VR头显的兴起,人们对沉浸式体验的需求愈发强烈。然而,传统2D视频或静态3D模型始终难以突破“真实感”的桎梏,最新的技术也面临着“形似神离”的困境:

2019年Google提出沉浸式光场(Immersive Light Field),虽支持6-DoF交互,但受限于固定机位的拍摄方式,仅覆盖场景的正面视角,交互范围有限,且缺乏多模态数据;

2022年 Apple 提出沉浸式视频(Immersive Video),虽以高分辨率和环绕式立体声著称,但仅提供3-DoF的观看体验,缺少空间位置的交互自由度。此外,这种呈现方式无法提供真实场景的深度感知,导致视觉系统与前庭感知的冲突,用户在长时间观看后易产生眩晕和疲劳;

2024年 Infinite Reality 推出的空间捕获技术(Spatial Capture),通过穹顶式“由外向内(Outside-looking-in)”的采集方案实现了高分辨率、高真实感的动态场景建模。然而,受限于封闭式硬件架构,仅能针对狭小空间内以人或物体为中心的局部场景进行捕捉,缺乏复杂背景细节与自然光照,且设备部署复杂、成本高昂,难以拓展至开放环境或大规模商业应用。

首个沉浸式体积视频数据集ImViD上线,定义沉浸式媒体新形态丨CVPR‘25 Highlight

图注:沉浸式媒体形式的分类及发展方向示意图:体积视频是顺应时代信息升维的产物,有望成为未来的主流媒体形式。

如何打破瓶颈?

清华-咪咕团队联合推出“沉浸式体积视频(Immersive Volumetric Video)”概念,从四个维度突破传统体积视频的局限:

1. 全视角:360°真实场景。团队实现动态前景+复杂背景完整覆盖,突破固定空间拍摄限制;

2. 大空间:大范围6-DoF交互。可移动拍摄车扩大采集范围,支持用户六自由度自由探索每一处细节;

3. 多模态光声同步采集。5K@60FPS视频+同步音频采集,高保真光声场融合重建,视听反馈随动无延迟;

4. 长时长长时间高帧率内容。1-5分钟高清动态光场内容告别“片段式”体验!

该工作构建了一套完整的生产管线:从系统搭建采集策略设计光/声场融合重建,到最终高保真实时渲染交互。 为下一代 VR 沉浸内容提供基准数据与方法参考。

相关成果发表于国际计算机视觉顶级会议IEEE CVPR 2025并入选为Highlight(亮点工作)。

首个沉浸式体积视频数据集ImViD上线,定义沉浸式媒体新形态丨CVPR‘25 Highlight

图注:[CVPR 2025 Highlight] ImViD: Dynamic Volumetric Video Reconstruction and Rendering for Immersive VR

核心贡献:ImViD——沉浸式体积视频全流程制作管线

首个沉浸式体积视频数据集ImViD上线,定义沉浸式媒体新形态丨CVPR‘25 Highlight

图注:ImViD沉浸式体积视频构建方法总览:采集 – 预处理 – 光场重建 – 声场建模 – 渲染

团队推出全球首个面向大空间的多模态体积视频数据集ImViD以支持用户可自由移动的完全沉浸式体验,为体积视频的研究和应用提供了新的路径:

硬件革新:自搭建46台GoPro相机阵列+可移动拍摄车,模拟人类视角的观看习惯,高效高密度覆盖采集空间;

数据规模7大开放世界真实室内外场景(歌剧、会议、教学等),5K分辨率+60FPS,总时长超38分钟13万帧

动态捕捉:支持静态定点动态移动双模式拍摄,首次实现“边走边拍”的多视角高密度时空光场采集;

开放挑战:所有动态场景数据公开,推动沉浸式体积视频算法与应用突破!

三、ImViD系统搭建与数据采集

团队设计并搭建了一个可远程控制的移动式平台,搭载 46 台GoPro 摄像机同步触发,可实现高效光、声场采集:

首个沉浸式体积视频数据集ImViD上线,定义沉浸式媒体新形态丨CVPR‘25 Highlight

数据采集方案:可移动式平台 + 多种拍摄模式

undefined 多视角同步音视频采集(分辨率 5312×2988, 60FPS, 1-5 min);

undefined 定点采集 + 移动轨迹拍摄模式(支持背景重建与动态前景追踪);

undefined 毫米级相机阵列时间同步机制。

首个沉浸式体积视频数据集ImViD上线,定义沉浸式媒体新形态丨CVPR‘25 Highlight

数据集内容与参数指标展示

数据集中包括了各式各样的生活常见室内外动态场景,具有丰富的前背景,涵盖了慢速运动和快速运动的内容,对当前重建算法提出了更高的要求,能进一步挖掘算法的瓶颈,促进社区的进步。

四、ImViD光声场融合重建

动态光场重建:

作者在 Spacetime Gaussian (STG) 的基础上,提出了时空一致性更强的改进方法 STG++,解决了原方法在动态场景下的漂移与色差问题。

为了消除多相机之间的色彩差异,STG++ 为每个相机引入仿射颜色变换:

首个沉浸式体积视频数据集ImViD上线,定义沉浸式媒体新形态丨CVPR‘25 Highlight

该变换在渲染损失中被联合优化,以确保多视角颜色对齐。此外,作者还在重建过程中对时间维度执行了致密化操作,让高斯在时间维度上也可控。

自由声场重建:

作者提出一种不依赖神经网络训练的几何驱动声场建模方法,基于 HRTF(头相关传递函数)和 RIR(间脉冲响应)进行空间音频渲染。具体步骤如下:

(1)声源定位:通过麦克风阵列获取声源位置与用户耳朵位置;

(2)距离衰减建模:计算声源到用户耳朵的距离衰减;

(3)空间音频渲染:基于 HRTF 和 RIR 进行空间音频渲染。 从多个同步相机采集的音视频数据构建声场的方案在国内外鲜有团队尝试,但这类采集方式非常贴近人们日常拍摄生活场景的习惯,因此该团队提出的方案具有极大的推广价值。

实验结果:STG++领跑,声场融合,沉浸感拉满!

光场重建:改进算法STG++以31.24 PSNR、110 FPS刷新性能,解决色彩闪烁与运动断层难题;

首个沉浸式体积视频数据集ImViD上线,定义沉浸式媒体新形态丨CVPR‘25 Highlight
首个沉浸式体积视频数据集ImViD上线,定义沉浸式媒体新形态丨CVPR‘25 Highlight

图注:论文结果展示(一)

声场合成:用户研究显示,61.9%专家认为空间音频感知“优秀”,90%认可沉浸感;

首个沉浸式体积视频数据集ImViD上线,定义沉浸式媒体新形态丨CVPR‘25 Highlight
首个沉浸式体积视频数据集ImViD上线,定义沉浸式媒体新形态丨CVPR‘25 Highlight

图注:论文结果展示(二)

实时交互:单卡3090实现6-DoF多模态VR体验,60FPS丝滑渲染,视听反馈随动无延迟!

首个沉浸式体积视频数据集ImViD上线,定义沉浸式媒体新形态丨CVPR‘25 Highlight

图注:论文结果展示(三)

未来展望:打开数字孪生与元宇宙的大门

ImViD不仅为学术界提供全新基准,更在影视、教育、医疗等领域展现潜力:

动态光场重建:推动长时复杂场景的高效建模;

声场合成:无需训练数据,支持移动声源定位,非常适合日常记录(Causal Capture);

产业落地:助力智慧医疗、教育、远程协作,智慧文旅如虚拟演唱会、景点游览等应用场景。同时将支持移动端交互渲染,让4D视频具有更多可能。

项目主页:https://yzxqh.github.io/ImViD/

论文地址: https://arxiv.org/pdf/2503.14359

论文/代码/数据:全面开源,欢迎挑战!(持续更新中)

致谢

本研究获国家重点研发计划、国家自然科学基金、清华-咪咕智能光场与交互技术联合研究中心和北京市光场共性技术平台支持。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy