fss 露出

探花 巨乳 单张相片生成360°3D场景,复旧机动视角漫游

发布日期:2025-03-30 13:50    点击次数:82

探花 巨乳 单张相片生成360°3D场景,复旧机动视角漫游

从单张图像生成机动视角 3D 场景的时期来了探花 巨乳,在考古保护、自主导航等径直获取 3D 数据老本腾贵或不成行的限度具有攻击应用价值。

这一任务骨子上是高度不适定的:单一的 2D 图像无法提供有余的信息来摒除完整 3D 结构的歧义,尤其是在顶点视角(如 180 ° 旋转)下,先前被遮蔽或缺失的内容可能会引入权贵的省略情味。

生成模子,尽头是扩散模子,为束缚这一问题提供了一种潜在的时期旅途。尽管现存风物频频依赖预窥察的生成模子看成新视角合成的先验,但它们仍面对权贵挑战。

举例,基于图像的扩散风物容易积存内容误差,基于视频的扩散方司法难以处理可能生成的动态内容构建静态 3D 场景的影响。最近的磋议尝试通过在视频扩散模子中引入点云先验来擢升一致性,天然取得了一定进展,但在可扩张性方面仍存在局限,尤其是在大视角变化下的进展存待擢升。

针对上述问题,东说念主大高瓴李崇轩、文继荣团队、北师大王一凯团队与字节卓越的磋议员建议了一种新风物 FlexWorld,用于从单张图像生成机动视角的 3D 场景。

与现存风物不同,FlexWorld 通过合成和整合新的 3D 内容,沉着构建并扩张一个握久的 3D 示意。

该风物包含两个中枢组件:

( 1 ) 一个遒劲的视频到视频(video-to-video, V2V)扩散模子,用于从随意场景渲染的不完整图像生成完整的视角图像; ( 2 ) 一个几何感知的 3D 场景扩张经过,用于提真金不怕火新的 3D 内容并将其整合到全局结构中。磋议团队在精准深度测度的窥察数据上对先进的视频基础模子进行了微调,使其大约在大幅度相机变化下生成高质料内容。

基于 V2V 模子,场景扩张经过通过相机轨迹野心、场景整合和细化次序,沉着从单张图像构建出复旧机动视角不雅察(包括 360 ° 旋转和缩放等)的 3D 场景生成。

通过无数实验,磋议团队考据了 FlexWorld 在高质料视频和机动视角 3D 场景合成方面的性能。FlexWorld 在生成大幅度相机变化司法下的视频中展现了出色的视觉质料,同期在生成机动视角 3D 场景时保握了较高的空间一致性。为促进学术疏浚和时期引申,团队已开源关联代码仓库与窥察权重,供磋议社区进一步探索和应用。

性能展示

复旧大幅转角的视频到视频生成‍

在多种不同开首的输入图像和相机轨迹下,FlexWorld 中微调的视频模子不错生成较高质料且 3D 一致的视频内容。受益于较好的一致性,这些视频不错径直用于 3D 重建,为后续生成机动视角的场景提供了较好的视觉内容。

机动视角的场景生成探花 巨乳

阐述单张图片输入,FlexWorld 不错生成机动视角下的 3D 场景,这些生成的场景不错在 360 度旋转,前进和后退等视角进行探索。这些场景通过多段视频渐渐构筑生成,旨在扩张出更大的可探索区域,而非仅热心前线区域。

中枢风物

下图展示了 FlexWorld 的举座框架。

沉着构建场景

FlexWorld 采选多段视频沉着构建出一个具有更大可探索区域的场景。在场景内容不及的区域,FlexWorld 渲染出该区域的遗残场景视频,并通过一个经过微调的视频到视频模子,获取补完的场景视频。在场景会通阶段,视频中的枢纽帧将会被填充置入场景的不及区域,其他帧则会看成场景示意(即 3D Gaussian splatting)的参考图像优化举座场景表征。

复旧大转角的视频到视频模子

FlexWorld 中包含一个经过微调的视频模子,该模子以视频看成要求,不错从遗残的输入视频中捕捉到相机运行轨迹,输出合乎输入轨迹的齐全视频,保握风雅的 3D 一致性。该视频模子选用 CogVideoX-5B-I2V 看成基座模子,并构造了一系列深度风雅的遗残视频 - 风雅视频考核对。不同于依赖深度测度模子获取的考核对,FlexWorld 构建的考核对来自于归并场景密集重建提供的深度,这种考核对使模子恒久明确应该建树的区域,从而大约在推理时复旧更大转角的相机敞开。

基于视频内容的场景会通

FlexWorld 一方面通过高斯优化将多段视频内容会通进握久化的 3D 表征中,另一方面通过密集立体模子和深度会通战略,将多段视频的枢纽帧径直看成起始三维高斯加入表征看成起始化,以充分应用深度测度模子提供的先验和视频里面的一致性。

牵记

本文先容了 FlexWorld,这是一个从单张图像生成机动视角 3D 场景的框架。它荟萃了一个微调的视频到视频扩散模子,用于高质料的新视角合成,以及一个渐进的机动视角 3D 场景生成经过。通过应用先进的预窥察视频基础模子和精准的窥察数据,FlexWorld 大约处理大幅度的相机姿态变化,从而达成一致的、复旧 360 ° 旋转和前进后退不雅察的 3D 场景生成。无数实验标明,与现存风物比较,FlexWorld 在视角机动性和视觉质料性能方面进展优异。咱们深信 FlexWorld 具有弘大的出路,并在假造施行内容创作和 3D 旅游限度具有攻击后劲。

本文由中国东说念主民大学高瓴东说念主工智能学院李崇轩、文继荣熟识团队、北京师范大学东说念主工智能学院王一凯副熟识和字节卓越共同完成。共归并作陈路晰和周子晗永别是中国东说念主民大学高瓴东说念主工智能学院的博士生与硕士生,导师为李崇轩副熟识。王一凯副熟识、李崇轩副熟识为共同通信作家。

论文敞开:https://arxiv.org/abs/2503.13265

名目地址:https://ml-gsai.github.io/FlexWorld/

代码仓库:https://github.com/ML-GSAI/FlexWorld

巨乳xx

一键三连「点赞」「转发」「提神心」

宽宥在评述区留住你的思法!

—  完  —

学术投稿请于责任日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 名目主页敞开,以及干系样式哦

咱们会(尽量)实时回应你

� � 点亮星标 � �

科技前沿进展逐日见探花 巨乳





Powered by fss 露出 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024