热点资讯

你的位置:九游体育(Nine Game Sports)官方网站 登录入口 > 新闻动态 > 现金九游体育app平台腾讯混元 3D 团队冷漠了DA2-九游体育(Nine Game Sports)官方网站 登录入口

现金九游体育app平台腾讯混元 3D 团队冷漠了DA2-九游体育(Nine Game Sports)官方网站 登录入口


发布日期:2025-11-07 07:16    点击次数:102


全景图具有完整的视场 (360 °× 180 °),比透视图提供更完整的视觉边幅。成绩于此特质,全景深度推断在 3D 视觉范畴正日益受到关爱。

但是,由于全景数据的稀缺,以往的技能经常局限于域内建立,导致零样本泛化材干较差。此外,由于全景图固有的球面畸变,好多技能依赖于透视分割(举例,cubemaps,立方怜惜图),这导致后果不睬思。

为了支吾这些挑战,腾讯混元 3D 团队冷漠了DA2,一个准确的、零样本泛化材干强且完全端到端的全景深度推断器。

布景与挑战

△图 1:Teaser 图片

与常用的透视图像不同,全景图提供千里浸式的 360 °× 180 ° 视角,可从"任何处所"(Any Direction)捕捉视觉实践。

这种宽敞的视场使全景图成为狡计机视觉范畴中必不可少的视觉示意,并赋能了各样欢快东说念主心的诈欺,举例 AR/VR 和千里浸式图像生成。

但是,仅有千里浸式视觉(二维)体验是不够的。全景图中的高质地深度 (3D) 信息对 3D 场景重建 / 生成、物理模拟、寰宇模子等更高档的诈欺至关迫切。

受此启发,腾讯混元 3D 团队专注于以端到端的时势推断从每个全景像素到球体中心(即 360 ° 相机)的 scale-invariant [ 1 ] 和 distance [ 2 ] ,并达成高保真度和遒劲的零样本泛化。

[ 1 ] Distance(距离)和 depth(深度)具有三种类别,分辩是 metric,scale-invariant (biased), 和 affine-invariant (relative)。Metric 是指具有统统 scale(圭臬)的统统深度,是最严格的界说。scale-invariant 是指不具备统统圭臬的深度,但是具有全局的 shift(or bias,偏差),亦然很严格的界说,metric 和 scale-invariant 都不错完整保存具体的 3D 结构。affine-invariant 是最松的界说,它弗成保存完整的 3D 结构,主要抒发的是不同像素的前后深度法例。

[ 2 ] 严格来讲,distance(距离)为:

,depth(深度)为 z。这里使用 depth 是为了更好的可读性和连贯性。

挑战在于:

拍摄或渲染全景图比透视图更具挑战性,因为全景深度数据的数目和各样性都格外有限。因此,早期的技能大多是在范畴内进行锤真金不怕火和测试,零样本泛化材干格外有限。

由于全景图固有的球面畸变,好多技能交融了 ERP(1 个全景图)和立方怜惜图(6 个透视视角)投影的特征。这些政策固然灵验,但仍然需要极端的模块,因此不够精简,后果也不够高。

中枢孝敬

这项使命的巨大运筹帷幄是扩张全景数据,并为 DA2 构建坚实的数据基础。

腾讯混元 3D 团队最初思到的,是基于大都高质地的透视深度数据,诊治赢得全景数据。为此,他们冷漠了一个数据料理引擎,将透视样本诊治为高质地的全景数据。

△全景数据推行引擎

具体来说,给定一个已知水温和垂直视场角的透视 RGB 图像,最初诈欺透视到等距矩形(Perspective-to-Equirectangular,P2E)投影将图像映射到球面空间。

但是,由于透视图像的视场角有限(水平范围经常为 70 ° -90 °),因此只可阴私球面空间的一小部分(如图 2 左侧球体所示)。因此,这么的 P2E 投影图像不错被视为"不完整"的全景图。这种不完整性会导致性能欠安:1)该模子缺少全局布景,因为它从未不雅察到全景图像的全貌,尤其是在南北极隔邻;2)球面畸变在赤说念和南北极之间互异很大,高纬度地区会出现严重的拉伸。

为此,说合团队将使用全景图的外推引擎进行全景外推,以生成与模子输入匹配的"完整"全景图。关于关系的 GT 深度,说合团队仅诈欺 P2E 投影,而未进行外推,因为外推深度的统统精度很勤快的保证。总体而言,该数据推行引擎显贵提高了全景数据的数目和各样性,并显贵增强了 DA2 的零样人性能,如图 3 所示。

△图 3:模子性能与数据范围的弧线

该数据推行引擎创建了约 543K 个全景样本,将样本总和从约 63K 扩张到约 607K(约 10 倍),显贵科罚了数据稀缺导致泛化材干差的问题。

接下来,说合团队重心关爱 DA2 的模子结构和锤真金不怕火,以便灵验地从大幅扩张的数据中进行学习。

△图 4:SphereViT 架构过甚锤真金不怕火失掉

为了削弱球面畸变的影响,受 Vision Transformers (ViT) 中位置镶嵌的启发,说合团队冷漠了 SphereViT —— DA2 的主要模子架构。

具体来说,从球体布局开拔,说合团队最初狡计以相机为中心的球面坐标系中每个像素的球面角(处所角和极角)。

然后,使用正弦 - 余弦基函数将这个双通说念角度场扩张至图像特征维度,从而造成球面镶嵌(Spherical Embedding)。由于悉数全景图都具有换取的完整视场,因此该球面镶嵌不错固定且可访佛使用。为了注入球面感知,只需让图像特征去"关爱"球面镶嵌,而毋庸反过来。也即是说,SphereViT 并非像顺序 ViT 那样在自风雅力机制之前将位置镶嵌添加到图像特征上,而是汲取交叉风雅力机制:将图像特征视为查询,将球面镶嵌视为键和值。这种想象使图像特征简略明确地关爱全景图的球面几何阵势,从而产生可感知畸变的示意并提高性能,如图 5(a)所示。

△图 5:消融说合

在锤真金不怕火过程中,模子的监督机制联结了两个方面:距离损爽拘谨全局精准的距离值;法线失掉促进局部平滑、敏感的几何名义,尤其是在距离值相通但名义法线互异较大的区域,如图 5(b)所示。

实验收尾

为了考据 DA2,说合团队联结多个公认的评估数据集,对圭臬不变距离进行了全面的基准测试。

△表 1:定量相比

但是,由于全景数据的稀缺,现存的全景深度推断零样本技能有限,而在透视深度推断方面,存在好多遒劲的零样本技能。因此,为了确保更公道、更全面的相比,说合团队治服 MoGe (https://github.com/microsoft/moge)冷漠的全景深度推断进程,并将 DA2 与先前的零样本透视深度推断器(Metric3D v1v2、VGGT、UniDepth v1v2、ZoeDepth、DepthAnuthing v1v2、Lotus、MoGe v1v2)也引入了基准测试。

如表 1 所示,DA2 展现出了 SOTA 性能,其 AbsRel 性能比最强的 zero-shot 技能平均提高了 38%。

值得风雅的是,它以至杰出了之前的 in-domain 技能,进一步突显了其超卓的泛化材干。

△图 6:定性相比

说合团队还进行了定性相比,如图 6 所示。成绩于本文冷漠的数据料理引擎,DA2 锤真金不怕火所用的全景数据比 UniK3D 多出约 21 倍,展现出更精准的几何展望。DA2 也优于 MoGev2,因为后者的全景性能受到交融过程中多视角不一致性(举例不礼貌墙壁、破灭的建筑物等)的收尾。

诈欺场景

DA2 凭借其超卓的零样本泛化全景深度推断材干,灵验地达成了无为的 3D 重建关系诈欺,举例全景多视图重建。

如图 7 所示,DA2 简略证实房屋 / 公寓不临幸间的全景图像,重建全局对皆的 3D 点云,确保不临幸间的多个全景视图之间的空间一致性。

△图 7:Pano3R,全景多视图重建时势主页:

https://depth-any-in-any-dir.github.io/

著作贯穿:

https://arxiv.org/abs/2509.26618

Github 仓库 (已开源):

https://github.com/EnVision-Research/DA-2

Huggingface demo (接待试玩):

https://huggingface.co/spaces/haodongli/DA-2

Huggingface model:

https://huggingface.co/haodongli/DA-2

一键三连「点赞」「转发」「留意心」

接待在评述区留住你的思法!

—  完  —

� � 点亮星标 � �

科技前沿弘扬逐日见现金九游体育app平台