原文

摘要

神经渲染方法在各种学术和工业应用中显著推进了照片级真实的3D场景渲染。最近的3D高斯喷溅方法结合了基于基元表示和体积表示的优势，实现了最先进的渲染质量和速度。然而，它往往会导致大量冗余的高斯函数，这些函数试图拟合每个训练视图，而忽略了底层的场景几何结构。因此，所得到的模型在面对显著的视角变化、无纹理区域和光照效果时变得不够稳健。我们提出了Scaffold-GS，它使用锚点来分布局部3D高斯函数，并基于视锥体内的视角方向和距离即时预测它们的属性。基于神经高斯函数的重要性开发了锚点增长和剪枝策略，以可靠地改善场景覆盖。我们表明，我们的方法有效地减少了冗余的高斯函数，同时提供高质量的渲染。我们还展示了增强的能力，可以适应具有不同细节层次和视角依赖观察的场景，而不牺牲渲染速度。项目页面：https://city-super.github.io/scaffold-gs/。

1. 引言

3D场景的照片级真实和实时渲染一直是学术研究和工业领域的核心兴趣，其应用范围涵盖虚拟现实[51]、媒体生成[36]和大规模场景可视化[43, 45, 49]。传统的基于基元的表示方法，如网格和点[6, 26, 32, 55]，由于使用了针对现代GPU优化的光栅化技术而速度更快。然而，它们通常会产生低质量的渲染，表现出不连续和模糊的伪影。相比之下，体积表示和神经辐射场利用基于学习的参数模型[3, 5, 30]，因此可以产生连续的渲染结果，保留更多细节。然而，它们需要耗时的随机采样，导致性能较慢且可能产生噪声。近期，3D高斯喷溅(3D-GS)[22]实现了最先进的渲染质量和速度。该方法从运动结构(SfM)[42]得到的点云初始化，优化一组3D高斯函数来表示场景。它保持了体积表示中固有的连续性，同时通过将3D高斯函数喷溅到2D图像平面上实现快速光栅化。

虽然这种方法提供了几个优势，但它倾向于过度扩展高斯球以适应每个训练视图，从而忽略了场景结构。这导致了显著的冗余并限制了其可扩展性，特别是在复杂的大规模场景中。此外，视角依赖效果被烘焙到个别高斯参数中，插值能力有限，使其在面对大幅视角变化和光照效果时不够稳健。

我们提出Scaffold-GS，这是一种基于高斯的方法，利用锚点建立分层和区域感知的3D场景表示。我们从SfM点构建稀疏的锚点网格。每个锚点都连接着一组具有可学习偏移的神经高斯函数，其属性（即不透明度、颜色、旋转、缩放）基于锚点特征和观察位置动态预测。与允许3D高斯函数自由漂移和分裂的原始3D-GS不同，我们的策略利用场景结构来指导和约束3D高斯函数的分布，同时允许它们在局部适应不同的视角和距离。我们进一步开发了相应的锚点增长和剪枝操作以增强场景覆盖。

通过广泛的实验，我们表明我们的方法提供了与原始3D-GS相当或甚至更优的渲染质量。在推理时，我们将神经高斯函数的预测限制在视锥体内的锚点，并基于不透明度通过过滤步骤（即可学习选择器）过滤掉次要的神经高斯函数。因此，我们的方法可以以与原始3D-GS相似的速度（在1K分辨率下约100 FPS）渲染，计算开销很小。此外，我们的存储需求显著减少，因为我们只需要为每个场景存储锚点和MLP预测器。

总之，我们的贡献是：1) 利用场景结构，我们从稀疏体素网格初始化锚点来指导局部3D高斯函数的分布，形成分层和区域感知的场景表示；2) 在视锥体内，我们即时从每个锚点预测神经高斯函数以适应不同的视角方向和距离，实现更稳健的新视角合成；3) 我们开发了一种更可靠的锚点增长和剪枝策略，利用预测的神经高斯函数实现更好的场景覆盖。

4.3. 消融研究

过滤策略的有效性。我们评估了过滤策略（第3.2.2节），这些策略对加速我们的方法至关重要。如表4所示，虽然这些策略对保真度没有明显影响，但它们显著提高了推理速度。然而，存在遮蔽相关神经高斯函数的风险，我们计划在未来的工作中解决这个问题。

锚点优化策略的有效性。我们评估了第3.3节中描述的增长和剪枝操作。表5显示了单独禁用每个操作而保持方法其余部分不变的结果。我们发现，增长操作对于准确重建细节和无纹理区域至关重要，而剪枝操作在消除次要高斯函数和维持方法效率方面发挥重要作用。

4.4. 讨论和局限性

通过我们的实验，我们发现初始点对于高保真度结果起着关键作用。考虑到这些点云通常作为图像校准过程的副产品出现，从SfM点云初始化我们的框架是一个快速且可行的解决方案。然而，这种方法对于以大型无纹理区域为主的场景可能并不理想。尽管我们的锚点优化策略在某种程度上可以缓解这个问题，但它仍然受到极度稀疏点的影响。我们期望随着该领域的进步，我们的算法将逐步改进，产生更准确的结果。更多细节在补充材料中讨论。

5. 结论

在这项工作中，我们提出了Scaffold-GS，这是一种用于高效视角自适应渲染的新型3D神经场景表示方法。Scaffold-GS的核心在于其由SfM锚点引导的3D高斯函数的结构化排列，其属性通过视角依赖的MLPs即时解码。我们表明，我们的方法利用更紧凑的高斯函数集来实现与最先进算法相当或更好的结果。我们的视角自适应神经高斯函数的优势在3D-GS通常失败的挑战性案例中尤为明显。我们进一步表明，我们的锚点以有意义的方式编码局部特征，在某种程度上展现出语义模式，这表明其在未来可能应用于大规模建模、操作和解释等多种任务中。

078 Scaffold-GS, Structured 3D Gaussians for View-Adaptive Rendering

原文

摘要

1. 引言

4.3. 消融研究

4.4. 讨论和局限性

5. 结论

评论