k052 Bayesian uncertainty analysis for underwater 3D reconstruction with neural radiance fields

Zhangwenniu 于 2025-03-13 发布

论文链接

Applied Mathematical Modelling Link

Arxiv Link

发表时间(Arxiv):

[v1] Thu, 11 Jul 2024 03:16:51 UTC (43,366 KB)

论文重点难点讲解

1 研究背景与动机

2 研究方法

3 不确定性量化

4 实验与结果

5 应用与讨论

6 局限性与未来工作

通过上述分析,论文展示了如何在水下三维重建中引入不确定性量化,并通过实验验证了其有效性。

论文详细讲解

1 研究背景

水下三维重建是海洋环境研究中的一个重要课题。传统的三维重建方法(如多视图立体视觉MVS、运动恢复结构SfM等)依赖于离散表示,难以恢复复杂结构的详细几何信息。近年来,神经辐射场(NeRF)作为一种新兴的三维重建技术,能够从稀疏的二维图像中生成高质量的三维场景。然而,水下环境中的光传播受到散射和吸收的影响,导致传统NeRF在水下场景中的重建质量下降。为此,SeaThru-NeRF被提出用于处理水下场景中的散射介质问题。尽管如此,现有方法仍然缺乏对不确定性量化的支持,这限制了其在无人水下航行中的实际应用。

2 研究目标

本文的目标是为水下场景的三维重建引入不确定性量化,以提高模型的可靠性和鲁棒性。通过量化不确定性,可以为下游任务(如水下导航、基础设施检查等)提供更可靠的决策支持。

3 研究方法

3.1 SeaThru-NeRF模型

SeaThru-NeRF是NeRF的扩展,能够处理水下场景中的散射介质。它将场景的密度和颜色分为物体部分和介质部分,通过以下公式表示:

\[C(r) = \int_{t_n}^{t_f} T(t) \left[ \sigma_{\text{obj}}(t) c_{\text{obj}}(t) + \sigma_{\text{med}}(t) c_{\text{med}}(t) \right] dt\]

其中,\(T(t)\)是累积透射率,\(\sigma_{\text{obj}}\)和\(\sigma_{\text{med}}\)分别是物体和介质的密度,\(c_{\text{obj}}\)和\(c_{\text{med}}\)分别是物体和介质的颜色。

3.2 不确定性量化方法

为了量化不确定性,作者引入了一个空间扰动场\(D_\omega\),并基于贝叶斯光线(Bayes’ rays)进行拉普拉斯近似。具体步骤如下:

1. 空间扰动场:通过在输入坐标\(x\)上添加扰动\(D_\omega(x)\),重新参数化SeaThru-NeRF模型。扰动场的参数\(\omega\)通过三线性插值计算:

\[D_\omega(x) = \text{Trilinear}(x, \omega)\]

2. 拉普拉斯近似:将网络参数的后验分布近似为高斯分布\(N(\omega^*, \Sigma)\),其中\(\Sigma\)的对角元素表示每个空间位置的不确定性。通过以下公式计算\(\Sigma\):

\[\Sigma = -H(0)^{-1}\]

其中,\(H(0)\)是目标函数\(h(\omega) = -\log p(\omega \vert I)\)在\(\omega = 0\)处的Hessian矩阵。

3. Hessian矩阵的近似:直接计算Hessian矩阵的二阶导数计算成本高昂,因此作者使用Fisher信息矩阵进行近似:

\[I(\omega) \approx \frac{2}{R} \sum_{r} J_\omega(r)^\top J_\omega(r) + 2\lambda I\]

其中,\(J_\omega(r)\)是预测颜色对参数\(\omega\)的雅可比矩阵。

4. 空间不确定性场:通过计算\(\Sigma\)的对角元素,得到每个空间位置的不确定性,并将其渲染为新的体积数据\(U(x)\):

\[U(x) = \text{Trilinear}(x, \sigma)\]

3.3 伪影去除

利用不确定性场\(U(x)\),可以通过简单的阈值化方法去除渲染结果中的伪影,从而提高重建质量。

4 实验与结果

4.1 数据集

实验使用了四个真实水下图像数据集(Curasao、IUI3、Panama和JapaneseGardens)和一个合成数据集(uwSimulation)。真实数据集的图像在预处理时进行了白平衡和噪声裁剪。

4.2 实验设置

4.3 性能指标

4.4 实验结果

table.1

表1:我们对SeaThru - NeRF和SeaThru - NeRF - lite进行不确定性量化研究的结果。

实验结果表明,该方法能够在不显著影响重建质量的前提下,有效地量化不确定性。例如,Curasao数据集上SeaThru-NeRF的AUSE_MSE为0.30523,表明不确定性估计与实际误差高度一致。同时,PSNR、SSIM和LPIPS指标与原始模型相比几乎没有差异,说明不确定性量化过程对重建质量的影响较小。见表1。

5 讨论

5.1 模型架构的影响

SeaThru-NeRF在不确定性估计上表现优于SeaThru-NeRF-lite,这主要归因于其更大的模型容量和更强的特征表示能力。较大的模型能够更好地拟合训练数据,从而在不同参数设置下表现出更稳定的性能。

5.2 数据集的影响

合成数据集的AUSE值普遍高于真实数据集,这可能是由于合成数据的简化假设导致模型过拟合。真实数据集中的噪声和不确定性迫使模型学习更强的泛化能力,从而在复杂环境中表现出更好的不确定性估计性能。

5.3 误差类型的影响

AUSE_MAE值普遍高于AUSE_MSE和AUSE_RMSE,这可能是由于MAE对误差的敏感性较低,而MSE和RMSE对大误差更为敏感。这种差异反映了不同误差类型对不确定性估计的影响。

6 应用

通过阈值化处理不确定性场,可以去除渲染结果中的伪影,从而提高水下场景重建的质量。例如,通过逐步降低不确定性阈值,可以逐步清理场景中的浮动物体,最终得到清晰的目标物体图像。

7 局限性与未来工作

当前方法假设光源仅来自自然环境光,未考虑深海中人工光源和多次散射的影响。未来工作将探索更多样化的场景和介质参数估计方法,以提高模型在复杂水下环境中的适用性。

通过上述分析,本文展示了如何在水下三维重建中引入不确定性量化,并通过实验验证了其有效性。

论文方法部分详解

1 不确定性量化方法的总体框架

本文提出了一种基于贝叶斯方法的不确定性量化框架,用于水下三维重建中的神经辐射场(NeRF)。核心思想是通过引入一个空间扰动场 \(D_\omega\),并结合拉普拉斯近似,来量化每个空间位置的不确定性。该方法不需要重新训练模型或修改训练过程,从而显著降低了计算成本。

2 空间扰动场 \(D_\omega\)

为了量化不确定性,作者引入了一个可学习的空间扰动场 \(D_\omega\),用于对输入坐标进行微小扰动。具体来说,对于任意空间坐标 \(x\),其扰动后的坐标为 \(x + D_\omega(x)\),其中 \(D_\omega(x)\) 通过以下方式计算:

\[D_\omega(x) = \text{Trilinear}(x, \omega)\]

这里,\(\omega \in \mathbb{R}^{M \times D \times D}\) 是扰动场的参数,\(M\) 表示用于存储位移向量的网格大小,\(D\) 是向量的维度。通过三线性插值,可以将网格上的位移向量映射到任意空间坐标 \(x\)。

3 拉普拉斯近似

拉普拉斯近似是一种用于近似后验分布的方法,它将复杂的后验分布近似为一个高斯分布。具体来说,假设网络参数的后验分布为:

\[p(\omega \vert I) \sim \mathcal{N}(\omega^*, \Sigma)\]

其中,\(\omega^*\) 是预训练模型的最优参数,\(\Sigma\) 是协方差矩阵。根据拉普拉斯近似,可以将目标函数 \(h(\omega) = -\log p(\omega \vert I)\) 在 \(\omega = 0\) 处进行二阶泰勒展开:

\[h(\omega) \approx h(0) + \frac{1}{2} (\omega - 0)^\top H(0) (\omega - 0)\]

这里,\(H(0)\) 是目标函数在 \(\omega = 0\) 处的Hessian矩阵。通过比较上述展开式与高斯分布的负对数似然,可以得到协方差矩阵:

\[\Sigma = -H(0)^{-1}\]

4 Hessian矩阵的近似

直接计算Hessian矩阵的逆矩阵计算成本高昂。因此,作者通过Fisher信息矩阵来近似Hessian矩阵。Fisher信息矩阵与Hessian矩阵的关系为:

\[I(\omega) = -\mathbb{E}_{(r, y) \sim p_\omega} \left[ \frac{\partial^2 h(r, y; \omega)}{\partial \omega^2} \right] \approx -H(\omega)\]

在实际计算中,作者使用以下公式近似Fisher信息矩阵:

\[I(\omega) \approx \frac{2}{R} \sum_{r} J_\omega(r)^\top J_\omega(r) + 2\lambda I\]

其中,\(J_\omega(r)\) 是预测颜色对参数 \(\omega\) 的雅可比矩阵,\(\lambda\) 是正则化参数,\(R\) 是采样的射线数量。

5 空间不确定性场

通过计算协方差矩阵 \(\Sigma\) 的对角元素,可以得到每个空间位置的不确定性。这些不确定性值被渲染为一个新的体积数据 \(U(x)\),用于可视化场景中不确定性较高的区域:

\[U(x) = \text{Trilinear}(x, \sigma)\]

其中,\(\sigma\) 是协方差矩阵的对角元素,表示每个空间位置的不确定性。

6 伪影去除

利用不确定性场 \(U(x)\),可以通过简单的阈值化方法去除渲染结果中的伪影。具体来说,对于不确定性较高的区域(即 \(U(x)\) 值较大的区域),可以通过设置阈值将其从最终渲染结果中移除,从而提高重建质量。

总结

本文提出的方法通过引入空间扰动场和拉普拉斯近似,有效地量化了水下三维重建中的不确定性。该方法不仅能够提供每个空间位置的不确定性估计,还可以通过阈值化去除伪影,从而提高重建质量。这种方法在不显著增加计算成本的前提下,显著增强了模型的可靠性和鲁棒性。

原文翻译

摘要

神经辐射场(NeRFs)是一种深度学习技术,它可以利用来自不同视角方向的稀疏二维图像和相机姿态,生成三维场景的新视图。作为传统神经辐射场在水下环境中的扩展,在水下环境中光线会被水吸收和散射,SeaThru-NeRF 被提出用于将水下场景的清晰外观和几何结构,与散射介质的影响分离开来。由于水下场景外观和结构的质量,对于水下基础设施检测等下游任务至关重要,因此三维重建模型的可靠性应该被考虑和评估。然而,由于缺乏在自然环境光照下对水下场景三维重建中的不确定性进行量化的能力,神经辐射场在无人自主水下导航中的实际应用受到了限制。为了解决这个问题,我们在SeaThru-NeRF中引入基于贝叶斯射线的空间扰动场\(\mathcal{D}_\omega\),并进行拉普拉斯近似,以获得参数\(\omega\)的高斯分布\(\mathcal{N}(0, \boldsymbol{\Sigma})\),其中\(\boldsymbol{\Sigma}\)的对角元素对应于每个空间位置的不确定性。我们还采用一种简单的阈值方法,从水下场景的渲染结果中去除伪影。数值实验证明了该方法的有效性。

关键词

神经辐射场;水下场景;不确定性量化

1 引言

水下场景的三维重建是海洋环境研究中一个重要且具有挑战性的研究课题[1-3]。传统的三维重建方法利用几何约束和某些先验假设,来恢复离散三维空间中目标物体的结构,比如多视图立体视觉(MVS)、从运动中恢复结构(SfM)和体素网格。由于依赖离散表示,上述方法难以恢复复杂结构的详细几何信息。此外,这些方法对输入数据的质量和数量要求很高,导致数据采集和预处理过程繁琐。

近年来,神经辐射场(NeRFs)[4] 成为了一种从二维图像重建场景三维表示的新方法。神经辐射场属于神经渲染的范畴,它结合了计算机图形学中的经典光线追踪方法和深度学习技术。神经辐射场的核心思想是让一个全连接神经网络学习一个连续函数,该函数将三维空间坐标和观察方向映射到场景的颜色和光学密度。在神经网络使用从不同视角和相机姿态采集的一组稀疏二维图像进行训练后,神经辐射场能够从任意视点合成场景的新视图。与传统方法相比,神经辐射场不仅提高了三维重建的图像质量,更重要的是,由于其使用简单且仅需要少量的输入视图,大大提高了效率。

然而,水下环境中存在的复杂光学效应,如后向散射和衰减,给神经辐射场的应用带来了巨大挑战。在具有自然环境光照的浅水中,光的传播遵循与空气中非常不同的物理定律,这导致神经辐射场的重建质量显著下降。为了应对这一挑战,SeaThru-NeRF [5] 扩展了神经辐射场,首次将其应用于水下等散射介质。它能够合成新视图的逼真渲染图像,同时将清晰的场景外观和几何结构与散射介质的影响分离。这不仅有助于扩展神经辐射场的应用场景,还有助于从散射介质数据中恢复隐藏的场景细节,这在自主水下航行器(AUV)导航以及恶劣天气下的无人机应用领域具有重要价值[6]。

尽管有这些进展,水下环境的复杂性在光学效应建模中引入了固有不确定性。然而,大多数现有研究将神经辐射场(NeRFs)视为确定性模型,忽略了其固有的不确定性来源。事实上,在不同的环境和数据分布下,神经辐射场在重建精度和几何细节恢复方面表现出一定的不确定性和可变性,这严重影响了模型的泛化性和稳健性。这直接影响了自主水下航行器(AUV)在探索和导航过程中的视觉质量,从而给概率约束的下游任务[7]带来了意想不到的失败风险,比如水下检查与监测[8, 9]、水下导航与定位[10, 11]以及水下基础设施检查[12]。幸运的是,通过不确定性量化方法,我们可以加强对模型的可靠性评估,从而提高自主水下航行器在各种现实任务中的决策质量,并为这些任务的成功完成提供重要保证。

不确定性量化在减少优化和决策过程中的不确定性方面起着至关重要的作用。近年来,随着深度学习技术的不断进步,深度集成、变分推理、蒙特卡罗 dropout 等各种不确定性量化方法,已成为学术界和工业界的热门研究话题[13]。为了提高神经辐射场在实际应用中的稳健性和可靠性,一些研究已开始结合这些方法来探究神经辐射场的不确定性。然而,据作者所知,目前没有文献记录与水下神经辐射场相关的不确定性量化内容,尤其是在自然环境光照下的情况。

为了填补上述研究空白,我们尝试引入一个可学习的空间扰动场\(\mathcal{D}_\omega\),并基于贝叶斯射线[14]对预训练的SeaThru-NeRF模型进行拉普拉斯近似,以量化不确定性。扰动场用于扰动原始SeaThru-NeRF网络的输入坐标\(\mathbf{x}\),从而间接导致整个模型的重新参数化。通过使用拉普拉斯近似方法,根据原始重建结果和扰动结果之间的差异来估计每个空间位置的不确定性。此外,我们利用阈值方法来去除由遮挡或不完整数据导致的伪影。

在这项工作中,我们证明了我们的模型能够明确推断合成和真实水下场景中的空间不确定性。总之,我们做出了以下关键贡献:

2 相关工作

2.1 水下场景中的神经辐射场(NeRFs)

神经辐射场是一种利用深度学习技术来重建三维场景的新方法。然而,由于后向散射和衰减的影响,导致水下光线传播复杂,这使得精确的三维场景重建比传统神经辐射场更具难度。为了解决这个问题,研究人员提出了各种改进方法。WaterNeRF [15] 使用神经辐射场额外学习水体参数,并将其与光传输模型 [16] 相结合进行颜色校正。通过将校正后的颜色分布与参考图像分布进行匹配,并使用Sinkhorn损失函数 [17] 进行训练,它能够在推理阶段从不同视角生成一致的颜色校正结果。U2NeRF [18] 扩展了UPIFM [19]。它修改了可泛化的神经辐射场变换器(GNT)[20] 以预测场景辐射、直接和后向散射传输图,并使用变分自编码器(VAE)预测全局背景光分量。通过将这四个分量与图像形成模型 [19] 相结合,它重建出原始水下图像。WaterHE-NeRF [21] 基于Retinex模型 [22] 设计了一种新颖的水光线追踪场,用于学习颜色、密度和光照衰减。通过控制光照衰减的强度,它可以同时生成退化和恢复的多视图图像。SeaThru-NeRF [5] 基于SeaThru [23],用物体密度和介质密度之和代替传统的单个不透明物体密度。最终的像素颜色由被介质衰减后的物体辐射以及沿光线累积的介质辐射组成。它不仅可以从新的视角生成逼真的图像,还可以利用学习到的物体和介质参数去除散射介质的影响,重建出场景的真实外观和颜色,就好像图像是在空气中拍摄的一样。

2.2 深度学习中的不确定性

在深度学习中,不确定性是指对模型预测结果的置信程度。有效地估计和处理不确定性,不仅可以提高模型的预测性能,还能增强其对异常情况的鲁棒性[24, 25]。变分推理[26 - 28]通过引入一组预先指定的变分分布族来近似难以处理的后验分布,并最小化证据下界(ELBO)以减小它们之间的差异。虽然这种方法能提供全面的不确定性估计,但其计算复杂度很高。深度集成策略[29, 30]使用多个独立训练的模型,结合不同的数据子集、模型结构或初始化方法,来降低单个模型的方差,从而提高泛化性和鲁棒性。然而,训练多个模型需要更多的计算资源和存储空间,并且可能会增加预测延迟。基于蒙特卡罗随机失活(MC - dropout)的方法[31 - 34]在推理阶段通过多次前向传播来模拟贝叶斯神经网络的效果,并利用不同预测的统计特性(如均值和方差)来估计模型的不确定性。但是,多次前向传播会导致较高的计算成本。Chen等人[35, 36, 37, 38]以及Qu等人[39]将模型降阶技术与深度学习相结合,以加快不确定性量化的采样过程。与上述不确定性量化方法相比,拉普拉斯近似[40, 41]不需要重新训练模型或修改训练过程。相反,它用高斯分布来近似后验分布,从而有效地降低计算成本。具体来说,通过对对数后验进行泰勒展开,并在众数处保留到二阶项,得到一个高斯分布来近似后验。这个高斯分布的均值是众数,协方差是众数处海森矩阵的负逆矩阵。

2.3 神经辐射场(NeRFs)中的不确定性

在实际应用中,神经辐射场需要解决不确定性问题,以提高模型的可靠性和鲁棒性。因此,研究人员探索了各种方法。ActiveNeRF [42] 将每个位置的辐射值建模为高斯分布,而不是单个值,这使得神经辐射场能够在未观测区域提供合理的高方差预测。S - NeRF [43] 利用贝叶斯变分推理,在新视图合成或深度估计等任务中实现与输出相关的不确定性量化。CF - NeRF [44] 使用条件归一化流和隐变量建模,在没有任何先验假设的情况下灵活学习辐射场分布。它在推理过程中通过评估预测的均值和方差来估计不确定性。Sünderhauf 等人[45] 提出通过在相同数据集上使用不同初始参数独立训练多个神经辐射场,来量化预测的不确定性[46, 47]。除了考虑RGB颜色的方差外,它还引入了基于终止概率的认知不确定性项,以捕捉未观测区域的不确定性。FG - NeRF [48] 将神经辐射场解耦为确定性和概率性分支,使用Flow - GAN [49] 对概率性分支进行建模,以避免独立性假设。此外,它采用了补丁对抗训练策略。这些设计使其能够在复杂场景中实现更准确的不确定性估计。ProbNeRF [50] 在测试期间使用哈密顿蒙特卡罗(HMC)[51] 方法,对给定视图下神经辐射场的参数进行后验推理。它能从单个或多个视图中准确推断物体的三维几何形状和外观,同时量化相关的不确定性。Recursive - NeRF [52] 从细节层次(LOD)中获得灵感。每个网络层预测查询点的不确定性:对于不确定性低的点,结果直接输出,无需传递到更深层;对于不确定性高的点,将其传递到下一个更强的层进行进一步处理。这种策略在确保视图合成质量的同时,显著提高了渲染效率。与上述方法不同,我们引入了额外的扰动场,以避免重新训练模型或修改训练过程,从而显著降低计算成本。

3 科学背景

3.1 SeaThru

基于大气模型的传统水下图像生成模型会产生显著误差。为了解决水下图像颜色恢复的问题,SeaThru [23] 采用了经过修正的光学模型,该模型考虑了光在水中传播时的衰减和散射特性,从而生成更接近真实颜色的图像。

水下图像生成模型描述如下:

\[I_{\mathbf{c}} = D_{\mathbf{c}} + B_{\mathbf{c}}\tag{1}\]

其中 \(\mathbf{c} \in \{RGB\}\) 是颜色通道,\(I_{\mathbf{c}}\) 是相机拍摄的图像,\(D_{\mathbf{c}}\) 是直接信号,\(B_{\mathbf{c}}\) 是后向散射。

传统方法假设整个场景中光的衰减系数是均匀的,这是一种粗略的近似。实际上,直接信号和后向散射由不同的衰减系数控制,这些系数还取决于物体距离和反射率等因素。因此,SeaThru 将公式(1)扩展如下:

\[I_{\mathbf{c}} = \overbrace{J_{\mathbf{c}} \cdot \underbrace{(e^{-\beta^{D}(\mathbf{v}_D)\cdot z})}_{\text{attenuation}}}^{\text{direct}} + \overbrace{B_{\mathbf{c}}^{\infty} \cdot \underbrace{(1 - e^{-\beta^{B}(\mathbf{v}_B)\cdot z})}_{\text{attenuation}}}^{\text{backscatter}}\tag{2}\]

其中 \(J_{\mathbf{c}}\) 是理想情况下应该拍摄到的清晰场景,\(B_{\mathbf{c}}^{\infty}\) 表示杂散光,\(z\) 是物体到相机的距离,\(\beta^{D}\) 和 \(\beta^{B}\) 分别是衰减系数和后向散射系数。向量 \(\mathbf{v}_D\) 和 \(\mathbf{v}_B\) 表示 \(\beta^{D}\) 和 \(\beta^{B}\) 对距离、反射率等因素的依赖关系。

SeaThru 通过分析多视图图像来估计每个像素的距离,从而推断散射和衰减的影响。然后,它通过应用这些估计值来校正图像中的颜色失真。

3.2 神经辐射场(NeRFs)

神经辐射场是一种新颖的三维重建技术,它可以从二维图像集合和相机姿态中重建高质量的三维场景。通过将场景表示为一个密集的体辐射场函数,并利用体渲染技术,它实现了高分辨率的渲染和图像合成。

fig.2

图2:神经辐射场(NeRFs)架构[5]。神经辐射场利用多层感知器(MLP)网络,将场景中的每个三维空间坐标\(\mathbf{x} = (x, y, z)\)和观察方向\(\mathbf{d} = (\theta, \varphi)\)作为输入,并输出相应的颜色\(\mathbf{c} = (r, g, b)\)和密度\(\sigma\)。

具体来说,如图2所示,神经辐射场利用多层感知器(MLP)来学习一个映射函数\(F\),该函数将任意给定的三维空间点\(\mathbf{x} = (x, y, z)\)和观察方向\(\mathbf{d} = (\theta, \phi)\)映射为一个颜色值\(\mathbf{c} = (r, g, b)\)和一个密度值\(\sigma\):

\[F_{\varphi}(\mathbf{x}, \mathbf{d}) = (\mathbf{c}, \sigma)\tag{3}\]

其中\(\varphi\)是多层感知器的可学习参数。

为了将由颜色\(\mathbf{c}\)和密度\(\sigma\)表示的连续五维场景结构渲染成二维图像,神经辐射场使用体渲染方程,沿着相机光线\(\mathbf{r}(t) = \mathbf{o} + t\mathbf{d}\)对颜色和密度值进行积分,其中\(\mathbf{o}\)是相机中心,\(t \in \mathbb{R}_{+}\)。

沿光线\(\mathbf{r}\)得到的预期颜色由下式给出:

\[C(\mathbf{r}) = \int_{t_{n}}^{t_{f}} T(t)\sigma(t)\mathbf{c}(t)dt\tag{4}\]

这里,积分的下限是\(t_{n}\),上限是\(t_{f}\) ,它们之间的累积透射率\(T(t)\)定义为:

\[T(t) = \exp\left(-\int_{t_{n}}^{t} \sigma(s)ds\right)\tag{5}\]

在实际应用中,神经辐射场利用求积法则[53]将积分区间\([t_{n}, t_{f}]\)离散化为\(N\)个子区间\(\{[t_{i}, t_{i + 1}]\}_{i = 1}^{N}\)(其中\(t_{n} = t_{1} < \cdots < t_{N} = t_{f}\)),并假设在每个子区间内密度\(\sigma\)和颜色\(\mathbf{c}\)是恒定的。因此:

\[\hat{C}(\mathbf{r}) = \sum_{i = 1}^{N} \int_{t_{i}}^{t_{i + 1}} T(t)\sigma_{i}\mathbf{c}_{i}dt = \sum_{i = 1}^{N} T(t_{i})(1 - \exp(-\sigma_{i}\delta_{i}))\mathbf{c}_{i}\tag{6}\]

并且

\[T(t_{i}) = \exp\left(-\sum_{j = 0}^{i - 1} \sigma_{j}\delta_{j}\right)\tag{7}\]

其中\(\delta_{i} = t_{i + 1} - t_{i}\)是相邻采样点之间的距离。

神经辐射场在训练过程中通过优化预期颜色\(\hat{C}(\mathbf{r})\)与真实颜色\(C^{\text{gt}}(\mathbf{r})\)之间的均方距离,来调整多层感知器的参数。

3.3 SeaThru - NeRF

fig.3

图3:SeaThru - NeRF应用场景[5]。

受SeaThru [23]的启发,SeaThru - NeRF不仅考虑了传统神经辐射场(NeRFs)中的不透明物体,还将介质视为半透明实体,为介质和物体分别引入了独立的颜色和密度参数。该方法通过映射函数\(F\)扩展了神经辐射场处理水下等散射介质的能力(图3)。

具体来说,它用物体密度\(\sigma^{\text{obj}}(t)\)和介质密度\(\sigma^{\text{med}}(t)\)之和,取代了传统的单个不透明物体密度\(\sigma(t)\)。

\[C(\mathbf{r}) = \int_{t_{n}}^{t_{f}} T(t)\left(\sigma^{\text{obj}}(t)\mathbf{c}^{\text{obj}}(t) + \sigma^{\text{med}}(t)\mathbf{c}^{\text{med}}(t)\right)dt\tag{8}\] \[T(t) = \exp\left(-\int_{t_{n}}^{t} \left(\sigma^{\text{obj}}(s) + \sigma^{\text{med}}(s)\right)ds\right)\tag{9}\]

其中\(\mathbf{c}^{\text{obj}}(t)\)和\(\mathbf{c}^{\text{med}}(t)\)分别是\(t\)时刻物体和介质的颜色。当\(\sigma^{\text{med}} = 0\)时,就简化为传统神经辐射场的情况。

采用与神经辐射场相同的离散化策略:

\[\hat{C}(\mathbf{r}) = \sum_{i = 1}^{N} T(t_{i})\left(1 - \exp\left(-\left(\sigma_{i}^{\text{obj}} + \sigma_{i}^{\text{obj}}\right)\delta_{i}\right)\right)\frac{\sigma_{i}^{\text{obj}}\mathbf{c}_{i}^{\text{obj}} + \sigma_{i}^{\text{med}}\mathbf{c}_{i}^{\text{med}}}{\sigma_{i}^{\text{obj}} + \sigma_{i}^{\text{med}}}\tag{10}\] \[T(t_{i}) = \exp\left(-\sum_{j = 0}^{i - 1} \left(\sigma_{j}^{\text{obj}} + \sigma_{j}^{\text{med}}\right)\delta_{j}\right)\tag{11}\]

根据渲染方程公式(10),颜色贡献可以分为物体和介质两部分,反映了它们对最终颜色的不同贡献。

\[\hat{C}(\mathbf{r}) = \sum_{i = 1}^{N} \hat{C}_{i}^{\text{obj}}(\mathbf{r}) + \sum_{i = 1}^{N} \hat{C}_{i}^{\text{med}}(\mathbf{r})\tag{12}\]

其中

\[\hat{C}_{i}^{\text{obj}}(\mathbf{r}) = T(t_{i})\left(1 - \exp\left(-\left(\sigma_{i}^{\text{obj}} + \sigma_{i}^{\text{med}}\right)\delta_{i}\right)\right)\frac{\sigma_{i}^{\text{obj}}\mathbf{c}_{i}^{\text{obj}}}{\sigma_{i}^{\text{obj}} + \sigma_{i}^{\text{med}}}\tag{13}\]

并且

\[\hat{C}_{i}^{\text{med}}(\mathbf{r}) = T(t_{i})\left(1 - \exp\left(-\left(\sigma_{i}^{\text{obj}} + \sigma_{i}^{\text{med}}\right)\delta_{i}\right)\right)\frac{\sigma_{i}^{\text{med}}\mathbf{c}_{i}^{\text{med}}}{\sigma_{i}^{\text{obj}} + \sigma_{i}^{\text{med}}}\tag{14}\]

为了简化模型,SeaThru - NeRF假设沿光线\(\mathbf{r}\)的介质颜色和密度是恒定的。此外,由于在物体前方\(\sigma^{\text{med}} \gg \sigma^{\text{obj}}\) ,而在物体处\(\sigma^{\text{med}} \ll \sigma^{\text{obj}}\) [5],因此

\[\hat{C}_{i}^{\text{obj}}(\mathbf{r}) = T_{i} \cdot \left(1 - \exp\left(-\sigma_{i}^{\text{obj}}\delta_{i}\right)\right) \cdot \mathbf{c}_{i}^{\text{obj}}\tag{15}\] \[\hat{C}_{i}^{\text{med}}(\mathbf{r}) = T_{i} \cdot \left(1 - \exp\left(-\sigma^{\text{med}}\delta_{i}\right)\right) \cdot \mathbf{c}^{\text{med}}\tag{16}\] \[T_{i} = \exp\left(-\sum_{j = 0}^{i - 1} \sigma_{j}^{\text{obj}}\delta_{j}\right) \cdot \exp\left(-\sigma^{\text{med}}t_{i}\right)\tag{17}\]

在上述讨论中,物体部分和后向散射部分使用了相同的衰减系数。根据SeaThru的理论,对于物体部分\(\hat{C}^{\text{obj}}(\mathbf{r})\) 和后向散射部分\(\hat{C}^{\text{med}}(\mathbf{r})\) ,有效的\(\sigma^{\text{med}}\) 是不同的。因此,在最终模型中,每个部分使用不同的参数——物体部分\(\hat{C}^{\text{obj}}(\mathbf{r})\) 使用\(\sigma^{\text{attn}}\) ,后向散射部分\(\hat{C}^{\text{med}}(\mathbf{r})\) 使用\(\sigma^{\text{bs}}\) 。

\[\hat{C}_{i}^{\text{obj}}(\mathbf{r}) = T_{i}^{\text{obj}} \cdot \exp\left(-\sigma^{\text{attn}}t_{i}\right) \cdot \left(1 - \exp\left(-\sigma_{i}^{\text{obj}}\delta_{i}\right)\right) \cdot \mathbf{c}_{i}^{\text{obj}}\tag{18}\] \[\hat{C}_{i}^{\text{med}}(\mathbf{r}) = T_{i}^{\text{obj}} \cdot \exp\left(-\sigma^{\text{bs}}t_{i}\right) \cdot \left(1 - \exp\left(-\sigma^{\text{bs}}\delta_{i}\right)\right) \cdot \mathbf{c}^{\text{med}}\tag{19}\] \[T_{i}^{\text{obj}} = \exp\left(-\sum_{j = 0}^{i - 1} \sigma_{j}^{\text{obj}}\delta_{j}\right)\tag{20}\]

与神经辐射场(NeRFs)一样,SeaThru - NeRF通过最小化预期颜色和真实颜色之间的均方距离,来优化从训练集图像\(\mathcal{I} = \{\mathbf{I}\}_{n = 0}^{N}\)中的图像\(\mathbf{I}_{n}\)采样得到的每条光线\(\mathbf{r}\)的网络参数。从贝叶斯的角度来看,这相当于假设高斯似然\(p(C_{\varphi}\vert \varphi) \sim \mathcal{N}(C_{n}^{\text{gt}}, \frac{1}{2})\) ,并推断后验分布众数\(\varphi^{*}\)

\[\varphi^{*} = \underset{\varphi}{\arg\max} p(\varphi\vert \mathcal{I})\tag{21}\]

根据贝叶斯法则,这与最小化负对数似然是等价的

\[\varphi^{*} = \underset{\varphi}{\arg\min} \mathbb{E}_{i}\mathbb{E}_{\mathbf{r} \sim \mathbf{I}_{n}} \|\hat{C}_{\varphi}(\mathbf{r}) - C_{n}^{\text{gt}}(\mathbf{r})\|_{2}^{2}\tag{22}\]

4 不确定性估计

4.1 神经拉普拉斯近似

拉普拉斯近似通过预训练模型得到最优的网络权重\(\omega^{*}\),然后将网络参数的后验分布近似为以\(\omega^{*}\)为中心的多元高斯分布,即

\[p(\omega\vert \mathcal{I}) \sim \mathcal{N}(\omega^{*}, \Sigma)\tag{23}\]

其中\(\Sigma\)是协方差矩阵。

根据拉普拉斯近似,我们考虑目标函数\(h(\omega) = -\log p(\omega\vert \mathcal{I})\)在\(\omega^{*}\)处的二阶泰勒展开:

\[h(\omega) \approx h(\omega^{*}) + \frac{1}{2}(\omega - \omega^{*})^{T}\mathbf{H}(\omega^{*})(\omega - \omega^{*})\tag{24}\]

其中\(H(\omega^{*})\)是\(h(\omega)\)在\(\omega^{*}\)处的海森矩阵,并且由于\(\omega^{*}\)是\(h(\omega)\)的极值点,一阶导数项为零。

通过将公式(24)与多元高斯分布通常的对数平方指数高斯似然进行比较,我们可以推导出协方差矩阵\(\Sigma\)的表达式:

\[\Sigma = -\mathbf{H}(\omega^{*})^{-1}\tag{25}\]

然而,直接将\(\omega\)与\(\varphi\)等同是不可行的。模型参数之间的高度相关性,使得准确估计参数分布的协方差矩阵\(\Sigma\)具有挑战性。此外,即使有准确的\(\Sigma\),将其转换为具有几何意义的分布也需要一个代价高昂的采样过程,从而导致显著的计算开销。

为了解决这些问题,我们在4.2节中引入一种基于扰动场的重新参数化方法,这相当于在多层感知器(MLP)之前添加一个可微的空间变形模块。这种重新参数化方法使参数更适合拉普拉斯近似。

4.2 扰动建模

fig.4

图4:Goli等人[14]考虑一个二维平面,该平面有一条蓝色实线线段和一条绿色中心线线段。假设两个相机在60度的圆锥范围内捕捉场景,可以观察到绿色线段可以被许多可能的曲线替代,基于捕捉到的像素,这些曲线都能实现“完美的”光度重建。

如图4所示,存在一个空间(绿色区域),在该区域内,图4a中的绿色线段可以被扰动成任意形状,而不影响重建损失(图4b)。在模型训练过程中,不同的随机种子可能会导致在这个空间内收敛到各种不同的配置。因此,对于一个预训练的重建模型,由于训练数据有限,场景的某些区域存在可扰动空间,且这些扰动不会影响重建损失。允许的扰动程度表明了模型在该区域的不确定性水平。通过在整个三维场景中系统地施加扰动,并测量每个空间位置的最大耐受扰动,就可以得到模型在整个空间中的不确定性分布(图4c)。

fig.5

图5:扰动。

受上述内容的启发,我们引入一个参数化的扰动场\(\mathcal{D}:\mathbb{R}^{D} \to \mathbb{R}^{D}\),可以将其理解为在将坐标输入到多层感知器(MLP)之前对其进行的扰动变换(图5)。扰动场\(\mathcal{D}\)的参数表示为\(\boldsymbol{\omega} \in \mathbb{R}^{M^{D} \times D}\),其中\(M\)表示用于存储位移向量的网格大小,\(D\)表示向量维度。对于任何空间坐标\(\mathbf{x}\),其扰动通过对相邻网格点的位移向量进行三线性插值来计算:

\[\mathcal{D}_{\boldsymbol{\omega}}(\mathbf{x}) = \text{Trilinear}(\mathbf{x}, \boldsymbol{\omega})\tag{26}\]

接下来,我们通过对每个坐标进行扰动,对优化后的多层感知器神经网络进行重新参数化:

\[\tilde{\sigma}_{\boldsymbol{\omega}}^{\text{obj}}(\mathbf{x}) = \sigma_{\varphi^{*}}^{\text{obj}}(\mathbf{x} + \mathcal{D}_{\boldsymbol{\omega}}(\mathbf{x}))\tag{27}\] \[\tilde{\mathbf{c}}_{\boldsymbol{\omega}}^{\text{obj}}(\mathbf{x}) = \mathbf{c}_{\varphi^{*}}^{\text{obj}}(\mathbf{x} + \mathcal{D}_{\boldsymbol{\omega}}(\mathbf{x}), \mathbf{d})\tag{28}\]

其中\(\sigma_{\varphi^{*}}^{\text{obj}}\)和\(\mathbf{c}_{\varphi^{*}}^{\text{obj}}\)分别是优化后的物体密度和辐射。如3.3节所述,与介质相关的密度和颜色在每个空间坐标处是常数,因此它们不受扰动的影响。

基于重新参数化后的\(\tilde{\sigma}_{\boldsymbol{\omega}}^{\text{obj}}\)和\(\tilde{\mathbf{c}}_{\boldsymbol{\omega}}^{\text{obj}}\),扰动后的预测像素颜色可通过以下公式得出:

\[\tilde{C}_{\boldsymbol{\omega}}(\mathbf{r}) = \sum_{i = 1}^{N} \tilde{C}_{i}^{\text{obj}}(\mathbf{r}) + \sum_{i = 1}^{N} \tilde{C}_{i}^{\text{med}}(\mathbf{r})\tag{29}\]

其中

\[\tilde{C}_{i}^{\text{obj}}(\mathbf{r}) = \tilde{T}_{i}^{\text{obj}} \cdot \exp\left(-\sigma^{\text{attn}}t_{i}\right) \cdot \left(1 - \exp\left(-\tilde{\sigma}_{i}^{\text{obj}}\delta_{i}\right)\right) \cdot \tilde{\mathbf{c}}_{i}^{\text{obj}}\tag{30}\] \[\tilde{C}_{i}^{\text{med}}(\mathbf{r}) = \tilde{T}_{i}^{\text{obj}} \cdot \exp\left(-\sigma^{\text{bs}}t_{i}\right) \cdot \left(1 - \exp\left(-\sigma^{\text{bs}}\delta_{i}\right)\right) \cdot \mathbf{c}^{\text{med}}\tag{31}\]

并且物体的累积透射率可通过以下公式得出:

\[\tilde{T}_{i}^{\text{obj}} = \exp\left(-\sum_{j = 0}^{i - 1} \tilde{\sigma}_{j}^{\text{obj}}\delta_{j}\right)\tag{32}\]

由于在重新参数化后,我们仍然希望预测颜色\(\tilde{C}_{\boldsymbol{\omega}}(\mathbf{r})\)尽可能接近\(C_{n}^{\text{gt}}\),因此我们假设似然函数的形式与原始模型相同,即\(\tilde{C}_{\boldsymbol{\omega}}\vert \boldsymbol{\omega} \sim \mathcal{N}(C_{n}^{\text{gt}}, \frac{1}{2})\)。此外,由于\(\varphi^{*}\)是在多层感知器(MLP)网络训练期间获得的最优参数,此时模型已达到最优性能,所以当对新参数施加扰动时,我们期望这些扰动既不会显著提高也不会降低模型的性能。因此,我们对新参数\(\boldsymbol{\omega}\)施加一个高斯先验\(\boldsymbol{\omega} \sim \mathcal{N}(0, \lambda^{-1})\) 。

在这些假设下,后验分布\(p(\boldsymbol{\omega}\vert \mathcal{I})\)的负对数似然函数如下:

\[h(\boldsymbol{\omega}) = \mathbb{E}_{n}\mathbb{E}_{\mathbf{r} \sim \mathbf{I}_{n}} \|\tilde{C}_{\boldsymbol{\omega}}(\mathbf{r}) - C_{n}^{\text{gt}}(\mathbf{r})\|_{2}^{2} + \lambda\|\boldsymbol{\omega}\|^{2}\tag{33}\]

这里,\(\mathbb{E}_{n}\mathbb{E}_{\mathbf{r} \sim \mathbf{I}_{n}} \|\tilde{C}_{\boldsymbol{\omega}}(\mathbf{r}) - C_{n}^{\text{gt}}(\mathbf{r})\|_{2}^{2}\)表示像素颜色的重建误差,\(\lambda\|\boldsymbol{\omega}\|^{2}\)是正则化项。

当\(\boldsymbol{\omega} = 0\)时,有\(\tilde{\sigma}_{0}^{\text{obj}}(\mathbf{x}) = \sigma_{\varphi^{*}}^{\text{obj}}(\mathbf{x})\)且\(\tilde{\mathbf{c}}_{0}^{\text{obj}}(\mathbf{x}) = \mathbf{c}_{\varphi^{*}}^{\text{obj}}(\mathbf{x}, \mathbf{d})\),因此\(\tilde{C}_{0}(\mathbf{r}) = C_{\varphi^{*}}(\mathbf{r})\)。所以,\(\boldsymbol{\omega} = 0\)使重建误差最小化,并且是后验分布\(p(\boldsymbol{\omega}\vert \mathcal{I})\)的众数。

根据拉普拉斯近似,我们在众数附近进行二阶泰勒展开,可得

\[\Sigma = -\mathbf{H}(0)^{-1}\tag{34}\]

其中\(\mathbf{H}(0)\)是\(h(\boldsymbol{\omega})\)在\(0\)处的海森矩阵。

4.3 近似海森矩阵 H

由于直接计算海森矩阵中的二阶导数计算成本很高,我们使用费希尔信息(Fisher information)来近似它。

对于任何参数化的概率分布族 \(p_{\boldsymbol{\omega}}\),其对数似然函数关于参数 \(\boldsymbol{\omega}\) 的海森矩阵与费希尔信息的关系如下:

\[\mathcal{I}(\boldsymbol{\omega}) = -\mathbb{E}_{\mathbf{X} \sim p_{\boldsymbol{\omega}}}\left[\frac{\partial^{2} h(\mathbf{X}; \boldsymbol{\omega})}{\partial \boldsymbol{\omega}^{2}}\bigg\vert \boldsymbol{\omega}\right] = -\mathbf{H}(\boldsymbol{\omega})\tag{35}\]

其中 \(h(\mathbf{X}; \boldsymbol{\omega})\) 被定义为对数似然函数。

此外,在合理的正则条件下,费希尔信息也可以定义为:

\[\mathcal{I}(\boldsymbol{\omega}) = \mathbb{E}_{\mathbf{X} \sim p_{\boldsymbol{\omega}}}\left[\frac{\partial h(\mathbf{X}; \boldsymbol{\omega})^{\top}}{\partial \boldsymbol{\omega}}\frac{\partial h(\mathbf{X}; \boldsymbol{\omega})}{\partial \boldsymbol{\omega}}\bigg\vert \boldsymbol{\omega}\right]\tag{36}\]

我们使用随机变量 \((\mathbf{r}, \mathbf{y})\) 来对应相机光线 \(\mathbf{r}\) 及其相应的真实值 \(\mathbf{y} = C_{n}^{\text{gt}}(\mathbf{r})\)。因此,

\[\mathcal{I}(\boldsymbol{\omega}) = \mathbb{E}_{(\mathbf{r}, \mathbf{y})}\left[4\epsilon_{\boldsymbol{\omega}}(\mathbf{r})\mathbf{J}_{\boldsymbol{\omega}}(\mathbf{r})^{\top}\mathbf{J}_{\boldsymbol{\omega}}(\mathbf{r})\right] + 2\lambda\mathbf{I}\tag{37}\]

其中 \(\epsilon_{\boldsymbol{\omega}}(\mathbf{r}) = \|\tilde{C}_{\boldsymbol{\omega}}(\mathbf{r}) - C_{n}^{\text{gt}}(\mathbf{r})\|^{2}\)。并且

\[\mathbf{J}_{\boldsymbol{\omega}}(\mathbf{r}) = \frac{\partial \tilde{C}_{\boldsymbol{\omega}}(\mathbf{r})}{\partial \boldsymbol{\omega}}\tag{38}\]

表示预测颜色关于参数 \(\boldsymbol{\omega}\) 的雅可比矩阵,可以通过反向传播计算得到。

此外,基于条件期望的性质:

\[\mathcal{I}(\boldsymbol{\omega}) = \mathbb{E}_{\mathbf{r}}\left[4\mathbb{E}_{\mathbf{y}\vert \mathbf{r}}[\epsilon_{\boldsymbol{\omega}}(\mathbf{r})]\mathbf{J}_{\boldsymbol{\omega}}(\mathbf{r})^{\top}\mathbf{J}_{\boldsymbol{\omega}}(\mathbf{r})\right] + 2\lambda\mathbf{I}\tag{39}\]

根据似然分布\(\mathcal{N}(C_{n}^{\text{gt}}, \frac{1}{2})\),有\(\mathbb{E}_{\mathbf{y}\vert \mathbf{r}}[\epsilon_{\boldsymbol{\omega}}(\mathbf{r})] = \frac{1}{2}\),所以:

\[\mathcal{I}(\boldsymbol{\omega}) = \mathbb{E}_{\mathbf{r}}\left[2\mathbf{J}_{\boldsymbol{\omega}}(\mathbf{r})^{\top}\mathbf{J}_{\boldsymbol{\omega}}(\mathbf{r})\right] + 2\lambda\mathbf{I}\tag{40}\]

这里,我们通过采样\(R\)条光线来近似期望。

\[\mathbb{E}_{\mathbf{r}}\left[\mathbf{J}_{\boldsymbol{\omega}}(\mathbf{r})^{\top}\mathbf{J}_{\boldsymbol{\omega}}(\mathbf{r})\right] \approx \frac{1}{R} \sum_{\mathbf{r}} \mathbf{J}_{\boldsymbol{\omega}}(\mathbf{r})^{\top}\mathbf{J}_{\boldsymbol{\omega}}(\mathbf{r})\tag{41}\]

由此可得:

\[\mathcal{I}(\boldsymbol{\omega}) \approx \frac{2}{R} \sum_{\mathbf{r}} \mathbf{J}_{\boldsymbol{\omega}}(\mathbf{r})^{\top}\mathbf{J}_{\boldsymbol{\omega}}(\mathbf{r}) + 2\lambda\mathbf{I}\tag{42}\]

根据公式(35),最终可得:

\[\mathbf{H}(\boldsymbol{\omega}) \approx -\frac{2}{R} \sum_{\mathbf{r}} \mathbf{J}_{\boldsymbol{\omega}}(\mathbf{r})^{\top}\mathbf{J}_{\boldsymbol{\omega}}(\mathbf{r}) - 2\lambda\mathbf{I}\tag{43}\]

4.4 空间不确定性

由于参数向量\(\boldsymbol{\omega}\)的每个元素都对应于网格中的一个顶点,其影响仅限于包含该顶点的单元格,这使得\(\mathbf{H}(\boldsymbol{\omega})\)本质上是稀疏的,从而减少了相关参数的数量。与Ritter等人[54]的方法类似,我们仅通过考虑\(\mathbf{H}\)的对角元素来近似\(\Sigma\)。

\[\Sigma \approx \text{diag}\left(\frac{2}{R} \sum_{\mathbf{r}} \mathbf{J}_{\boldsymbol{\omega}}(\mathbf{r})^{\top}\mathbf{J}_{\boldsymbol{\omega}}(\mathbf{r}) + 2\lambda\mathbf{I}\right)^{-1}\tag{44}\]

其中\(\Sigma\)编码了辐射场的空间不确定性。直观地说,它表示在不影响重建质量的前提下,神经辐射场(NeRF)的几何形状可以改变的程度。

通过计算\(\Sigma\)的对角元素,我们得到边缘方差向量\(\boldsymbol{\sigma} = (\sigma_{x}, \sigma_{y}, \sigma_{z})\)。在每个网格顶点处,\(\boldsymbol{\sigma}\)定义了一个空间椭球体,该椭球体表示在重建代价最小的情况下可以发生变形的区域。向量\(\boldsymbol{\sigma}\)的范数\(\|\boldsymbol{\sigma}\|_{2}\)是一个正标量,用于衡量每个网格顶点处辐射场的局部空间不确定性。

fig.6

图6:空间不确定性。

通过这种方法,我们可以定义空间不确定性场\(\mathcal{U} : \mathbb{R}^{3} \to \mathbb{R}^{+}\),表示为(图6):

\[\mathcal{U}(\mathbf{x}) = \text{Trilinear}(\mathbf{x}, \boldsymbol{\sigma})\tag{45}\]

严格来说,如上述描述,\(\mathcal{U}\)衡量的是\((1 + \mathcal{D}_{\boldsymbol{\omega}})^{-1}(\mathbf{x})\)处的不确定性,而不是\(\mathbf{x}\)处的不确定性;然而,对于训练后的SeaThru - NeRF模型,当\(\mathcal{D}_{\boldsymbol{\omega}^{*}} = 0\)时,这些点实际上是相同的。

5 数值实验

5.1 实验设置

5.1.1 数据集

真实数据集由在三种不同海洋环境中拍摄的四组图像(库拉索岛、IUI3、巴拿马和日本石鳖)组成。在训练之前,对线性图像进行白平衡处理,并将每个通道中的极端像素值裁剪掉0.5%以减少噪声。平均图像分辨率降低到900x1400,相机姿态使用COLMAP [55] 进行估计。合成数据(uwSimulation)基于LLFF数据集 [56] 中的蕨类植物场景,并添加了水下模拟效果。

5.1.2 实现过程

在我们的实验中,设置\(M = 256\),\(\lambda = 10^{-4}/M^{3}\),迭代次数为1000次。对于真实数据集和合成数据集,除巴拿马组包含一张评估图像外,其他所有组都包含两张评估图像。我们将\(\Sigma\)的对角元素渲染为新的体数据\(\mathcal{U}(\mathbf{x})\),其中\(\mathcal{U}(\mathbf{x})\)值较大的区域表示不确定性较高。

此外,除了SeaThru - NeRF模型,我们还使用了一个比SeaThru - NeRF更小的神经网络模型架构(SeaThru - NeRF - lite)进行实验。SeaThru - NeRF和SeaThru - NeRF - lite主要在模型大小和训练时间上有所不同。SeaThru - NeRF是一个较大的模型,大约使用23GB的VRAM,并能提供最佳的图像质量。相比之下,SeaThru - NeRF - lite是一个较小的模型,仅需要约7GB的VRAM。虽然图像质量略低,但它仍然能产生出色且清晰的结果。

5.1.3 评估指标

我们使用稀疏化误差下的面积(AUSE)[57, 58] 来评估不确定性估计的性能。AUSE值越低表明模型的不确定性估计是经过良好校准的,即较高的不确定性预测对应着较高的实际误差。我们对与三种误差类型(均方误差(MSE)、平均绝对误差(MAE)、均方根误差(RMSE))相关的AUSE值进行了实验。

此外,我们还使用三个指标来评估图像质量。结构相似性指数(SSIM)[59] 量化了两张图像之间的结构相似性,对图像中的局部结构变化很敏感,范围从-1到1。值越高表示图像质量越好。峰值信噪比(PSNR)[60] 通过计算原始图像和渲染图像之间的均方误差,并将其转换为对数尺度来评估图像质量。值越高表示图像质量越好。学习感知图像块相似性(LPIPS)[61] 衡量两张图像之间的感知差异,优先考虑感知相似性。LPIPS值越低表示相似性越高。

5.2 结果

fig.7

图7:使用真实数据集和合成数据集评估SeaThru - NeRF和SeaThru - NeRF - lite的绝对误差和不确定性量化。

table.1

表1:我们对SeaThru - NeRF和SeaThru - NeRF - lite进行不确定性量化研究的结果。

图7展示了在SeaThru - NeRF和SeaThru - NeRF - lite上五个数据集的不确定性量化结果。不确定性估计通过颜色直观呈现,颜色强度代表不确定性水平:颜色越蓝表示不确定性越高,颜色越红表示不确定性越低。此外,如表1所示,我们的不确定性量化结果在AUSE指标上表现出色。同时,从表1中可以看出,与原始模型(基础模型)相比,该模型的PSNR、SSIM和LPIPS指标差异可忽略不计。这与我们在4.2节中强调的在不显著影响重建损失的情况下进行不确定性量化相一致。这表明我们可以在保持原始重建性能的同时提供额外的置信度信息,为实际应用提供了重要的技术支持和保障。例如,在自主水下航行器(AUV)导航中,高质量的环境重建对于路径规划和障碍物检测至关重要。额外的不确定性信息可以帮助在面对不确定或危险情况时做出更谨慎的决策。

5.3 消融研究

5.3.1 参数M的影响

fig.8

图8:关于SeaThru - NeRF在参数\(M\)不同选择下的不确定性。

fig.9

图9:关于SeaThru - NeRF - lite在参数\(M\)不同选择下的不确定性。

table.2

表2:参数\(M\)的消融研究。

在图8、图9和表2中,我们展示了不同参数\(M\)(即网格大小)下的不确定性估计结果。\(M\)决定了空间分割的粒度,从而影响模型捕捉场景细节的能力以及不确定性估计的准确性。分析不同网格大小下的不确定性估计,有助于更深入地理解参数\(M\)的影响。

table.2

表2:参数\(M\)的消融研究。

通过表2可以看出,使用极低的网格大小(例如,\(M = 16\))会导致不确定性估计不足。低网格大小意味着空间分割更粗糙,导致图像中的细节信息丢失。这种信息丢失使得模型无法充分捕捉场景的复杂特征,尤其是在存在高频变化和复杂几何结构的区域。在这种情况下,模型可能会表现出过度自信,从而低估实际的不确定性。因此,尽管低网格大小下的计算成本较低,但不确定性估计也不太准确,无法提供可靠的置信度信息。

随着网格大小的增加,不确定性估计的有效性逐渐提高。当网格大小达到一定水平(例如,\(M = 256\))时,不确定性估计结果达到最佳性能。更高的网格大小意味着更精细的空间分割,这有助于捕捉更多的图像细节和场景特征。在这种情况下,模型可以更准确地识别和量化不确定性,特别是在复杂多变的区域。因此,更高网格大小下的不确定性估计更可靠,能更好地反映模型预测中的不确定性。

具体来说,通过实验发现,在中等网格大小(例如,\(M = 256\))时,不确定性估计可以达到最佳平衡点。在这个网格大小下,模型能够充分利用空间分割的准确性,准确捕捉图像细节和场景特征,从而提供高质量的不确定性估计。同时,计算资源和时间成本也在可接受的范围内,在性能和效率之间实现了最佳平衡。换句话说,适中的\(M\)值(例如,\(M = 256\))可以在保证计算效率的同时,提供高质量的不确定性估计。

然而,当网格大小继续增加(例如,\(M = 512\))时,不确定性估计的优势开始减弱。这种现象可以归因于几个因素。首先,显著更高的网格大小会使计算资源和时间大幅增加。尽管增加的空间分割精度可以捕捉更多的细节信息,但这些额外的细节并不能显著提高不确定性估计的准确性。也就是说,超过一定的网格大小后,增加的计算复杂性和时间成本并不能带来相应的性能提升,还可能导致资源浪费。此外,过高的网格大小可能会引入额外的噪声和不确定性。尽管空间分割更精细,但这些额外的部分可能会在复杂场景中引入更多噪声,进而影响模型的不确定性估计。

总之,参数\(M\)在我们的研究中起着至关重要的作用。合适的网格大小不仅可以提高不确定性估计的准确性,还能在计算资源和时间成本之间找到最佳平衡。这一观察结果为实际应用中的参数选择提供了重要参考。

5.3 消融研究

5.3.2 参数λ的影响

在不确定性量化任务中,正则化参数\(\lambda\)的选择往往是一个关键因素。为了验证\(\lambda\)参数选择的敏感性和稳健性,我们进行了消融实验,选取多个不同的\(\lambda\)值,并观察AUSE指标的变化。

fig.10

图10:关于\(\lambda\)选择的消融研究中的不确定性,其中\(\lambda = \lambda^{\prime}/256^{3}\)。奇数行对应SeaThru - NeRF,偶数行对应SeaThru - NeRF - lite。

fig.11

图11:关于\(\lambda\)选择的消融研究中的彩色不确定性,其中\(\lambda = \lambda^{\prime}/256^{3}\)。奇数行对应SeaThru - NeRF,偶数行对应SeaThru - NeRF - lite。

table.3

表3:参数\(\lambda\)的消融研究。

从图10和图11中,我们可以观察到不确定性的变化并不显著。同时,表3中的实验结果表明,尽管\(\lambda\)值跨越了几个数量级,但AUSE指标的变化范围非常有限。这表明我们的方法在广泛的\(\lambda\)值范围内都能保持良好的性能,AUSE指标的微小变化进一步证明了该方法的稳健性和稳定性。该方法在处理不同程度的正则化时表现稳定,确保模型在不同设置下仍能提供可靠的结果。

对\(\lambda\)值选择的不敏感性为实际应用提供了极大的便利。由于模型在相对广泛的\(\lambda\)值范围内都能保持良好性能,用户在实际操作中无需过度微调\(\lambda\)值。这一特性极大地简化了模型的使用,并降低了不同应用场景中的参数优化成本。同时,模型的稳健性得到增强,使其能够在各种复杂和动态的环境中可靠运行。对于需要快速部署和实时响应的实际应用场景,这一特性尤为重要,因为它降低了模型适应不同数据集和任务要求的难度,提高了该方法的通用性和可操作性,从而为广泛应用提供了坚实的技术基础。

5.3.3 迭代次数的影响

在实验中,迭代次数决定了优化过程的持续时间。更多的迭代次数通常意味着模型有更多机会更新参数,这可能会找到更好的解决方案。因此,较高的迭代次数可能会提高模型的准确性和稳定性。然而,过高的迭代次数也会显著增加训练时间,影响计算效率。为了深入分析迭代次数的影响,我们进行了不同迭代次数的实验。

fig.12

图12:SeaThru - NeRF中参数迭代次数的消融研究。

fig.13

图13:SeaThru - NeRF - lite中参数迭代次数的消融研究。

table.4

表4:参数迭代次数的消融研究。

从图12、图13和表4的实验结果中,我们观察到迭代次数对真实数据集和合成数据集的不确定性量化指标的影响存在一定规律。一般来说,增加迭代次数在一定程度上可以提高性能,但在某些条件下也会观察到性能波动。

在真实数据集中,随着迭代次数的增加,模型在各种指标上的性能逐渐提升,直至达到最佳性能,这表明模型能有效捕捉数据集的复杂性并进行充分训练。然而,在合成数据集中,模型在初始迭代时的表现往往优于后续迭代,这表明早期迭代能够充分捕捉数据集的特征,而过多的迭代可能会导致过拟合。

在合成数据集中,SeaThru - NeRF模型在迭代次数为100时,AUSE_MSE、AUSE_MAE和AUSE_RMSE指标最小,这表明该模型能够快速收敛,在较少的迭代次数下就能达到最佳性能。此外,SeaThru - NeRF - lite模型在迭代次数为100时,AUSE_MAE指标最小,表明该模型在初始迭代阶段的某些指标上表现良好。然而,随着迭代次数的增加,性能指标并未继续提高,甚至出现恶化。这种现象可能由几个因素造成。

首先,模型的快速初始收敛可能是因为在较少的迭代次数内,模型能够有效地调整参数,快速找到一个较好的局部最优解,从而获得出色的性能指标。对于合成数据集,初始的快速调整可能足以捕捉数据的主要特征并实现较好的性能。然而,随着迭代次数的增加,模型可能开始过拟合训练数据,导致性能指标不再提高甚至恶化。这在SeaThru - NeRF模型中尤为明显,表明在经过一定的迭代次数阈值后,模型会过拟合训练数据的细节,反而降低了对测试数据的泛化能力。

此外,合成数据集往往具有特定的模式和特征,模型在早期迭代中就能捕捉到这些内容。对于SeaThru - NeRF - lite模型,在2000次迭代时观察到最小的AUSE_MSE和AUSE_RMSE,这表明尽管其整体性能不如SeaThru - NeRF,但在长时间的训练中,它对数据集特征的适应性有所提高。这反映了训练过程中模型规模差异的影响,较大的SeaThru - NeRF模型因其复杂结构而能够快速收敛,而较小的SeaThru - NeRF - lite模型可能需要更多的迭代次数才能达到可比的结果。

总体而言,迭代次数对模型性能的影响呈现出一定的规律,通常较长的迭代次数会提高模型的性能和稳健性。然而,最佳迭代次数会因数据集和模型架构而异,这凸显了根据特定应用场景和数据特征选择合适迭代次数的重要性。合理选择迭代次数可以提高模型性能和稳定性,从而在实际应用中提供更可靠的结果。

5.4 讨论

5.4.1 模型架构的影响

fig.7

图7:使用真实数据集和合成数据集评估SeaThru - NeRF和SeaThru - NeRF - lite的绝对误差和不确定性量化。

table.1

表1:我们对SeaThru - NeRF和SeaThru - NeRF - lite进行不确定性量化研究的结果。

从图7 - 13和表1 - 4可以看出,在不确定性估计方面,SeaThru - NeRF - lite略逊于SeaThru - NeRF。这种差异是多种因素共同作用的结果。

首先,SeaThru - NeRF是一个更大的模型,具有更高的容量和更强的表示能力。因此,它能够捕捉更多的细节和复杂特征,从而生成更高质量的图像以及更准确的不确定性估计。相比之下,SeaThru - NeRF - lite模型规模较小,参数有限,其表示能力和细节捕捉能力较弱,导致不确定性估计结果略差。

其次,SeaThru - NeRF在训练过程中受益于更长的训练时间和更深的神经网络层,能够更好地拟合数据分布,降低模型的不确定性。而SeaThru - NeRF - lite在迭代次数和网络架构上进行了简化,这使得它在不确定性量化方面的性能相对较低。

第三,更大的模型容量使SeaThru - NeRF能够更好地拟合训练数据,在不同的参数设置下表现出更稳定和更优越的性能。具体来说,SeaThru - NeRF在面对各种\(M\)、\(\lambda\)和迭代次数设置时,能够有效地利用其更高的参数容量来优化模型,在AUSE_MSE、AUSE_MAE和AUSE_RMSE指标上表现出色。相比之下,SeaThru - NeRF - lite的参数容量较小,在处理复杂数据或需要高精度的任务时会遇到困难,导致在所有指标上的性能都较差。

此外,SeaThru - NeRF在合成数据集和真实数据集上都表现出优异的性能。这表明,更大的模型能够更好地对不同的数据分布进行泛化,有效地对低噪声合成数据和更多变的真实数据进行建模和预测。这种增强的泛化能力也使SeaThru - NeRF在各种实验条件下都能保持较低的误差指标。

值得注意的是,SeaThru - NeRF - lite被设计为轻量级模型,用于资源受限的环境。因此,尽管与SeaThru - NeRF相比性能较差,但在需要平衡计算资源和模型性能的场景中,它仍然具有独特的优势和应用价值。

总之,SeaThru - NeRF模型在各种实验条件下的优越性能可归因于其更大的模型容量、更强的特征表示能力和更好的泛化性能。在实际应用中,根据具体需求和可用资源选择合适的模型架构对于实现最佳性能至关重要。

5.4.2 数据集的影响

在合成数据集中,我们发现三个AUSE指标通常比真实数据集中的更高。这可以从数据复杂性、噪声和数据质量的角度进行详细分析。

一方面,合成数据集通常是根据特定规则和模型生成的。尽管它们具有一致性和可预测性,但在生成过程中简化的假设以及缺乏现实世界的复杂性,可能会导致模型在处理合成数据集时出现过拟合。这种过拟合现象会导致模型在合成数据集上的预测误差增加,从而提高不确定性估计的值。换句话说,合成数据集可能过于理想化,无法充分反映现实世界的复杂性和多样性,导致模型在这些数据上的泛化能力不足,因此在不确定性估计方面表现不佳。

另一方面,真实数据集通常包含更多的噪声和不可预测的因素,如光照变化、遮挡和测量误差。这些因素会导致模型在真实数据集上的误差更大,但也会促使模型在训练过程中学习更强的泛化能力,从而提高不确定性估计的准确性。尽管真实数据集中的数据复杂性和多样性更高,但模型通过更好的泛化能力,在这些复杂数据上可以表现出更低的AUSE值。相反,真实数据集中的各种不确定性和随机性,使模型在面对未知数据时更具适应性和稳健性。

简而言之,与真实数据集相比,合成数据集中更高的AUSE值表明模型在合成数据集上的性能不如在真实数据集上。这主要是由于合成数据集中简化的假设以及缺乏现实世界的复杂性,导致模型在合成数据集上过拟合,从而在预测误差和不确定性估计方面表现不佳。相比之下,真实数据集的多样性和复杂性迫使模型具备更好的泛化能力,使其能够更准确地估计不确定性,并在复杂的数据环境中降低预测误差。

5.4.3 误差的影响

table.1

表1:我们对SeaThru - NeRF和SeaThru - NeRF - lite进行不确定性量化研究的结果。

table.2

表2:参数\(M\)的消融研究。

table.3

表3:参数\(\lambda\)的消融研究。

table.4

表4:参数迭代次数的消融研究。

表1 - 4记录了我们主要实验的结果以及消融实验的结果。在这些实验中,我们计算了与三种误差类型(均方误差(MSE)、平均绝对误差(MAE)、均方根误差(RMSE))相关的AUSE值。实验结果表明,在相同条件下,AUSE_MAE值通常高于相应的AUSE_MSE和AUSE_RMSE值。

首先,了解AUSE_MSE、AUSE_MAE和AUSE_RMSE之间的计算方法和差异至关重要。AUSE_MSE和AUSE_RMSE分别使用MSE和RMSE来衡量模型不确定性的整体性能。由于MSE和RMSE对较大的误差,尤其是异常值更为敏感,即使是少数较大的误差也会显著提高这些指标的整体值。相比之下,AUSE_MAE基于MAE,对每个误差值一视同仁,对异常值没有过度的敏感性。

AUSE_MAE值通常高于AUSE_MSE和AUSE_RMSE,这可能是由于实际误差分布中存在一些较大的误差。这些较大的误差在AUSE_MSE和AUSE_RMSE的计算中被放大,导致整体值较低。然而,AUSE_MAE对这些较大的误差不太敏感,因此显示出相对较高的值。因此,AUSE_MAE在评估不确定性量化性能时提供了一种更平滑的测量方法,避免了对个别较大误差的过度强调。

其次,不同的数据集和模型在训练过程中可能会产生不同类型的误差分布。例如,在合成数据集中,模型可能更容易捕捉数据的整体特征,导致误差分布更集中,从而使AUSE_MAE值更高。对于真实数据集,误差分布可能更分散,有更多的异常值,导致AUSE_MSE和AUSE_RMSE被这些异常值抬高,使得AUSE_MAE相对较高。

最后,必须考虑实验参数设置的影响。\(M\)、\(\lambda\)和迭代次数的变化会影响模型训练和数据拟合的程度。这些变化直接影响误差的分布和大小,进而影响每个指标的值。在评估这些参数的影响时,全面考虑不同指标和数据分布的特征,对于充分理解模型的性能至关重要。

总之,AUSE_MAE值通常高于AUSE_MSE和AUSE_RMSE这一现象表明,模型在不同设置下对数据的拟合情况有所不同,反映了这些指标对误差的敏感性差异。在实际应用中,应根据具体的应用场景和数据特征选择合适的评估指标,以便更准确地衡量模型性能和不确定性。

5.5 应用:清理

fig.14

图14:通过逐渐降低不确定性阈值,可以逐步清理存在明显漂浮物的场景,最终得到无瑕疵的目标物体的清晰图像。

在这项工作中,我们利用贝叶斯拉普拉斯近似来计算扰动场参数\(\boldsymbol{\omega}\)的协方差矩阵\(\Sigma\)。\(\Sigma\)的对角元素表示每个维度的不确定性。我们将这些对角元素渲染为新的体数据\(\mathcal{U}(\mathbf{x})\),其中\(\mathcal{U}(\mathbf{x})\)值较大的区域表示不确定性较高。这些高不确定性区域通常对应于渲染结果中的瑕疵。通过对\(\mathcal{U}(\mathbf{x})\)应用一个阈值,我们可以识别并去除这些瑕疵,从而得到更清晰的重建结果(图14)。因此,该方法不仅能有效地量化每个维度的不确定性,还能对重建结果进行后处理。

6 结论

在本文中,我们基于贝叶斯理论引入了空间扰动场\(\mathcal{D}_{\boldsymbol{\omega}}\),用于量化由含散射介质的神经辐射场表示的水下三维重建的空间不确定性。这个空间扰动场\(\mathcal{D}\)对输入坐标进行微小扰动,并将扰动后的坐标输入到SeaThru - NeRF中,以重新计算物体分量的颜色和密度,从而得到扰动后的重建结果。每个空间位置的不确定性通过基于拉普拉斯近似方法,利用原始重建结果和扰动结果之间的差异来建模。此外,通过将估计的空间不确定性场渲染为额外的颜色通道,可以直观显示整个场景中哪些区域具有较高的不确定性。另外,利用不确定性场,我们可以通过简单的阈值处理,从水下场景的渲染结果中去除瑕疵。数值实验表明,我们的方法可以明确推断模型在合成场景和真实场景中的空间不确定性,并利用这种不确定性来提高重建质量。该方法将有益于海洋探索和导航中的下游任务,如水下侦察和安全监测、水下导航与定位以及水下基础设施检测。当前的工作存在一定局限性:我们假设光源仅来自自然环境光。然而,在深海区域,由于能见度低,需要考虑人工照明和多次散射的影响。在未来的工作中,我们将研究更多样化的场景以及介质参数估计方法。

CRediT作者贡献声明

H.L.:概念构思、方法设计、软件编程、初稿撰写、审阅与编辑、资金获取。X.L.:方法设计、调查研究、软件编程、初稿撰写、审阅与编辑、数据整理。Y.Q.:概念构思、数据整理、指导监督、验证、初稿撰写。J.D.:调查研究、正式分析、资源提供。Z.M.:正式分析、审阅与编辑、验证、可视化处理。J.L.:调查研究、验证、可视化处理。L.C.:概念构思、调查研究、项目管理、指导监督。

利益冲突声明

所有作者声明,他们与本文所讨论的主题或材料涉及的任何组织或实体,不存在财务或非财务方面的关联或参与。

数据可用性

支持本研究结果的数据可在合理请求下从作者处获取。

致谢

本研究由国家自然科学基金(编号:52274222)资助。

评论