论文重点与难点
1. 研究背景与问题
- 背景:神经隐式表面重建结合体积渲染在多视图重建中取得了显著进展,但对于透明物体,由于光线在透明物体中会发生折射和反射,导致传统方法(假设光线沿直线传播)无法准确重建透明物体的表面。
- 问题:如何在没有复杂相机设置和已知折射率的情况下,仅通过多视图RGB图像重建透明物体的几何形状和外观。
2. 方法的核心创新
- 透明神经表面细化(TNSR):提出了一种新的表面重建框架,显式地结合了物理折射和反射追踪。该方法从一个初始近似表面开始,利用球面追踪和斯涅尔定律(Snell’s Law)计算反射和折射光线的路径。
- 可微分技术:通过一种创新的可微分技术,将光度证据的信号反向传播到表面模型,考虑表面如何弯曲和反射光线。这使得表面细化与体积渲染相结合,能够仅通过多视图RGB图像进行端到端优化。
3. 技术细节与难点
- 光线追踪与折射反射计算:
- 使用球面追踪算法找到光线与表面的第一个交点$x_1$,然后根据斯涅尔定律计算反射和折射方向。
- 反射方向公式为: \(d_{r1} = d_0 - 2(n_1^T d_0) n_1\)
- 折射方向公式为: \(d_1 = \frac{\eta}{\eta_t} d_0 - \left( \frac{\eta}{\eta_t} n_1^T d_0 + \sqrt{1 - \frac{\eta^2}{\eta_t^2} (1 - (n_1^T d_0)^2)} \right) n_1\)
- 其中,$\eta_t$为透明物体的折射率,$\eta$为空气的折射率。
- 难点在于,光线路径的计算需要精确的表面交点和法线信息,而初始表面可能存在误差,导致光线路径计算不准确。
- 可微分细化:
- 通过求解光线与表面交点的优化问题,利用隐函数微分技术计算交点距离的导数。例如,对于第一个交点$x_1$,交点距离$\delta_1$的导数为: \(\frac{\partial \delta_1}{\partial \theta} = -\frac{1}{n_2^T d_1} \frac{\partial \phi_{SDF}(x_2; \theta)}{\partial \theta}\)
- 难点在于,这种可微分技术需要精确的导数计算,并且需要处理多步折射和反射的复杂依赖关系。
- 折射率搜索:
- 通过最大化新视图合成的PSNR值来搜索折射率,而不需要额外的训练。难点在于,折射率的搜索需要在合理范围内进行,并且需要确保搜索过程的稳定性和准确性。
4. 实验结果与验证
- 新视图合成:
- 与NeuS+Ref.基线相比,TNSR在六个数据集上均取得了显著的性能提升,特别是在LPIPS指标上,表明TNSR能够生成更接近真实视图的结果。
- 例如,在Optical Ball数据集上,TNSR的PSNR值为24.07,SSIM值为0.826,LPIPS值为0.112,优于其他方法。
- 几何重建:
- 通过Chamfer-L1距离评估重建几何的准确性,TNSR在所有数据集上均优于UNISURF、VolSDF和NeuS。
- 例如,在Kitty数据集上,TNSR的Chamfer-L1距离为1.805,而NeuS为1.96。
- 对折射率的鲁棒性:
- 在不同折射率(如1.3和2.4)的透明物体上进行测试,TNSR能够生成视觉上合理的新型视图,表明其对折射率的鲁棒性。
5. 局限性与未来方向
- 局限性:
- 当前方法仅考虑最多两次折射和一次反射的光线路径,对于复杂的透明物体(如多次折射)可能不够准确。
- 假设场景由完全透明或不透明物体组成,无法处理半透明物体。
- 未来方向:
- 扩展方法以支持任意次数的折射和反射,以更好地处理复杂透明物体。
- 将方法扩展到半透明物体的建模,允许物体内部的光线辐射对总辐射有贡献。
论文详细讲解:《Differentiable Neural Surface Refinement for Modeling Transparent Objects》
1. 研究背景与动机
透明物体的三维重建是一个极具挑战性的问题。传统方法在处理透明物体时效果不佳,主要是因为光线在透明物体中会发生复杂的折射和反射,而大多数现有方法假设光线沿直线传播。这种假设在透明物体中不成立,导致重建结果不准确。此外,许多现有方法依赖于复杂的相机设置或已知的折射率,这在实际应用中难以实现。
2. 研究目标
本文提出了一种新的表面重建框架——透明神经表面细化(TNSR),旨在仅通过多视图RGB图像重建透明物体的几何形状和外观,无需复杂的相机设置或已知的折射率。
3. 方法概述
TNSR的核心思想是将物理折射和反射追踪显式地融入重建过程。具体步骤如下:
- 初始表面估计:
- 使用NeuS模型(一种基于神经隐式表面的多视图重建方法)生成透明物体的初始表面估计。NeuS通过体积渲染和神经隐式表示学习场景的几何和外观,但其假设所有表面为不透明,因此对透明物体的重建效果不佳。
- 光线追踪与折射反射计算:
- 从初始表面出发,利用球面追踪算法找到光线与表面的第一个交点$x_1$。
- 根据斯涅尔定律(Snell’s Law),计算反射和折射光线的方向: \(d_{r1} = d_0 - 2(n_1^T d_0) n_1\) \(d_1 = \frac{\eta}{\eta_t} d_0 - \left( \frac{\eta}{\eta_t} n_1^T d_0 + \sqrt{1 - \frac{\eta^2}{\eta_t^2} (1 - (n_1^T d_0)^2)} \right) n_1\) 其中,$\eta_t$为透明物体的折射率,$\eta$为空气的折射率。
- 再次使用球面追踪找到第二个交点$x_2$,并计算最终的出射方向$d_2$。
- 颜色渲染与Fresnel方程:
- 透明物体的最终辐射是反射光线和折射光线辐射的组合。利用Fresnel方程计算反射和折射的比例: \(F_r = \frac{1}{2} \left( \frac{\eta d_0^T n_1 - \eta_t d_1^T n_1}{\eta d_0^T n_1 + \eta_t d_1^T n_1} \right)^2 + \frac{1}{2} \left( \frac{\eta_t d_0^T n_1 - \eta d_1^T n_1}{\eta_t d_0^T n_1 + \eta d_1^T n_1} \right)^2\) 最终的辐射为: \(\hat{c}(x_0, d_0) = F_r \hat{c}(x_1, d_{r1}) + (1 - F_r) \hat{c}(x_2, d_2)\) 其中,$\hat{c}(x_1, d_{r1})$和$\hat{c}(x_2, d_2)$是通过体积渲染得到的反射和折射光线的颜色。
- 可微分细化:
- 通过求解光线与表面交点的优化问题,利用隐函数微分技术计算交点距离的导数。例如,对于第一个交点$x_1$,交点距离$\delta_1$的导数为: \(\frac{\partial \delta_1}{\partial \theta} = -\frac{1}{n_2^T d_1} \frac{\partial \phi_{SDF}(x_2; \theta)}{\partial \theta}\) 其中,$\phi_{SDF}$是神经隐式表面的符号距离函数(SDF),$\theta$是网络参数。
- 这种可微分技术允许误差信号从渲染的颜色反向传播到表面模型的参数,从而实现端到端的优化。
- 折射率搜索:
- 通过最大化新视图合成的PSNR值来搜索折射率,而不需要额外的训练。具体来说,通过改变折射率并使用预训练的NeuS模型渲染图像,找到使PSNR值最大的折射率。
4. 实验结果
- 新视图合成:
- 在六个透明物体数据集上进行实验,包括真实世界的Glass和Ball数据集,以及合成的Kitty、Optical Ball、Bottle和Ellipsoid数据集。
- 与NeuS+Ref.基线相比,TNSR在所有数据集上均取得了显著的性能提升,特别是在LPIPS指标上,表明TNSR能够生成更接近真实视图的结果。
- 例如,在Optical Ball数据集上,TNSR的PSNR值为24.07,SSIM值为0.826,LPIPS值为0.112,优于其他方法。
- 几何重建:
- 通过Chamfer-L1距离评估重建几何的准确性,TNSR在所有数据集上均优于UNISURF、VolSDF和NeuS。
- 例如,在Kitty数据集上,TNSR的Chamfer-L1距离为1.805,而NeuS为1.96。
- 对折射率的鲁棒性:
- 在不同折射率(如1.3和2.4)的透明物体上进行测试,TNSR能够生成视觉上合理的新型视图,表明其对折射率的鲁棒性。
5. 局限性与未来方向
- 局限性:
- 当前方法仅考虑最多两次折射和一次反射的光线路径,对于复杂的透明物体(如多次折射)可能不够准确。
- 假设场景由完全透明或不透明物体组成,无法处理半透明物体。
- 未来方向:
- 扩展方法以支持任意次数的折射和反射,以更好地处理复杂透明物体。
- 将方法扩展到半透明物体的建模,允许物体内部的光线辐射对总辐射有贡献。
论文方法部分详细讲解
1. 问题定义
论文的目标是从一组已知相机姿态和内参的多视图RGB图像中,重建包含透明物体的场景的几何形状和视依赖外观。透明物体的特殊性在于其通过折射和反射改变光线路径,这使得传统的神经3D重建模型(基于直线光路假设)难以准确建模。
2. 神经隐式表面回顾
论文基于NeuS模型进行初始表面估计。NeuS结合了隐式表面和神经场的优势,能够学习平滑的表面几何形状,为后续的表面细化提供基础。
- 表面表示:
- 几何形状通过符号距离函数(SDF)隐式编码,将空间位置$x \in \mathbb{R}^3$映射到其与表面的符号距离。SDF由一个多层感知机(MLP)参数化,表面定义为SDF的零等值面: \(S = \{x \in \mathbb{R}^3 \mid \phi_{\text{SDF}}(x) = 0\}\)
- 视依赖外观通过另一个MLP估计,预测3D点的颜色$c$,输入包括点的位置$x$、视方向$d$、法线$n$和几何特征$g$。
- 体积渲染:
- 为了渲染像素颜色,从相机中心$x_0$沿方向$d$发射光线,通过沿光线采样点${x_i = x_0 + t_i d \mid t_i > 0}$并积分颜色贡献来计算像素颜色: \(\hat{c}(x_0, d) = \sum_{i=1}^N \alpha_i c_i \prod_{j=1}^{i-1} (1 - \alpha_j)\) 其中,$\alpha_i$表示离散不透明度,$c_i$表示点$x_i$的颜色。
- NeuS通过SDF预测的不透明度计算权重函数,避免直接预测密度,从而实现无偏且考虑遮挡的体积渲染。
- 表面法线:
- 对于零等值面上的点$x \in S$,表面法线由SDF的梯度归一化得到: \(n(x) = \frac{\nabla \phi_{\text{SDF}}(x)}{\|\nabla \phi_{\text{SDF}}(x)\|}\)
- 为了促进重建表面的平滑性,鼓励表面点及其邻域的法线相似。
3. 表面细化
表面细化的目标是从初始表面(假设所有表面为不透明)出发,通过考虑折射和反射光线的路径,优化透明物体的表面几何形状。
- 光线追踪:
- 从初始表面开始,使用球面追踪算法找到光线与表面的第一个交点$x_1$。
- 根据斯涅尔定律计算反射和折射光线的方向: \(d_{r1} = d_0 - 2(n_1^T d_0) n_1\) \(d_1 = \frac{\eta}{\eta_t} d_0 - \left( \frac{\eta}{\eta_t} n_1^T d_0 + \sqrt{1 - \frac{\eta^2}{\eta_t^2} (1 - (n_1^T d_0)^2)} \right) n_1\) 其中,$\eta_t$为透明物体的折射率,$\eta$为空气的折射率。
- 再次使用球面追踪找到第二个交点$x_2$,并计算最终的出射方向$d_2$。
- 颜色渲染:
- 透明物体的最终辐射是反射光线和折射光线辐射的组合。利用Fresnel方程计算反射和折射的比例: \(F_r = \frac{1}{2} \left( \frac{\eta d_0^T n_1 - \eta_t d_1^T n_1}{\eta d_0^T n_1 + \eta_t d_1^T n_1} \right)^2 + \frac{1}{2} \left( \frac{\eta_t d_0^T n_1 - \eta d_1^T n_1}{\eta_t d_0^T n_1 + \eta d_1^T n_1} \right)^2\) 最终的辐射为: \(\hat{c}(x_0, d_0) = F_r \hat{c}(x_1, d_{r1}) + (1 - F_r) \hat{c}(x_2, d_2)\) 其中,$\hat{c}(x_1, d_{r1})$和$\hat{c}(x_2, d_2)$是通过体积渲染得到的反射和折射光线的颜色。
- 折射率搜索:
- 通过最大化新视图合成的PSNR值来搜索折射率,而不需要额外的训练。具体来说,通过改变折射率并使用预训练的NeuS模型渲染图像,找到使PSNR值最大的折射率。
4. 可微分细化
可微分细化是TNSR的核心,它通过反向传播将光度误差信号传递到隐式表面网络的参数中,从而实现端到端的优化。
- 光线与表面交点的优化问题:
- 对于从点$x_i$沿方向$d_i$的光线,求解第一个表面交点(零等值面)的距离$\delta_i$: \(\delta_i(\theta, x_i, d_i) \in \arg\min_{\delta \geq \epsilon} \delta \quad \text{subject to} \quad \phi_{\text{SDF}}(x_i + \delta d_i; \theta) = 0\) 其中,$\epsilon$是一个小的正数,避免平凡解。
- 隐函数微分:
- 假设$\delta_i$存在,根据Gould等人的命题4.6,可以计算导数: \(\frac{\partial \delta_i}{\partial \theta} = -\frac{1}{n_{i+1}^T d_i} \frac{\partial \phi_{\text{SDF}}(x_{i+1}; \theta)}{\partial \theta}\) \(\frac{\partial \delta_i}{\partial x_i} = -\frac{n_{i+1}}{n_{i+1}^T d_i}\) \(\frac{\partial \delta_i}{\partial d_i} = -\frac{\delta_i n_{i+1}}{n_{i+1}^T d_i}\) 其中,$x_{i+1} = x_i + \delta_i d_i$是交点,$n_{i+1} = \nabla \phi_{\text{SDF}}(x_{i+1})$是交点处的法线。
- 误差反向传播:
- 在得到交点$x_j$和方向$d_j$后,沿新的出射光线$(x_j, d_j)$积分颜色,并与真实颜色比较。误差信号通过上述导数反向传播到SDF网络的参数$\theta$中。
5. 总结
TNSR通过显式地考虑折射和反射光线的路径,并利用可微分技术将光度误差信号传递到隐式表面网络的参数中,实现了仅通过多视图RGB图像对透明物体的几何形状和外观进行端到端优化。这种方法有效地解决了传统体积渲染技术在处理透明物体时的不足。
评论