Multi-View 3D Reconstruction with Geometry and Shading——Part-1

From PhDTheses Multi-View 3D Reconstruction with Geometry and Shading

计算机视觉的主要任务就是利用图像信息能智能理解周围的世界。

图像是传感器感知三维物体或场景的表面而产生的二维结果。而我们的目标是推测最能解释这些图像的物体的原始形状，是图像传感器工作过程的逆过程，换句话说，相机将三维世界转换到二维空间，而计算机视觉则要从二维空间图像获取物体或场景的三维信息。

由于种种因素，这是一个病态方程的求解。

第一，物体透射投影到图像的过程使得其原始三维场景失真，从而导致从单张图重构三维物体的原始结构变得不可能，除非是对简单的已知形状的物体，而这又是相当于添加了先验知识对物体结构的约束，并不适用大多数场合。

第二，多个物体同时排列出现在物体和相机的视场线上，也就是我们常说的遮挡，破坏了对我们最终理解物体和场景有价值的信息的获取过程。

类似于人类的视觉系统利用两只眼睛获取的信息来理解周围的世界，为了更好地实现重建并消除理解过程中的歧义，我们常常可以利用从不同视角同时拍摄到的多幅图像。最简单的方式就是利用我们常说的双目立体重建，通过分析两张图像来估计待构建的场景。相机的偏移以及我们两眼间的距离，可以让我们通过对射线在一张图像上形成的点与在另外一张图像上形成的与之对应的点之间的三角化推测出场景的三维位置。

显然，当我们利用多于两张关于场景的图像进行重建时，不仅能通过同时三角化多条射线来提高重建的精确度，还能通过核对冗余观察的一致性改善重建的完整度。这一过程就是我们所说的术语“多视图立体重建”。继续刚才与人类视觉系统的对比，尽管我们只有两只眼睛，但我们的脑袋是可以动的，能有效获得不止两张图像让我们的大脑去感知整个场景（虽然不是同步获取），这就有助于我们清除误解，使我们对世界的感知更加清晰明确。

除了立体视觉，人类视觉系统同时还会利用其它被动信息感知深度。我们暂时不管大脑中主动通过语义理解和先验知识解释得到的信息，例如经验会告诉我们，汽车在路面上行驶，并且限制它们的形状和尺寸，因为它们是我们已知的汽车。另外一个与立体重建互补的具体的有用信息是明暗信息。明暗信息是由于物体的形状、物体表面材料的性质以及照射在物体表面上的光的联合相互作用而产生，其中表面材料的性质指的是它的颜色和它反射光线的方式。明暗信息是帮助我们理解我们所生活的世界的最有力的线索之一。

基于光线的重建方法如阴影恢复形状（Shape from Shading, SfS）试图通过渲染过程的逆过程进行，从明暗信息中推导能解释它所展示出来的表现形式的物体的性质。考虑到颜色会影响物体的外表，基于明暗信息的重建方法在有纹理区域遇到了严惩的问题，因为将观测到的亮度分解成颜色和深度的过程会遇到歧义性问题。而另一方面，多视图立体严重依赖物体表面丰富的与众不同的纹理，因为这使得对同一个三维点在不同二维图像上的对应点的匹配更加容易、更加精确，且对于连续的三角化以及深度信息的提取也很有利。

相反，图像中弱纹理或者无纹理区域，也即是大片均匀由相同材料构成具有相同性质的区域，对立体重建而言是一个严重的问题，因为这样的区域特征匹配难度很大，尤其对于严重依赖特征点性质而进行的三角化过程，而与此同时这些区域又是基于明暗信息的重建方法大展身手的绝好应用场合。

综合考虑两种不同方法的优点和缺点，很自然地结合多视图立体和明暗信息以提高三维重建质量的重建方法就成为近期人们研究的热点。

秒客网

Multi-View 3D Reconstruction with Geometry and Shading——Part-1

相关文章