深蓝学院的点云公开课《基于三维点云场景的语义及实例分割》笔记

介绍之前的点云工作
介绍大场景三维点云的语义分割方法RandLA-Net。

1)目标

大多数方法如pointnet,pointnet++,pointcnn等只是处理小范围（如4k个点的1m×1m blocks），少量方法课处理大场景，但它们依赖于耗时的预处理或昂贵的体素化的步骤，预处理的时候进行了切块，把本该连一起的点云切开了，切开的部分可能成了不同的预测，网络可能没有学习到点云的几何信息，而是在拟合信息。

深蓝学院的点云公开课《基于三维点云场景的语义及实例分割》笔记

尝试用处理小范围的方法扩展至大范围。经过试验，pointnet方法在处理尺度越来越大的点云时准确性明显持续下降，原因是pointnet是里主要学习了独立的点的特征，没有学到本身的几何关系的信息，用来考虑整体特征的操作只是max-pooling，然而点数越大max-pooling丢掉的信息越多；pointnet++方法在处理尺度越来越大的点时准确性有所提升，然而计算速度确越来越慢，pointnet++的farthest point samping的模块的处理速度与点数是二次方的关系。

处理大场景点云结构的问题有点云的几何结构更加复杂；GPU容量的限制；深度传感器得到的点云数据的空间大小和点的数量是不确定的，我们希望可以直接处理而不是经过一些切割办法。RandLA-Net的方法的目标为：处理大场景点云，不经过分割的操作尽可能保留原来的几何特征；计算的效率较高，没有耗时的预处理或耗容量的体素化；提升准确性，对不同尺度的点云能捕捉提取到几何信息。

2)基本思路：

对大尺度的点云的特征集进行下采样，保留有能准确识别的关键特征。则需要更高效的点采样方法（减少计算损耗）和更高效的local feature aggregation来捕捉几何特征。

从采样方法来看，目前的采样方法可分为两类，一类是启发类的算法，及根据人为经验设计的算法
深蓝学院的点云公开课《基于三维点云场景的语义及实例分割》笔记

另一类是基于学习的算法
深蓝学院的点云公开课《基于三维点云场景的语义及实例分割》笔记
经过考量，采用random sampling方法。

为了保存有用的信息，提出了local feature aggregation(LFA)
深蓝学院的点云公开课《基于三维点云场景的语义及实例分割》笔记

在local spatial encoding模块，为学习到近邻特征，先找到一些最近的neighbor集,将一个点的xyz作为三个通道类似于rgb输入到网络，同时它的neighbor的xyz坐标以及相对位置和欧氏距离encode后也被输入网络，得到的特征再与原来的特征结合到一起
深蓝学院的点云公开课《基于三维点云场景的语义及实例分割》笔记

在attentive pooling模块，对于feature用softmax的方式学到一个“掩膜”，（类似于加到原始的feature上的效果），重要的feature就可以学到大一点的weight。加权后，然后通过weighted summation把多个临近点特征的 $\ \hat{f^{k}_{i}}$ 和 $\ s^{k}_{i}$ 相乘后aggregate在一起，得到一行的特征，再通过shared mlp把该行特征降维到 $\ d'$ 。以上是一个点的情况，多个点就有了 $\ Aggregated$ $\ features$
深蓝学院的点云公开课《基于三维点云场景的语义及实例分割》笔记