第1章 绪论
随着无人驾驶、高精地图、智慧城市、增强现实(augmented reality, AR)、大数据等概念的提出,相关人工智能技术的持续发展以及多类型传感器设备不断地推陈出新,为大规模三维真实场景语义理解与分析提供了良好的发展机遇,同时使其面临新的挑战。语义分割作为三维场景语义理解和分析的基础,已成为遥感、计算机视觉、机器人等多领域的研究热点,具有重要的研究价值和广阔的应用前景。语义分割是一种根据图像(包括二维和 2.5维)、点云(三维)等多种数据形式的视觉内容,将其中的每一个像素或点归类为其所属对象的语义类别的技术。按照维度来划分,场景语义分割的数据源包括二维图像、 2.5维 RGB-D影像以及三维点云数据。近年来,在计算机视觉领域,语义分割的数据源基本以二维图像为主,即图像语义分割,已取得重大突破,这主要是因为:①大量可利用的、公开的二维图像数据集的出现,为语义分割技术的发展提供了数据基础;②数字成像设备具有普及性和易操作性;③图形处理单元 (graphics processing unit, GPU)硬件技术的突破,为复杂大规模数据计算提供了保障;④二维数据维度比较低,数据处理相对容易;⑤深度学习技术促使图像语义分割技术取得了突破性进展。
与此同时,二维图像数据本身特点的局限性,致使它在数据获取、处理以及分割效果方面还存在一些短板,主要包括以下方面:①在数据采集时,天气、光照、拍摄角度直接影响图像拍摄的精度 (精度指标为像素+色彩);②由于视角、光照、距离的不同,拍摄出的图像色彩信息会随之变化,分割的结果也就不同;③柔性物体在运动过程中会发生形变,致使拍摄出的图像随之变化;④二维图像中点的几何关系与相机参数 (相机位置、焦距及畸变等 )直接相关,点和点之间的相互关系不是单纯的刚性旋转和平移;⑤一般相机只能定位一个焦平面,二维图像只具有平面特征,缺乏空间信息,单纯的二维图像无法真实再现三维场景;⑥数码相机成像采用光学镜头,受三维场景复杂程度和拍摄角度的影响,采集二维图像时目标之间存在不同程度的遮挡,这时会直接以前景色代替背景色,信息产生缺失。通过三维激光扫描仪获取的三维点云数据恰好能弥补二维图像的不足,其丰富的空间信息在三维场景语义理解和分析中占据着越来越重要的位置。
三维激光扫描仪直接对地物表面进行三维密集采样,可快速获取具有三维空间坐标和一定属性(如强度信息、回波信息等 )的海量、不规则空间分布三维点云,称为数字化时代下刻画复杂现实世界昀为直接和重要的三维地理空间数据获取手段[1]。三维激光扫描技术具有非接触式、全天候、高精度、高速度、高分辨率等明显优势,具体包括如下方面:①采用主动、非接触式扫描的激光成像原理,依据激光脉冲发射与接收的时间差或光波相位差解算三维目标到激光发射点的距离,即点云的三维坐标(X, Y, Z),不受三维场景的气候、光照等条件的影响,具有全天时、全天候的优势;②根据激光测量原理得到的点云,除了三维坐标,还包括激光反射强度等信息,该信息能够反映被测三维场景中各类语义目标的表面材质和地物光谱属性等;③通过对测站的定位定向或结合组合定位定姿技术,测量系统可以实现直接地理定位,并能快速获取被测场景的三维点云 [2];④采用多回波技术,同一束激光照射在被测物体表面或通过被测物体间缝隙(如植被间缝隙)照射在后景物体表面,从而能够获取被遮挡目标的三维点云数据,实现“穿透”测量[3];⑤三维激光扫描测量人工参与少,自动化程度高;⑥每秒可以获取十万、百万个点,点云密度高;⑦采用全覆盖式测量,可获取被测场景三维目标表面的高精度三维点云;⑧采用地面式激光扫描,单站测量只需几分钟,车载激光扫描每小时可采集几十公里的街景数据,机载激光扫描效率更高。正是因为三维激光扫描技术独*的优势,获取的三维点云具有广阔的应用前景和巨大的市场需求,已广泛应用于无人驾驶、高精地图、电力线巡检、森林调查、隧道信息重建、城市形态分析、数字文化遗产保护等领域。同时,其还会衍生出新的概念和领域,例如,2017年杨必胜等[1]首次提出了广义点云的科学概念与理论研究框架。它是将多源传感器采集的数据进行整合,以其中激光点云为基础,采用统一基准建立集成数据、结构、功能的一体化模型,实现从多角度、视相关到全方位、视无关的目标。
传统的三维点云语义分割技术发展已久,出现了大量经典的语义分割方法,如聚类方法、区域增长法、模板匹配法、三维霍夫变换法等。多年来,研究者虽不断地对此进行改进、优化,却很难有重大突破。分析其原因,传统语义分割方法主要存在以下方面的问题:①过度依赖人工定义特征,传统语义分割方法的点云特征描述子需要人为设置,且分割和特征提取的结果完全依赖特征的描述能力,极大地降低了三维点云的实用价值;②自动化、智能化程度低,对于传统语义分割方法,需定义分割规则以及根据处理场景的不同设置不同的阈值,如种子点的选择、距离阈值、法向量方向阈值、法向量夹角阈值、邻域搜索半径等,且在分割的过程中需要不断人工调整阈值大小以获取较优的分割效果;③跨平台性差,由于(x, y)坐标对与 z坐标的对应关系不唯一以及几何特征尺寸的差异,现有的机载激光扫描点分割方法在处理移动激光扫描点云方面存在困难 [4],跨平台点云的分割方法鲁棒性差;④提取语义类别单一,通常只提取特定类型的目标(如窗户、阳台等)、平面块或感兴趣的线性特征,无法有效处理包含多类别、形状多样、复杂程度高、包括不完整对象以及可变点密度的大规模城市场景;⑤计算量大,方法效率较低,传统语义分割方法速度慢的主要原因是大量的三维邻域点的查询,而基于聚类的分割方法还无法避免邻域搜索这一操作,已有方法开始关注如何提高分割效率的问题,如近似邻域搜索 [5],其方法还需要进一步研究;⑥通常先滤除地面点,再提取特征,通过三维激光扫描仪获取的三维点云,具有海量特性,点数达到千万、亿甚至十亿量级,现有计算机通常无法一次处理海量点云,且地面点占比较大,为减轻计算负担,排除地面点的干扰,通常需要先将地面点滤除,然后对剩余点云进行分割;⑦公开数据集短缺,缺少大场景三维点云公开数据集的有效支持,为解决该问题,研究者需要自己在特定场所采集数据,数据集不一致,衡量准则不统一,方法缺乏可比性,这也是导致三维场景传统语义分割方法研究进展缓慢的主要原因之一;⑧激光点云通常只包括三维坐标和反射强度等信息,缺少丰富的光谱信息以及点与点之间的空间拓扑关系,单纯依赖三维点云进行复杂场景多态目标的语义分割难度仍较大。
综上所述,一方面,由于三维点云的真三维、高密度、海量及无结构特性,研究快速有效的大规模三维场景语义分割方法具有重要的理论价值。另一方面,由于真实自然场景的复杂程度高,三维目标间存在不同程度的重叠、遮挡及缺失,点云密度存在不均匀等现象,研究与其他领域技术的结合,提出高鲁棒、强泛化能力、自动化、智能化的复杂三维场景多态目标语义分割方法对进一步推广广义点云技术的发展及其在各个领域的应用具有重要的现实意义。
参考文献
[1]杨必胜, 梁福逊, 黄荣刚. 三维激光扫描点云数据处理研究进展、挑战与趋势 [J].测绘学报 , 2017, 46(10): 1509-1516.
[2]于永涛. 大场景车载激光点云三维目标检测算法研究 [D].厦门: 厦门大学博士学位论文 , 2015.
[3]李明磊 . 面向多种平台激光点云的线结构提取与应用技术研究 [D].郑州: 信息工程大学博士学位论文, 2017.
[4] Biosca J M, Lerma J L. Unsupervised robust planar segmentation of terrestrial laser scanner point clouds based on fuzzy clustering methods[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2008, 63(1): 84-98.
[5] Hackel T, Wegner J D, Schindler K. Fast semantic segmentation of 3D point clouds with strongly varying density[J]. ISPRS Annals of Photogrammetry, Remote Sensing and Spatial Information Sciences, 2016, 3: 177-184.
第2章 点云类型及语义分割方法概述
2.1 引言
点云是指同一空间参考系下表达目标空间分布和目标表面特性的海量点的集合,具有密度大、精度高、数据量大等特点。点云除了包括三维坐标,还包括其他属性信息,如根据激光测量原理得到的点云,还包括激光反射强度等;根据摄影测量原理得到的点云,还包括 RGB(red, green, blue)颜色信息等。本章 首先按照点云获取方式及测量原理的不同系统介绍点云的类型,将三维点云划分为激光点云、影像点云、 RGB-D点云、结构光点云及其他类型点云;然后对点云语义分割方法进行概述,重点介绍基于深度学习的三维点云语义分割方法。
2.2 点云类型
2.2.1 激光点云
激光点云是指由三维激光扫描仪对目标进行扫描获取得到的海量点的集合。根据搭载三维激光扫描仪的平台类型,激光点云可分为地面激光扫描 (terrestrial laser scanning, TLS)点云、车载激光扫描(mobile laser scanning, MLS)点云、机载激光扫描(airborne laser scanning, ALS)点云、星载激光扫描 (satellite laser scanning, SLS)点云和手持/背包式激光扫描(backpack laser scanning, BLS)点云。目前,具有代表性的激光点云数据集主要有以下 16种。
1. ISPRS benchmark
ISPRS benchmark[1]数据集主要用于目标分类和三维建筑重建,由 ISPRS-Vaihingen和 ISPRS-Toronto两个子集构成,被标注为 6个类别。其中,第1个数据集 ISPRS-Vaihingen是由德国摄影测量、遥感和地理信息学会 (Deutsche Gesellschaft für Photogrammetrie, Fernerkundung und Geoinformation, DGPF)于 2008年在韦兴根 (Vaihingen)上空采用 Leica的 ALS50系统采集的机载激光点云数据。第2个数据集 ISPRS-Toronto覆盖了加拿大多伦多 (Toronto)市中心地区约 1.45km2的区域,由微软 Vexcel的 UCD(UltraCam-D)相机和 Optech机载激光扫描仪 ALTM-ORION M捕获,ISPRS benchmark数据集示意图如图 2.1所示。
图 2.1 ISPRS benchmark数据集示意图
2. Oakland 3-D
Oakland 3-D[2]为城市场景车载三维激光点云数据集,包含 17个文件、160万个三维点、44类标签。2009年,该数据集采集于宾州匹兹堡市奥克兰的卡内基梅隆大学校园附近,车载平台为 NavLab11,配备了侧视的 SICK LMS扫描仪。数据以 ASCII格式存储,一行表示一个点。数据集由 part2和 part3两个子集组成,每个子集都有自己的局部参考框架,每个文件包含 10万个三维点。对训练集、验证集和测试集进行滤波和标记,将 44个标签类重新映射为 5个标签大类。Oakland 3-D数据集全貌和车载平台 NavLab11如图 2.2所示