第1章绪论
1.1研究的背景及意义
随着公路建设工程的快速发展,公路巡检和养护管理已成为我国公路建设领域的一项重要工作[1]。道路建设完成并投入使用后,会因交通载荷和自然因素(如温度变化、空气湿度、地质浸水、阳光强度等)的影响而产生一系列路面损坏的问题,导致道路的承载能力逐渐降低[2]。路面裂缝是评价路面质量的重要参数,也是大多数病害的早期表现,直接影响道路寿命和行车安全。其危害如图1.1所示,提前发现裂缝并进行修补,可以避免后续衍生出更严重的路面病害,造成更大的损失。因此,对公路表面的裂缝进行识别检测十分必要,然而公路路面环境复杂,对裂缝的自动识别干扰过大,目前针对裂缝的识别检测大多还停留在人工阶段。对裂缝进行识别检测的主要方法为:利用采集车或人工拍照等方式进行路况图像的拍摄,再通过人工识别的方式进行检测。该方法不仅效率低下,还存在人为判定的失误,因此需要设计针对路面裂缝病害图像的自动检测算法[3,4]。
图1.1路面裂缝危害
近年来,计算机更新迭代速度逐渐加快,目前世界上运算速度最快的计算机可以实现每秒上百亿亿次的运算[5]。这意味着,计算机可以完成甚至超过人类所能完成的任务,而以卷积神经网络(convolutional neural network,CNN)为代表的深度学习算法已在各行各业得到应用,尤其在移动支付、天眼监测系统以及自动驾驶领域。基于计算机视觉的项目研发成为重点,而其核心正是深度学习[6]。作为传统机器学习算法的新分支,深度学习算法具备以下优势:
(1)深度学习框架下建立的网络对深层特征信息的挖掘远高于传统的机器学习,通过获取到的信息可以对原始样本数据进行解译,而且数据量越多,深度学习的效率越高。
(2)在应用传统机器学习算法解决问题时,先将问题按任务需求分为若干小问题,共同解决完所有小问题之后,再通过整合得出最后的结果。深度学习则是运用端到端的方式处理问题,其流程更为高效、简洁。
(3)深度神经网络的训练不需要人为干预,在图像处理的过程中,每一层计算后的参数都会继承到下一层,同时在网络中每一层的神经元都可以通过卷积提取更多的特征信息,训练后的结果可以用来预测,而传统机器学习算法则不具备这种能力[7]。
持续完善与创新的计算机视觉和机器学习逐渐成为图像处理和人工智能方向的热点。深度学习通过建立类似人脑的神经网络,利用其自动学习的功能实现数据的准确分类。在图像处理领域,深度学习发挥着重要作用,尤其对路面破损信息的识别意义重大。
随着深度学习不断优化升级,在计算机图像处理领域,卷积神经网络大放异彩,在各个行业都有广泛应用[8]。例如,U-Net在医学影像分割领域取得了一席之地;CenterNet凭借回归目标中心点方式在目标检测领域获得优势;在人体姿态估计领域,也有级联金字塔网络(cascaded pyramid network,CPN)、Hourglass等。将卷积神经网络优化后引入路面裂缝的自动识别中同样可以取得良好的效果,通过目标检测可以确定裂缝出现的位置以及具体范围,采用图像分割的方式可以获取裂缝的具体面积和大小。总之,卷积神经网络是解决路面裂缝自动识别的最佳途径之一,而实现的重点在于如何针对裂缝病害图像的特点对网络模型进行针对性的优化,使得最终的检测结果达到预期,也即通过提高裂缝路面的识别精度,为交通部门日常的道路养护提供准确的信息。
1.2国内外研究现状
1.2.1深度学习中的图像分类网络
计算机视觉最初的用途之一就是图像分类,即检测图像中是否包含某类物体。对图像的特征进行描述是对物体进行分类的基本任务[9]。图像中的物体分类主要通过人为特征寻找或者特征学习完成对图像全区域的扫描,使用分类器判断物体是否存在及存在的具体类别。目前,主流的特征提取方法有以下3种:
(1)方向梯度直方图(histogram of oriented gradient,HOG)特征[10]。HOG是一种特征描述子,主要功能是对图像中的目标物进行检测和定位,通过构建图像中目标区域的梯度直方图来获取目标物的特征。HOG特征结合支持向量机(support vector machine,SVM)分类器对行人进行检测,是一种较为主流的图像特征提取算子。
(2)尺度不变特征变换(scale-invariant features transform,SIFT)[11]。SIFT主要用于检测局部特征,该算法除了能获取图像中的特征点,还能收集有关尺度和方法的描述子,从而获取物体特征并进行图像特征点匹配。SIFT的特点在于尺度不变性,即任意改变拍摄角度、旋转方位甚至是图像亮度,其检测效果都十分稳定。
(3)加速稳健特征(speeded up robust features,SURF)[12]。SURF的概念及运算原理均来自SIFT,是SIFT的升级版,但两者的特征提取流程略有不同。其运算步骤大致可以概括为:特征点测定、特征邻近描述、描述子配对。SURF通过建立Hessian矩阵构造高斯金字塔尺度空间,在初步确定特征点的阶段采用了非极大值抑制法,通过精确定位的极值点选取特征点的主方向用于构造SURF特征点描述子。SURF相较于SIFT的优点是,速度快且稳定性好。
在传统的图像分类研究中,大多数特征的提取过程都是人为设计好的,仅采用浅层学习来获得图像的特征,其准确性无法达到较高的水平。深度学习通过已验证的网络模型,从训练数据中学习图像的高层次结构特征,能够提取更加准确的图像语义特征,其深度不仅局限于浅层的图像信息,在图像识别上的表现早已超过传统方法。
CNN在特征提取上具有较为明显的优势,模型提取的特征随着网络深度的增加变得更加丰富,图像语义信息更饱满,存在的不确定性因素越少,网络的识别能力越强。LeNet[13]作为最早的一批深度学习网络,主要用于手写字符的识别与分类。虽然LeNet的提出时间比较早,但当时计算机的性能远达不到高运算量的需求,同时缺乏足够的训练样本,因此LeNet在面对复杂的图像处理场景时往往效果并不理想。AlexNet[14]将卷积神经网络图像分类的精度提升到一个新高度。作为ImageNet数据集上图像分类的优胜网络,AlexNet只采用8层网络结构就达到了很好的分类效果,为后来许多图像分类网络的诞生提供了参考。GoogleNet[15]将网络设计的思路从单纯堆叠层数转变成优化网络结构。通过Inception模块结构,GoogleNet实现了多尺度特征的提取,其网络对下采样方向也进行了更新。ResNet[16]创新性地提出了残差网络的概念,解决了深层网络过拟合的问题,加强了网络提取特征的能力。后来不少高层次网络结构中都采用ResNet中的残差模块,如DenseNet和YOLO(you only look once)系列网络等。
1.2.2深度学习中的图像分割网络
图像分割在计算机视觉领域有着十分重要的意义,对图像的语义结构分析起着决定性的作用。作为图像处理的关键步骤,图像分割将图像按指定要求进行区域划分,为后续的图像分析提供了信息依据[17]。从微观角度分析,图像分割就是将图像中的每个像素按照编号进行分类,实现像素级别的分割是图像分割的终极目标。然而,图像实际处理过程会出现光照不均、噪声及阴影等现象,严重影响分割的精度,解决这些干扰是当前图像分割中的关键。
目前,传统分割算法主要分为以下类别:
(1)阈值分割算法[18]。阈值分割算法在传统分割算法中应用最为广泛,其原理是按照设定的不同特征阈值对图像中的区域进行划分,分割结果为不同灰度阈值的目标区域和背景区域。该方法的优势在于运算量小、操作简单,难点在于特征阈值的确定。
(2)区域生长法[19]。区域生长法的分割原理不同于阈值分割算法,其特点是后一步的分割处理由前一步的分割结果决定,将具有相似特征的像素进行集合,实现“生长”。该方法对均匀连续的目标有较好的分割效果,但分割结果受噪声的干扰较大,且分割效率低于阈值分割算法,适合特定目标的分割。
(3)边缘检测算法[20]。边缘检测算法的原理来源于不同的目标区域边缘附近像素灰度值存在变化,变化越明显,检测效果越好。如果目标区域和背景区域的灰度值变化不大,或者图像中存在噪声阴影等干扰因素,那么边缘检测算法的精度就会受到较大干扰,因此在检测前进行图像预处理是十分必要的。
CNN的出现将图像分割技术带入自动化、智能化的时代。全卷积网络(fully convolutional network,FCN)[21]实现了图像分割任务中端到端、像素到像素的训练方法,其创新性地采用了编码器解码器的网络结构,最终实现分割结果达到像素级。相较于CNN,FCN保留了CNN用于特征图的提取,将CNN中的全连接层替换为对应的卷积层,以实现特征的恢复。U-Net[22]在医学领域的图像分割取得了较好的效果,在保留FCN中编码器解码器网络结构的前提下,U-Net创新性地在网络中采用了跳跃连接的方式,以更少的训练样本取得了更好的分割效果。DeepLab网络[23]将编码器解码器网络结构和条件随机场相结合,提升了图像边缘分割的效果,同时采用空洞卷积提高每一层特征的感受野,进一步优化了分割效果。掩膜区域卷积神经网络(mask reqion convolutional neural network,Mask RCNN)[24]创新性地推出了定位到像素层面的分割技术,能够对图像中的对象进行更为准确的分割,带动图像分割领域分割精度的进一步提升。
1.2.3路面裂缝检测
针对路面裂缝检测,从最初烦琐的人工识别,到计算机时代的边缘检测、机器学习等新手段的采用,终于进入自动化时代,然而裂缝病害图像的特殊性导致检测精度达不到实际要求。随着深度学习在计算机视觉方向的发展,利用CNN进行路面裂缝检测的方法逐渐被提出。相对于传统方法,基于CNN的路面裂缝检测的识别精度更高,具备更好的发展前景。
1.路面裂缝病害图像的增强
图像差方法是指对不同滤波处理得到的图像进行差运算,从而达到图像处理的目的。该方法将原始路面图像与经过低通滤波处理的模糊图像进行相减,得到一幅图像差。该图像差消除了光照的不均匀,减弱了道路白线标记、轮胎印等的影响,同时保留了裂缝信息,但图像差方法无法检测细微裂缝,并且耗时较长。基于图像差方法的灰度校正算法对图像进行校正时,可以消除背景光照的不均匀,但同时降低了裂缝的对比度[25]。基于多偏微分方程融合的增强算法可用于路面图像去噪、裂缝边缘锐化和裂缝增强等,但该算法中的某些重要参数需经过统计分析进行求解,而且这些参数不具备普适性,只适用于同一条件下获取的路面图像[26]。李清泉等[27]利用Wallis变换对路面病害图像进行掩模处理,增强了图像的反差并抑制了噪声,得到了灰度均匀分布的图像。三维路面裂缝病害图像的增强处理,利用非亚采样等高线变换(nonsubsampled contourlet transform,NSCT)和分数微分进行裂缝深度图像的增强与检测,但受限于仪器和费用,不易推广[28,29]。基于模糊熵和模糊散度等模糊理论,Zhang等[30]提出一种自动脊波图像增强算法,对高频信号进行拉伸,再通过Ridgelet逆变换得到增强后的图像,取得了较好的效果。该算法在路面图像去噪、裂缝信息提取等方面取得了很好的效果,但是相关参数还需针对不同图像进行设定[30]。
2.路面裂缝病害图像的分割算法
很多学者将数字图像处理领域的新技术应用于路面裂缝病害图像的增强、目标分割、目标参数测量、目标分类等环节中,提出了很多算法。
1)阈值分割算法
阈值分割算法简单有效、运算速度快,广泛应用于路面病害图像的分割中。Tsai等[31]使用传统的最大类间方差法(该算法由Nobuyuki Otsu提出,又称为OTSU算法)来分割图像,并检测图像中的裂缝,进而提出动态(自适应)阈值分割算法来分割图像。