信阅平台

编辑推荐

本书以作者教学经验和研究成果为基础，配合大量插图，详细讲解传统计算机视觉方法，基于手动特征的经典算法，并深入介绍最前沿的深度学习技术。将传统的知识与深度学习的力量相结合应对不断变化的挑战。

阅读本书，您既能够理解计算机视觉的基本原理，又能够掌握当今最激动人心的技术。

展开

作者简介

高盛华简介：

上海科技大学信息科学与技术学院教授，长期从事计算机视觉与机器学习领域研究，发表多篇高水平计算机视觉领域学术论文。

厉征鑫简介：

上海科技大学信息科学与技术学院副研究员，博士毕业于江南大学，长期从事机器视觉、异常检测相关研究，发表多篇计算机视觉领域论文。

展开

内容介绍

本书主要介绍和探讨计算机视觉的一系列核心主题，包括相机成像，图像处理、分析和感知，三维重建等。首先介绍了相机模型、成像过程以及图像的颜色模型、照射模型、渲染模型等；然后系统性地介绍了图像滤波、特征提取、图像和视频感知与理解等多种任务，不仅详细讲解了各任务中的经典方法，还全面地介绍了前沿的基于深度学习的方法；最后介绍了三维重建中涉及的几何原理、重建步骤以及基于深度学习的新方法。

本书针对每一个核心问题单独成章，并着重讲解基本概念。通过大量的彩图，帮助读者理解问题。适合作为本科及研究生的计算机视觉和数字图像处理课程的教材，并且可以作为深度学习课程的参考书。同时，也可供对计算机视觉感兴趣的相关专业人士参考。

展开

第１章相机成像模型／１

１．１引言／１

１．２简单的相机模型／２

１．２．１相机数学模型／２

１．２．２相机的内参／４

１．２．３相机的外参／６

１．２．４相机成像公式／７

１．２．５相机成像畸变／７

１．３图像的颜色／１０

１．３．１基于拜尔滤波器的颜色感知／１０

１．３．２ＲＧＢ颜色模型／１１

１．３．３ＨＳＶ颜色模型／１２

１．４图像的亮度／１４

１．４．１空间中的光／１４

１．４．２物体表面的光线反射／１６

１．４．３薄透镜成像的辐射度学／１７

１．４．４数字成像过程／１９

１．５渲染／２０

１．５．１渲染方程／２０

１．５．２光线追踪算法／２０

１．６本章小结／２３

第２章图像空间滤波／２４

２．１引言／２４

２．２卷积和互相关／２５

２．２．１卷积／２５

２．２．２互相关／２６

２．３图像的平滑／２８

２．３．１邻域均值滤波／２８

２．３．２加权均值滤波／２８

２．３．３高斯均值滤波／２９

２．３．４中值滤波／３０

２．３．５双边滤波／３０

２．４图像的锐化／３２

２．４．１梯度锐化／３２

２．４．２拉普拉斯算子的二阶微分锐化／３３

２．４．３非锐化掩膜与高频提升滤波／３４

２．５本章小结／３５

第３章图像特征提取／３６

３．１引言／３６

３．２基于非学习方法的边缘检测／３７

３．２．１边缘、导数和梯度／３９

３．２．２边缘的卷积形式计算／４０

３．２．３噪声对边缘检测的影响和处理方法／４１

３．２．４Ｃａｎｎｙ边缘检测算子／４３

３．３基于深度学习的边缘检测／４５

３．３．１ＨＥＤ／４５

３．３．２ＲＣＦ／４７

３．３．３ＣＡＳＥＮｅｔ／４９

３．４基于非学习方法的关键点检测／５１

３．４．１角点检测原理／５３

３．４．２Ｈａｒｒｉｓ角点检测／５４

３．４．３Ｈａｒｒｉｓ角点检测的优势与不足／５８

３．４．４高斯拉普拉斯算子／５９

３．４．５高斯差分算子／６４

３．５基于深度学习的语义关键点检测／６５

３．５．１基于深度学习的人脸关键点检测／６５

３．５．２人体关键点检测／６９

３．５．３房间布局估计／７４

３．６基于非学习方法的直线检测／７８

３．６．１最小二乘法／７８

３．６．２基于ＲＡＮＳＡＣ的直线拟合／８２

３．６．３霍夫变换／８４

３．７基于深度学习的线段检测／８７

３．７．１基于图表示的线段检测／８７

３．７．２基于向量场表示的线段检测／８８

３．７．３语义直线检测及应用／８９

３．８本章小结／９１

参考文献／９１

第４章图像分类／９４

４．１引言／９４

４．２图像表达／９７

４．３基于手动特征的图像表达／９８

４．３．１基于颜色直方图的图像表达／９８

４．３．２基于经典的视觉词袋模型的图像表达／９９

４．３．３基于空间金字塔匹配模型的图像表达／１０４

４．３．４基于压缩感知的图像表达／１０５

４．３．５基于高斯混合模型的图像特征编码／１０７

４．４基于支持向量机的图像分类／１０８

４．４．１面向线性可分数据的支持向量机分类／１０８

４．４．２面向非线性可分数据的支持向量机分类／１１４

４．４．３基于支持向量机的多分类实现／１１６

４．４．４基于视觉词袋模型和支持向量机的图像分类／１１６

４．５基于自编码器的图像表达／１１７

４．５．１多层感知机／１１８

４．５．２自编码器／１２０

４．５．３降噪自编码器／１２１

４．６基于卷积神经网络的图像分类／１２２

４．６．１卷积神经网络的组件／１２２

４．６．２神经网络的训练／１２８

４．６．３代表性图像分类卷积神经网络／１３１

４．７基于胶囊网络的图像分类／１４３

４．７．１ＣａｐｓＮｅｔ／１４４

４．７．２堆叠胶囊自编码器／１４７

４．８基于Ｔｒａｎｓｆｏｒｍｅｒ的图像分类／１４９

４．８．１自然语言处理中的Ｔｒａｎｓｆｏｒｍｅｒ／１４９

４．８．２基于Ｔｒａｎｓｆｏｒｍｅｒ的图像分类／１５１

４．９本章小结／１５９

参考文献／１５９

第５章图像中目标检测／１６４

５．１引言／１６４

５．２基于手动特征的目标检测／１７１

５．２．１ＶｉｏｌａＪｏｎｅｓ人脸检测算法／１７２

５．２．２基于ＤＰＭ的目标检测／１７６

５．３基于卷积神经网络的目标检测／１８３

５．３．１两阶段目标检测算法／１８５

５．３．２单阶段目标检测算法／１９０

５．３．３无锚框的目标检测算法／１９５

５．４基于Ｔｒａｎｓｆｏｒｍｅｒ的目标检测／１９９

５．４．１ＤＥＴＲ／１９９

５．４．２Ｐｉｘ２ｓｅｑ／２０１

５．５本章小结／２０３

参考文献／２０４

第６章图像分割／２０７

６．１引言／２０７

６．２基于手动特征的图像分割算法／２０９

６．２．１基于图论的图像分割／２０９

６．２．２基于聚类的图像分割／２１３

６．３语义分割／２１６

６．３．１ＦＣＮ／２１８

６．３．２ＵＮｅｔ／２１９

６．３．３ＤｅｅｐＬａｂ／２２０

６．３．４ＰＳＰＮｅｔ／２２３

６．４实例分割／２２３

６．４．１ＭａｓｋＲＣＮＮ／２２５

６．４．２ＹＯＬＡＣＴ／２２５

６．４．３ＳＯＬＯ／２２７

６．５全景分割／２２８

６．５．１ＰａｎｏｐｔｉｃＦＰＮ／２２９

６．５．２ＵＰＳＮｅｔ／２３０

６．６点云分割／２３２

６．６．１用于图的卷积神经网络／２３４

６．６．２基于点云的语义分割／２３８

６．７本章小结／２４４

参考文献／２４４

第７章视频分类和行为识别／２４８

７．１引言／２４８

７．２基于手动特征的视频分类／２５３

７．２．１基于词袋模型的视频表达和分类／２５４

７．２．２基于光流特征的视频表达和分类／２５４

７．３基于循环神经网络的视频分类／２６３

７．３．１循环神经网络／２６３

７．３．２双向循环神经网络／２６４

７．３．３长短期记忆网络／２６６

７．３．４门控制循环单元／２６７

７．３．５基于ＬＳＴＭ的视频表达／２６７

７．４基于卷积神经网络的视频分类／２７０

７．４．１单分支网络／２７０

７．４．２多分支网络／２７８

７．５基于Ｔｒａｎｓｆｏｒｍｅｒ的视频分类／２８２

７．５．１ＶｉＶｉＴ／２８２

７．５．２ＴｉｍｅＳＦｏｒｍｅｒ／２８５

７．５．３ＶｉｄｅｏＳｗｉｎＴｒａｎｓｆｏｒｍｅｒ／２８６

７．５．４ＶｉｄｅｏＣＬＩＰ／２８８

７．５．５ＶＬＭ／２９０

７．６时序动作定位／２９１

７．６．１单阶段方法／２９２

７．６．２自顶向下的多阶段方法／２９５

７．６．３自底向上的多阶段方法／２９９

７．７本章小结／３０４

参考文献／３０４

第８章图像三维重建／３１１

８．１引言／３１１

８．２对极几何／３１３

８．３相机标定／３１７

８．４基于传统算法的多视图立体重建／３２１

８．４．１简单的基于匹配三维点空间坐标求解方法／３２１

８．４．２基于平面扫描的场景深度估计／３２２

８．４．３基于视差的深度估计／３２３

８．４．４基于ＰａｔｃｈＭａｔｃｈ的立体重建／３２５

８．５基于深度学习的多视角重建／３２８

８．５．１ＭＶＳＮｅｔ／３２９

８．５．２ＦａｓｔＭＶＳＮｅｔ／３３０

８．６基于深度学习的场景的单目深度估计／３３２

８．６．１有监督学习的单目深度估计／３３２

８．６．２自监督学习的单目视频深度估计／３３５

８．７深度学习对基于不同形状表达的三维重建／３３８

８．７．１基于体素的显式三维表达／３３８

８．７．２基于多边形网格的显式三维表达／３４４

８．７．３基于隐函数的隐式物体表达／３４８

８．７．４基于神经立体渲染的多视角重建／３５３

８．８本章小结／３７０

参考文献／３７０

展开