序言
前言
第1篇 基础知识
第1章 引言2
1.1 人工智能的新焦点——深度学习2
1.1.1 人工智能——神话传说到影视漫画2
1.1.2 人工智能的诞生3
1.1.3 神经科学的研究4
1.1.4 人工神经网络的兴起5
1.1.5 神经网络的第一次寒冬6
1.1.6 神经网络的第一次复兴8
1.1.7 神经网络的第二次寒冬9
1.1.8 2006年——深度学习的起点10
1.1.9 生活中的深度学习11
1.1.10 常见深度学习框架简介12
1.2 给计算机一双眼睛——计算机视觉14
1.2.1 计算机视觉简史14
1.2.2 2012年——计算机视觉的新起点16
1.2.3 计算机视觉的应用17
1.2.4 常见计算机视觉工具包19
1.3 基于深度学习的计算机视觉19
1.3.1 从ImageNet竞赛到AlphaGo战胜李世石——计算机视觉超越人类19
1.3.2 GPU和并行技术——深度学习和计算视觉发展的加速器21
1.3.3 基于卷积神经网络的计算机视觉应用22
第2章 深度学习和计算机视觉中的基础数学知识27
2.1 线性变换和非线性变换27
2.1.1 线性变换的定义27
2.1.2 高中教科书中的小例子28
2.1.3 点积和投影28
2.1.4 矩阵乘法的几何意义(1)30
2.1.5 本征向量和本征值34
2.1.6 矩阵乘法的几何意义(2)37
2.1.7 奇异值分解38
2.1.8 线性可分性和维度39
2.1.9 非线性变换42
2.2 概率论及相关基础知识43
2.2.1 条件概率和独立43
2.2.2 期望值、方差和协方差44
2.2.3 熵45
2.2.4 最大似然估计(Maximum Likelihood Estimation,MLE)47
2.2.5 KL散度(Kullback–Leibler divergence)49
2.2.6 KL散度和MLE的联系49
2.3 维度的诅咒50
2.3.1 采样和维度50
2.3.2 高维空间中的体积51
2.3.3 高维空间中的距离53
2.3.4 中心极限定理和高维样本距离分布的近似54
2.3.5 数据实际的维度56
2.3.6 局部泛化58
2.3.7 函数对实际维度的影响59
2.3.8 PCA——什么是主成分60
2.3.9 PCA——通过本征向量和本征值求主成分60
2.3.10 PCA——通过主成分分析降维61
2.3.11 PCA——归一化和相关性系数63
2.3.12 PCA——什么样的数据适合PCA64
2.3.13 其他降维手段65
2.4 卷积66
2.4.1 点积和卷积66
2.4.2 一维卷积67
2.4.3 卷积和互相关68
2.4.4 二维卷积和图像响应69
2.4.5 卷积的计算70
2.5 数学优化基础71
2.5.1 最小值和梯度下降72
2.5.2 冲量(Momentum)73
2.5.3 牛顿法75
2.5.4 学习率和自适应步长77
2.5.5 学习率衰减(Learning Rate Decay)78
2.5.6 AdaGrad:每个变量有自己的节奏78
2.5.7 AdaDelta的进一步改进79
2.5.8 其他自适应算法80
2.5.9 损失函数81
2.5.10 分类问题和负对数似然82
2.5.11 逻辑回归83
2.5.12 Softmax:将输出转换为概率84
2.5.13 链式求导法则84
第3章 神经网络和机器学习基础87
3.1 感知机87
3.1.1 基本概念87
3.1.2 感知机和线性二分类87
3.1.3 激活函数88
3.2 神经网络基础89
3.2.1 从感知机到神经网络89
3.2.2 最简单的神经网络二分类例子90
3.2.3 隐层神经元数量的作用93
3.2.4 更加复杂的样本和更复杂的神经网络94
3.3 后向传播算法95
3.3.1 求神经网络参数的梯度95
3.3.2 计算图(Computational Graph)95
3.3.3 利用后向传播算法计算一个神经网络参数的梯度97
3.3.4 梯度消失99
3.3.5 修正线性单元(ReLU)100
3.3.6 梯度爆炸101
3.3.7 梯度检查(gradient check)102
3.3.8 从信息传播的角度看后向传播算法103
3.4 随机梯度下降和批量梯度下降104
3.4.1 全量数据(full-batch)梯度下降104
3.4.2 随机梯度下降(SGD)和小批量数据(mini-batch)104
3.4.3 数据均衡和数据增加(data augmentation)106
3.5 数据、训练策略和规范化108
3.5.1 欠拟合和过拟合108
3.5.2 训练误差和测试误差109
3.5.3 奥卡姆剃刀没有免费午餐111
3.5.4 数据集划分和提前停止112
3.5.5 病态问题和约束113
3.5.6 L2规范化(L2 Regularization)113
3.5.7 L1规范化(L1 Regularization)114
3.5.8 集成(Ensemble)和随机失活(Dropout)115
3.6 监督学习、非监督学习、半监督学习和强化学习117
3.6.1 监督学习、非监督学习和半监督学习117
3.6.2 强化学习(reinforcement learning)118
第4章 深度卷积神经网络120
4.1 卷积神经网络120
4.1.1 基本概念120
4.1.2 卷积层和特征响应图121
4.1.3 参数共享123
4.1.4 稀疏连接124
4.1.5 多通道卷积125
4.1.6 激活函数125
4.1.7 池化、不变性和感受野126
4.1.8 分布式表征(Distributed Representation)128
4.1.9 分布式表征和局部泛化130
4.1.10 分层表达131
4.1.11 卷积神经网络结构131
4.2 LeNet——第一个卷积神经网络132
4.3 新起点——AlexNet133
4.3.1 网络结构133
4.3.2 局部响应归一化(Local Response Normalization,LRN)136
4.4 更深的网络——GoogLeNet136
4.4.1 1×1卷积和Network In Network136
4.4.2 Inception结构138
4.4.3 网络结构138
4.4.4 批规一化(Batch No
展开