本书将以中文首次全面介绍基于深度学习的鲁棒语音处理的发展,具体包括语音检测、单通道语音增强、多通道语音增强、语音分离、鲁棒声纹识别与鲁棒语音识别。
语音降噪处理是信号处理的重要分支领域。近年来,该领域在人工智能与深度学习技术的驱动下取得了突破性进展。
《复杂环境下语音信号处理的深度学习方法》系统总结语音降噪处理的深度学习方法,尽可能涵盖该方法的前沿进展。全书共分8章。第1章是绪论;第2章介绍深度学习的基础知识和常见的深度网络模型;第3~6章集中介绍基于深度学习的语音降噪处理前端算法,其中,第3章介绍语音检测,第4章介绍单通道语音增强,第5章介绍多通道语音增强,第6章介绍多说话人语音分离;第7章和第8章分别介绍基于深度学习的语音降噪处理在声纹识别和语音识别方面的应用,其中着重介绍基于深度学习的现代声纹识别、语音识别基础和前沿进展。
《复杂环境下语音信号处理的深度学习方法》专业性较强,主要面向具备一定语音信号处理和机器学习基础、致力于从事智能语音处理相关工作的高年级本科生、研究生和专业技术人员。
第1章 绪论
第2章 深度学习基础
2.1 有监督学习
2.2 单层神经网络
2.2.1 基本模型
2.2.2 激活函数
2.3 前馈深度神经网络
2.3.1 反向传播算法
2.3.2 正则化
2.4 循环神经网络
2.4.1 循环神经网络基础
2.4.2 长短时记忆网络
2.4.3 门控循环神经网络
2.4.4 深层RNN结构
2.4.5 序列数据的RNN建模框架
2.5 卷积神经网络
2.5.1 卷积神经网络基础
2.5.2 其他卷积形式
2.5.3 残差神经网络
2.5.4 时序卷积网络
2.6 神经网络中的归-化
2.6.1 批归-化
2.6.2 层归-化
2.7 神经网络中的注意力机制
2.7.1 编码器-解码器框架
2.7.2 编码器,注意力机制一解码器框架
2.7.3 单调注意力机制
2.7.4 Transformer
2.8 生成对抗网络
2.8.1 基本结构
2.8.2 模型训练
2.9 本章小结
第3章 语音检测
3.1 引言
3.2 基本知识
3.2.1 信号模型
3.2.2 评价指标
3.3 语音检测模型
3.3.1 语音检测模型的基本框架
3.3.2 基于深度置信网络的语音检测
3.3.3 基于降噪深度神经网络的语音检测
3.3.4 基于多分辨率堆栈的语音检测模型框架
3.4 语音检测模型的损失函数
3.4.1 最小化交叉熵
3.4.2 最小均方误差
3.4.3 最大化ROC曲线下面积
3.5 语音检测的声学特征
3.5.1 短时傅里叶变换的频带选择
3.5.2 多分辨率类耳蜗频谱特征
3.6 模型的泛化能力
3.7 本章小结
第4章 单通道语音增强
4.1 引言
4.2 基本知识
4.2.1 信号模型
4.2.2 评价指标
4.3 频域语音增强
……
第5章 多通道语音增强
第6章 多说话人语音分离
第7章 声纹识别
第8章 语音识别
参考文献