信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

本书使用PyTorch 2.0作为语音识别的基本框架，循序渐进地引导读者从搭建环境开始，逐步深入到语音识别基本理论、算法以及应用实践，是较好的一本语音识別技术图书。本书配套示例源码、数据集、PPT课件等资源。本书分为13章，内容包括语音识别之路、PyTorch 2.0深度学习环境搭建、音频信号处理的理论与Python实战、音频处理常用工具包Librosa详解与实战、基于DNN的语音情绪分类识别、一学就会的深度学习基础算法、基于PyTorch卷积层的语音情绪分类识别、词映射与循环神经网络、基于Whisper的语音转换实战、注意力机制与注意力模型详解、鸟叫的多标签分类实战、多模态语音转换模型基础、GLM架构多模态语音文字转换实战。本书内容详尽、示例丰富，适合作为语音识别初学者、深度学习初学者、语音识别技术人员的必备参考书，同时也非常适合作为高等院校或高职高专深度学习、语音识别等课程的教材。

展开

精彩书评

展开

精彩书摘

展开

第1章语音识别之路
1.1 何谓语音识别
1.2 语音识别为什么那么难
1.3 语音识别之路语音识别的发展历程
1.3.1 高斯混合-隐马尔科夫时代
1.3.2 深度神经网络-隐马尔科夫时代
1.3.3 基于深度学习的端到端语音识别时代
1.3.4 多模态架构的语音识别与转换
1.4 基于深度学习的语音识别的未来
1.5 本章小结
第2章 PyTorch 2.0深度学习环境搭建
2.1 环境搭建1：安装Python
2.1.1 Miniconda的下载与安装
2.1.2 PyCharm的下载与安装
2.1.3 Python代码小练习：计算softmax函数
2.2 环境搭建2：安装PyTorch 2.0
2.2.1 Nvidia 10/20/30/40系列显卡选择的GPU版本
2.2.2 PyTorch 2.0 GPU Nvidia运行库的安装
2.2.3 PyTorch 2.0小练习：Hello PyTorch
2.3 实战：基于特征词的语音唤醒
2.3.1 数据的准备
2.3.2 数据的处理
2.3.3 模型的设计
2.3.4 模型的数据输入方法
2.3.5 模型的训练
2.3.6 模型的结果和展示
2.4 本章小结
第3章音频信号处理的理论与Python实战
3.1 音频信号的基本理论详解
3.1.1 音频信号的基本理论
3.1.2 音频信号的时域与频域
3.2 傅里叶变换详解
3.2.1 傅里叶级数
3.2.2 连续到离散的计算
3.2.3 Python中的傅里叶变换实战
3.3 快速傅里叶变换与短时傅里叶变换
3.3.1 快速傅里叶变换Python实战
3.3.2 短时傅里叶变换Python实战
3.4 梅尔频率倒谱系数Python实战
3.4.1 梅尔频率倒谱系数的计算过程
3.4.2 梅尔频率倒谱系数的Python实现
3.5 本章小结
第4章音频处理工具包Librosa详解与实战
4.1 音频特征提取Librosa包基础使用
4.1.1 基于Librosa的音频信号读取
4.1.2 基于Librosa的音频多种特征提取
4.1.3 其他基于Librosa的音频特征提取工具
……
第5章基于深度神经网络的语音情绪分类识别
第6章一学就会的深度学习基础算法
第7章基于PyTorch卷积层的语音情绪分类识别
第8章词映射与循环神经网络
第9章基于Whisper的语音转换实战
第10章注意力机制
第11章鸟叫的多标签分类实战
第12章多模态语音转换模型基础
第13章 GLM架构多模态语音文字转换实战

展开