搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
人工智能硬件加速器设计(人工智能与智能系统)/经典译丛
0.00     定价 ¥ 89.00
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购15本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787121494758
  • 作      者:
    作者:(美)刘峻诚//罗明健|责编:杨博|译者:王立宁//薛志光//刘晖//何俞勇
  • 出 版 社 :
    电子工业出版社
  • 出版日期:
    2025-01-01
收藏
畅销推荐
内容介绍
本书聚焦人工智能处理器硬件设计的算力瓶颈问题,介绍了神经网络处理内核电路与系统的设计目标、优化技术、评价方式,以及应用领域。全书共9章,以人工智能硬件芯片组织架构的核心处理单位“卷积神经网络”在系统架构层面的算力性能提升为目标,在回顾了CPU、GPU和NPU等深度学习硬件处理器的基础上,重点介绍主流的人工智能处理器的各种架构优化技术,包括并行计算、流图理论、加速器设计、混合内存与存内计算、稀疏网络管理,以及三维封装处理技术,以业界公认的测试集与方法为依据,展现不同架构设计的处理器在功耗、性能及成本指标等方面不同程度的提升,深入探讨优化整体硬件的各种方法。 本书适合从事人工智能研究或开发的系统架构工程师、硬件/软件工程师、固件程序开发工程师阅读,也适合计算机、电子信息等相关工科专业的研究生参考。
展开
目录
第1章 人工智能技术简介
1.1 发展简史
1.2 神经网络模型
1.3 神经网络分类
1.3.1 监督学习
1.3.2 半监督学习
1.3.3 无监督学习
1.4 神经网络框架
1.5 神经网络的比较
思考题
原著参考文献
第2章 深度学习加速器的设计
2.1 神经网络的网络层
2.1.1 卷积层
2.1.2 激活层
2.1.3 池化层
2.1.4 批量归一化层
2.1.5 丢弃层
2.1.6 全连接层
2.2 设计深度学习加速器所面临的挑战
思考题
原著参考文献
第3章 人工智能硬件加速器的并行结构
3.1 英特尔中央处理器(CPU)
3.1.1 天湖网状架构
3.1.2 英特尔超路径互连(UPI)
3.1.3 子非统一内存访问集群(SNC)
3.1.4 缓存架构的调整
3.1.5 单/多插槽并行处理
3.1.6 高级矢量软件扩展
3.1.7 深度神经网络的数学内核库(MKL-DNN)
3.2 英伟达图形处理器(GPU)
3.2.1 张量计算核心架构
3.2.2 维诺格拉德变换
3.2.3 同步多线程(SMT)
3.2.4 第二代高带宽内存(HBM2)
3.2.5 NVLink2配置
3.3 英伟达深度学习加速器(NVDLA)
3.3.1 卷积运算
3.3.2 单点数据运算
3.3.3 平面数据运算
3.3.4 多平面运算
3.3.5 数据存储和重塑操作
3.3.6 系统配置
3.3.7 外部接口
3.3.8 软件设计
3.4 谷歌张量处理器(TPU)
3.4.1 系统架构
3.4.2 乘法-累加(MAC)脉冲阵列
3.4.3 新的大脑浮点格式
3.4.4 性能比较
3.4.5 云TPU配置
3.4.6 云软件架构
3.5 微软弹射器结构加速器(NPU)
3.5.1 系统配置
3.5.2 弹射器架构
3.5.3 矩阵-向量乘法器
3.5.4 分层解码与调度(硬盘)
3.5.5 稀疏矩阵-向量乘法
思考题
原著参考文献
第4章 基于流图理论的加速器设计
4.1 Blaize流图处理器
4.1.1 流图模型
4.1.2 深度优先调度方法
4.1.3 流图处理器架构
4.2 Graphcore智能处理器
4.2.1 智能处理器(IPU)架构
4.2.2 累加矩阵积(AMP)单元
4.2.3 内存架构
4.2.4 互连架构
4.2.5 批量同步并行模型
思考题
原著参考文献
第5章 加速器的卷积计算优化
5.1 深度学习加速器——以DCNN加速器为例
5.1.1 系统架构
5.1.2 滤波器分解
5.1.3 流处理架构
5.1.4 池化
5.1.5 卷积单元(CU)引擎
5.1.6 累加(ACCU)缓冲区
5.1.7 模型压缩
5.1.8 系统性能
5.2 Eyeriss加速器
5.2.1 Eyeriss系统架构
5.2.2 二维卷积运算到一维乘法运算的转换
5.2.3 数据流固定(SD)
5.2.4 行固定(RS)数据流
5.2.5 游程长度压缩(RLC)算法
5.2.6 全局缓冲区(GLB)
5.2.7 Eyeriss PE架构
5.2.8 片上网络(NoC)
5.2.9 Eyeriss v2系统架构
5.2.10 分层网状网
5.2.11 压缩稀疏列格式
5.2.12 行固定加(RS+)数据流
5.2.13 系统性能
思考题
原著参考文献
第6章 存内计算
6.1 Neurocube加速器
6.1.1 混合内存立方体(HMC)
6.1.2 以内存为中心的神经计算
6.1.3 可编程神经序列发生器
6.1.4 系统性能
6.2 Tetris加速器
6.2.1 内存层次结构
6.2.2 存内累加
6.2.3 数据调度
6.2.4 神经网络的vault分区
6.2.5 系统性能
6.3 NeuroStream加速器
6.3.1 系统架构
6.3.2 NeuroStream协处理器
6.3.3 四维分块的机制
6.3.4 系统性能
思考题
原著参考文献
第7章 近内存体系架构
7.1 DaDianNao超级计算机
7.1.1 内存配置
7.1.2 神经功能单元
7.1.3 系统性能
7.2 Cnvlutin加速器
7.2.1 基本卷积运算
7.2.2 系统架构
7.2.3 处理顺序
7.2.4 无零神经元阵列格式(ZFNAf)
7.2.5 调度器
7.2.6 动态修剪
7.2.7 系统性能
7.2.8 原生或编码(RoE)格式
7.2.9 矢量无效激活标识符(VIAI)格式
7.2.10 跳过无效激活
7.2.11 跳过无效权重
思考题
原著参考文献
第8章 加速器的网络稀疏性
8.1 能效推理引擎(EIE)加速器
8.1.1 前导非零检测(LNZD)网络
8.1.2 中央控制单元(CCU)
8.1.3 处理元件(PE)
8.1.4 深度压缩
8.1.5 稀疏矩阵计算
8.1.6 系统性能
8.2 寒武纪X加速器
8.2.1 计算单元
8.2.2 缓冲区控制器
8.2.3 系统性能
8.3 稀疏卷积神经网络(SCNN)加速器
8.3.1 SCNN加速器的PT-IS-CP-密集数据流
8.3.2 SCNN加速器的PT-IS-CP-稀疏数据流
8.3.3 SCNN加速器的分块架构
8.3.4 SCNN加速器
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证