搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
CUDA并行编程实战/高性能计算技术丛书
0.00     定价 ¥ 139.00
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购25本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787111764632
  • 作      者:
    作者:(英)理查德·安索奇|责编:刘锋//章承林|译者:顾海燕
  • 出 版 社 :
    机械工业出版社
  • 出版日期:
    2024-11-01
收藏
畅销推荐
内容介绍
本书是一本深入浅出的CUDA编程实践指南。由CUDA编程领域的资深专家撰写,主要介绍使用C++对NVIDIAGPU进行编程,覆盖了GPU内核与硬件、并行思维与编程、warp和协作组、并行模板、纹理、蒙特卡罗应用等内容,旨在帮助读者快速掌握CUDA编程的核心技能。书中详细介绍了CUDA的基本概念、架构和编程模型,并通过丰富的实战案例和详细解析,指导读者如何编写、优化和调试CUDA程序。本书注重理论与实践相结合,旨在培养读者解决实际问题的能力。无论读者是初学者还是有一定经验的开发者,都能从本书中获益。掌握CUDA编程技能将为读者的职业发展增添重要竞争力,助力读者在科学研究、工程开发、数据分析等领域中脱颖而出。
展开
目录
译者序
前言
第1章 GPU内核与硬件介绍
1.1 背景
1.2 第一个CUDA示例
1.3 CPU架构
1.4 CPU的计算能力
1.5 CPU内存管理:利用缓存隐藏延迟
1.6 CPU:并行指令集
1.7 GPU架构
1.7.1 回顾历史
1.7.2 NVIDIA的GPU型号
1.8 Pascal架构
1.9 GPU内存类型
1.10 warp和wave
1.11 线程块与网格
1.12 占用率
第1章 尾注
第2章 并行思维与编程
2.1 Flynn分类法
2.2 内核函数调用语法
2.3 启动三维内核函数
2.4 延迟隐藏和占用率
2.5 并行模式
2.6 并行归约
2.7 共享内存
2.8 矩阵乘法
2.9 分块矩阵乘法
2.10 BLAS
第2章 尾注
第3章 warp和协作组
3.1 协作组中的CUDA对象
3.2 分块分区
3.3 向量加载
3.4 warp级内部函数和子warp
3.5 线程分歧和同步
3.6 避免死锁
3.7 协同组
3.8 HPC特性
第3章 尾注
第4章 并行模板
4.1 二维模板
4.2 二维模板的级联计算
4.3 三维模板
4.4 数字图像处理
4.5 Sobel滤波器
4.6 中值滤波器
第4章 尾注
第5章 纹理
5.1 图像插值
5.2 GPU纹理
5.3 图像旋转
5.4 lerp函数
5.5 纹理硬件
5.6 彩色图像
5.7 图像查看
5.8 立体图像的仿射变换
5.9 三维图像配准
5.10 图像配准结果
第5章 尾注
第6章 蒙特卡罗应用
6.1 简介
6.2 cuRAND库
6.2.1 cuRAND的主机API
6.2.2 cuRAND的设备API
6.3 生成其他分布
6.4 伊辛模型
第6章 尾注
第7章 使用CUDA流和事件的
 并发
7.1 并发内核函数执行
7.2 CUDA管道示例
7.3 thrust与cudaDeviceReset
7.4 管道示例的结果
7.5 CUDA事件
7.6 磁盘的开销
7.7 CUDA图
第7章 尾注
第8章 PET扫描仪的应用
8.1 PET简介
8.2 数据存储和扫描仪的几何结构
 的定义
8.3 模拟PET扫描仪
8.4 建立系统矩阵
8.5 PET重建
8.6 结果
8.7 OSEM的实现
8.8 交互作用的深度
8.9 使用交互作用的深度的PET
 结果
8.10 块探测器
8.11 Richardson-Lucy图像去模糊
第8章 尾注
第9章 扩展
9.1 GPU的选型
9.2 CUDA统一虚拟寻址
9.3 CUDA的P2P访问
9.4 CUDA零拷贝内存
9.5 统一内存
9.6 MPI的简要介绍
第9章 尾注
第10章 性能分析和调试工具
10.1 gpulog示例
10.2 使用nvprof进行分析
10.3 用NVIDIA Visual Profiler进行
 分析
10.4 Nsight Systems
10.5 Nsight Compute
10.6 Nsight Compute部分
10.6.1 GPU光速
10.6.2 计算工作负载分析
10.6.3 内存工作负载分析
10.6.4 调度器统计信息
10.6.5 warp状态统计
10.6.6 指令统计信息
10.6.7 启动统计信息
10.6.8 占用率
10.6.9 源计数器
10.7 使用printf进行调试
10.8 通过Microsoft Visual Studio
 进行调试
10.9 调试内核函数代码
10.10 内存检查
10.10.1 cuda-memcheck
10.10.2 Linux工具
10.10.3 CUDA计算过滤器
第10章 尾注
第11章 张量核心
11.1 张量核心与FP
11.2 warp矩阵函数
11.3 支持的数据类型
11.4 张量核心的归约算法
11.5 结论
第11章 尾注
附录
附录 A CUDA简史
附录 B 原子操作
附录 C NVCC编译器
附录 D AVX与Intel编译器
附录 E 数字格式
附录 F CUDA文档和库
附录 G CX头文件
附录 H AI和Python
附录 I C++的主题
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证