本书系统地介绍大语言模型(LLM)的理论基础、实现方法及在多种场景中的应用实践。共分为12章,第1-3章介绍Transformer模型的基本架构与核心概念,包括编解码器的结构、自注意力机制、多头注意力的设计和工作原理;第4-6章结合实际案例,讲解如何利用PyTorch和hugging Face库构建、训练和微调LLM;第7-9章介绍生成模型的推理和优化技术,包括量化、剪枝、多GPU并行处理、混合精度训练等,以提高模型在大规模数据集上的训练和推理效率;第10、11章通过实例讲解Transformer在实际NLP任务中的应用以及模型可解释性技术;第12章通过一个企业级文本分析平台项目的搭建,介绍从数据预处理、文本生成、高级分析到容器化与云端部署的完整流程,并提供了代码示例、模块化测试和性能评估方法,帮助读者实际构建满足企业需求的智能应用系统。
本书覆盖了当前广泛关注的LLM技术热点,并提供了丰富的实例代码,适合大模型开发人员、大模型应用工程师、算法工程师以及计算机专业的学生,亦可作为高校人工智能课程的相关教学用书。
展开