搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
大模型算法(强化学习微调与对齐)/通用智能与大模型丛书
0.00     定价 ¥ 109.00
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购15本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787121500725
  • 作      者:
    作者:余昌叶|责编:郑柳洁
  • 出 版 社 :
    电子工业出版社
  • 出版日期:
    2025-04-01
收藏
畅销推荐
内容介绍
本书系统地讲解了大模型技术、训练算法(包括强化学习、RLHF、DPO、SFT 与蒸馏等)、效果优化及其实践。全书以大语言模型为核心,内容广泛且深入,绝大部分内容适用于视觉语言模型和多模态大语言模型。 本书适合AI 算法与工程领域的从业者,相关专业的学生,希望深入了解大模型技术、拥抱AI 与大模型浪潮的读者阅读。
展开
目录
第1章 大模型原理与技术概要
1.1 图解大模型结构
1.1.1 大语言模型(LLM)结构全景图
1.1.2 输入层:分词、Token映射与向量生成
1.1.3 输出层:Logits、概率分布与解码
1.1.4 多模态语言模型(MLLM、VLM)
1.2 大模型训练全景图
1.3 Scaling Law(性能的四大扩展规律)
第2章 SFT(监督微调)
2.1 多种微调技术图解
2.1.1 全参数微调、部分参数微调
2.1.2 LoRA(低秩适配微调)——四两拨千斤
2.1.3 LoRA衍生:QLoRA、AdaLoRA、PiSSA等
2.1.4 基于提示的微调:Prefix-Tuning等
2.1.5 Adapter Tuning
2.1.6 微调技术对比
2.1.7 如何选择微调技术
2.2 SFT原理深入解析
2.2.1 SFT数据与ChatML格式化
2.2.2 Logits与Token概率计算
2.2.3 SFT的Label
2.2.4 SFT的Loss图解
2.2.5 对数概率(LogProbs)与LogSoftmax
2.3 指令收集和处理
2.3.1 收集指令的渠道和方法
2.3.2 清洗指令的四要素
2.3.3 数据预处理及常用工具
2.4 SFT实践指南
2.4.1 如何缓解SFT引入的幻觉?
2.4.2 Token级Batch Size的换算
2.4.3 Batch Size与学习率的Scaling Law
2.4.4 SFT的七个技巧
第3章 DPO(直接偏好优化)
3.1 DPO的核心思想
3.1.1 DPO的提出背景与意义
3.1.2 隐式的奖励模型
3.1.3 Loss和优化目标
3.2 偏好数据集的构建
3.2.1 构建流程总览
3.2.2 Prompt的收集
3.2.3 问答数据对的清洗
3.2.4 封装和预处理
3.3 图解DPO的实现与训练
3.3.1 模型的初始化
3.3.2 DPO训练全景图
3.3.3 DPO核心代码的提炼和解读
3.4 DPO实践经验
3.4.1 β参数如何调节
3.4.2 DPO对模型能力的多维度影响
3.5 DPO进阶
3.5.1 DPO和RLHF(PPO)的对比
3.5.2 理解DPO的梯度
第4章 免训练的效果优化技术
4.1 提示工程
4.1.1 Zero-Shot、One-Shot、Few-Shot
4.1.2 Prompt设计的原则
4.2 CoT(思维链)
4.2.1 CoT原理图解
4.2.2 ToT、GoT、XoT等衍生方法
4.2.3 CoT的应用技巧
4.2.4 CoT在多模态领域的应用
4.3 生成控制和解码策略
4.3.1 解码的原理与分类
4.3.2 贪婪搜索
4.3.3 Beam Search(波束搜索):图解、衍生
4.3.4 Top-K、Top-P等采样方法图解
4.3.5 其他解码策略
4.3.6 多种生成控制参数
4.4 RAG(检索增强生成)
4.4.1 RAG技术全景图
4.4.2 RAG相关框架
4.5 功能与工具调用(Function Calling)
4.5.1 功能调用全景图
4.5.2 功能调用的分类
第5章 强化学习基础
5.1 强化学习核心
5.1.1 强化学习:定义与区分
5.1.2 强化学习的基础架构、核心概念
5.1.3 马尔可夫决策过程(MDP)
5.1.4 探索与利用、ε-贪婪策略
5.1.5 On-policy和Off-policy
5.1.6 在线/离线强化学习(Online/Offline RL)
5.1.7 强化学习分类图
5.2 价值函数、回报预估
5.2.1 奖励、回报、折扣因子(R、G、γ)
5.2.2 反向计算回报
5.2.3 四种价值函数:Qπ、Vπ、V*、Q*
5.2.4 奖励、回报、价值的区别
5.2.5 贝尔曼方程——强化学习的基石
5.2.6 Q和V的转换关系、转换图
5.2.7 蒙特卡洛方法(MC)
5.3 时序差分(TD)
5.3.1 时序差分方法
5.3.2 TD-Target和TD-Error
5.3.3 TD(λ)、多步TD
5.3.4 蒙特卡洛、TD、DP、穷举搜索的区别
5.4 基于价值的算法
5.4.1 Q-learning算法
5.4.2 DQN
5.4.3 DQN的Loss、训练过程
5.4.4 DDQN、Dueling DQN等衍生算法
5.5 策略梯度算法
5.5.1 策略梯度(Policy Gradient)
5.5.2 策略梯度定理
5.5.3 REINFORCE和Actor-Critic
5.6 多智能体强化学习(MARL)
5.6.1 MARL的原理与架构
5.6.2 MARL的建模
5.6.3 MARL的典型算法
5.7 模仿学习(IL)
5.7.1 模仿学习的定义、分类
5.7.2 行为克隆(BC)
5.7.3 逆向强化学习(IRL)
5.7.4 生成对抗模仿学习(GAIL)
5.8 强化学习高级拓展
5.8.1 基于环境模型(Model-Based)的方法
5.8.2 分层强化学习(HRL)
5.8.3 分布价值强化学习(Distributional RL)
第6章 策略优化算法
6.1 Actor-Critic(演员-评委)架构
6.1.1 从策略梯度到Actor-Critic
6.1.2 Actor-Critic架构图解
6.2 优势函数与A2C
6.2.1 优势函数(Advantage)
6.2.2 A2C、A3C、SAC算法
6.2.3 GAE(广义优势估计)算法
6.2.4 γ和λ的调节作用
6.3 PPO及其相关算法
6.3.1 PPO算法的演进
6.
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证