信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

本书循序渐进地阐述了多模态大模型的核心开发技术与应用实战的知识。全书共10章，分别讲解了多模态技术概述、多模态模型与框架、多模态数据处理、多模态表示学习、多模态嵌入表示、多模态大模型的训练、多模态大模型的评估与验证、基于多模态大模型的翻译系统、基于多模态大模型的音视频广义零样本学习系统、基于Diffusion Transformer的文生图系统。全书简洁而不失技术深度，内容丰富全面，案例翔实，以通俗易懂的文字介绍了复杂的知识体系，易于阅读，是学习多模态大模型开发的实用教程。本书适用于已经了解了Python语言基础语法，想进一步学习大模型开发、自然语言处理、计算机视觉处理、机器学习、深度学习技术的读者，还可以作为各类院校相关专业师生的学习用书和培训学校的教材。

展开

精彩书评

展开

精彩书摘

展开

第1章多模态技术概述
1.1 多模态技术简介
1.1.1 什么是多模态
1.1.2 多模态技术的发展历史
1.1.3 多模态技术的应用场景
1.2 多模态数据类型
1.2.1 常见的多模态类型
1.2.2 图像数据
1.2.3 文本数据
1.2.4 音频数据
1.2.5 视频数据
1.3 多模态技术的基本原理
1.3.1 数据融合与对齐
1.3.2 多模态表示学习
1.3.3 多模态推理
第2章多模态模型与框架
2.1 常用的深度学习框架
2.1.1 Tensor Flow
2.1.2 PyTorch
2.1.3 Keras
2.1.4 Transformer
2.2 多模态模型技术
2.2.1 ViLBERT模型
2.2.2 VisualBERT模型
2.2.3 OpenAI CLIP模型
2.2.4 UNITER模型
2.2.5 LXMERT模型
2.2.6 SigLIP模型
2.2.7 LoRA微调技术
2.2.8 LLaVA模型
2.3 预训练模型
2.3.1 预训练模型简介
2.3.2 使用预训练模型
2.3.3 预训练模型的微调
第3章多模态数据处理
3.1 数据预处理
3.1.1 文本预处理
3.1.2 图像预处理
3.1.3 音频预处理
3.1.4 视频预处理
3.2 数据增强
3.2.1 文本数据增强
3.2.2 图像数据增强
3.2.3 音频数据增强
3.2.4 视频数据增强
3.3 特征提取
3.3.1 特征在大模型中的关键作用
3.3.2 文本特征提取
3.3.3 图像特征提取
3.3.4 音频特征提取
3.3.5 视频特征提取
第4章多模态表示学习
4.1 多模态表示学习介绍
4.1.1 多模态表示学习简介
4.1.2 多模态表示学习的主要方法
4.2 多模态表示学习方法
4.2.1 表示融合
4.2.2 联合学习
4.2.3 表示对齐
4.2.4 模态间关系建模
4.3 基于S3D MIL-NCE的多模态文本到视频检索
4.3.1 项目介绍
4.3.2 准备工作
4.3.3 视频加载和可视化
4.3.4 加载视频并定义文本查询
4.3.5 预处理视频和查询
4.3.6 展示结果
第5章多模态嵌入模式
5.1 多模态嵌入基础
5.1.1 多模态嵌入介绍
5.1.2 多模态嵌入的应用
5.2 图像嵌入
5.2.1 图像嵌入介绍
5.2.2 图像特征提取
5.2.3 模态对齐
5.2.4 CLIP模型
5.3 文本嵌入
5.3.1 多模态模型中的文本嵌入
5.3.2 基于CLIP模型的文本嵌入
5.4 音频嵌入
5.4.1 音频特征提取
5.4.2 常用音频嵌入模型
5.5 多模态图像搜索引擎
5.5.1 项目介绍
5.5.2 CLIP模型的配置参数
5.5.3 数据集处理
5.5.4 实现Bangla CLIP模型
5.5.5 基于文本的图像搜索
5.5.6 基于Streamlit的Web客户端
第6章多模态大模型的训练
6.1 模型训练的过程
6.2 训练策略
6.2.1 预训练与微调
6.2.2 多任务学习
6.2.3 全量微调
6.2.4 对比学习
6.2.5 参数高效微调
6.2.6 迁移学习
6.2.7 人类反馈强化学习
6.2.8 动态学习率调整
6.2.9 SFT微调
6.3 CLIP模型训练与微调
6.3.1 项目介绍
6.3.2 创建文本和图像配对数据集
6.3.3 构建多模态模型
6.3.4 训练模型
6.3.5 模型微调
6.3.6 调试运
第7章多模态大模型的评估与验证
7.1 模型评估
7.1.1 模型评估的必要性
7.1.2 评估指标
7.1.3 单模态性能评估
7.1.4 多模态融合性能评估
7.1.5 效率与资源使用
7.1.6 定性评估和复杂场景评估
7.1.7 语音命令识别系统
7.2 模型验证
7.2.1 模型验证的必要性
7.2.2 数据准备和分割
7.2.3 交叉验证
7.2.4 嵌套交叉验证
7.2.5 模态间一致性验证
7.2.6 模型鲁棒性验证
7.2.7 验证指标
7.3 多模态大模型评估基准
7.3.1 MM-Vet
7.3.2 MMEvalPro
7.3.3 MMT-Bench
7.4 CLIP模型的增强训练与评估
7.4.1 项目介绍
7.4.2 定义数据集
7.4.3 创建模型
7.4.4 分词器
7.4.5 损失函数
7.4.6 模型训练
7.4.7 模型评估
7.4.8 文本重写
第8章基于多模态大模型的翻译系统
8.1 背景介绍
8.2 系统分析
8.2.1 系统需求分析
8.2.2 技术架构分析
8.2.3 项目介绍
8.3 准备数据集
8.3.1 Multi30k数据集介绍
8.3.2 下载Multi30k数据集
8.3.3 下载WIT数据集中的图像数据
8.4 数据集处理
8.4.1 PyTorch数据集类
8.4.2 数据处理和后处理
8.4.3 数据集填充
8.4.4 获取Multi30k数据集的数据
8.4.5 获取WIT数据集的数据
8.4.6 获取WMT数据集的文本数据
8.5 多模态大模型
8.5.1 功能函数
8.5.2 适配器模型
8.5.3 获取文本输入的嵌入表

展开