信阅平台

编辑推荐

● 国内首部揭秘AI安全【前沿技术】图书，【腾讯安全朱雀实验室】首著。

● 前沿【攻击方法和原理】分析，原汁原味【实战案例】呈现。

● 全书涵盖6大主题14个实战案例，包括对抗样本攻击、数据投毒攻击、模型后门攻击、预训练模型安全、AI数据隐私窃取、AI应用失控风险等。

● 附赠全书实战代码，作者在线答疑等增值服务。

● 全彩极致印刷，最佳视觉体验。

展开

作者简介

腾讯安全朱雀实验室专注于AI安全技术研究及应用，围绕对抗机器学习、AI模型安全、深伪检测等方面取得了一系列研究成果，议题入选CVPR、ICLR、CanSecWest、HITB、POC、XCon等国内外顶级会议，面向行业发布了业内第一个AI安全威胁风险矩阵，持续聚焦AI在产业应用的安全问题，助力AI安全技术创新。

展开

内容介绍

本书首先介绍AI与AI安全的发展起源、世界主要经济体的AI发展战略规划，给出AI安全技术发展脉络和框架，并从AI安全实战出发，重点围绕对抗样本、数据投毒、模型后门等攻击技术进行案例剖析和技术讲解；然后对预训练模型中的风险和防御、AI数据隐私窃取攻击技术、AI应用失控的风险和防御进行详细分析，并佐以实战案例和数据；最后对AI安全的未来发展进行展望，探讨AI安全的风险、机遇、发展理念和产业构想。本书适合AI和AI安全领域的研究人员、管理人员，以及需要实战案例辅助学习的广大爱好者阅读。

展开

精彩书摘

● 第3章数据投毒攻击●

近些年，随着深度学习技术进一步发展与应用，深度学习模型的脆弱性被众多领域专业人员发现并指出。对抗样本相关技术即体现模型脆弱性一个十分重要的方面。不同于对抗样本攻击，数据投毒攻击是另一种通过污染模型训练阶段数据来实现攻击目的的手段，其利用深度学习模型数据驱动（Data-driven）的训练机制，通过构造特定的样本数据影响模型训练，从而实现部分控制模型表现的能力。考虑到众多AI 产品都存在广泛的数据收集入口，因此数据投毒攻击同样为深度学习模型在工业产品中的应用带来了巨大的隐患。

本章首先对数据投毒攻击原理进行介绍，然后对其技术发展进行较为系统的总结，最后通过在图像分类和异常检测任务中进行的投毒实战案例帮助大家进一步理解数据投毒攻击的潜在影响与危害。

很早之前人们就已经发现了数据的魅力，很多成功的工业产品都使用基于数据分析获得的专家经验策略或基于数据训练的算法系统来为人们提供更好的服务，其中数据起着十分核心的作用。例如，20世纪90年代在美国超市中发生的“啤酒与尿布”的故事。超市管理人员在进行数据分析时发现，“啤酒”与“尿布”两个看似毫不相关的产品总是会出现在不同人的同一笔订单中。后续调查发现，美国有孩子的家庭往往是年轻父亲出门购买孩子用品的，而在购买“尿布”的同时，他们往往会为自己购买一些“啤酒”。基于这个发现，超市尝试将“啤酒”与“尿布”安排在较近的位置，从而为用户提供了更好的购物体验，也提升了超市销售量。类似地，在异常检测领域，有专家通过对数据进行分析，设计不同规则（或算法）来辅助异常检测。

近些年，随着深度学习技术的发展，深度学习模型对不同对象，包括图像、文本等，都有了更强的学习表达能力。基于大量数据，我们可以训练更好的模型为人们生活提供更加智能的服务。这类基于数据进行经验总结或模型学习的方法被统称为数据驱动的方法。基于海量的数据，虽然开发者可以使用数据分析或深度学习技术构建众多高价值的应用，但数据驱动的机制同时为它们埋下了巨大的安全隐患，尤其对于深度学习模型，复杂与不可解释的网络结构使得深度学习模型很容易受到投毒数据攻击的影响，产生无意义或有针对性的结果。这里以图3.1 中展示的4 个场景为例，分别给出不同场景下的数据投毒攻击示例，来帮助读者理解数据投毒攻击的影响与危害。

电商平台中往往存在海量商品，快速展示用户感兴趣并与搜索目标匹配的商品是提升用户好感度、提升平台竞争力的关键。为了实现上述目标，以平台用户历史行为记录数据为基础，研究人员提出了许多不同思想的推荐算法来匹配用户的个人偏好与兴趣。在信息爆炸的今天，这些算法起着越来越重要的作用。然而这类电商平台，早在20世纪末其产业化的初始阶段，就饱受数据投毒攻击的困扰。

电商领域黑产人员通过“猫池”“雇人刷单”等形式在平台低成本地批量产生虚假数据，影响平台推荐算法的结果。近些年，基于深度学习发展出了更多优秀的推荐算法，可以为平台提供更精准的推荐服务，但同时因为深度学习模型的脆弱性，平台面临着更严重的数据投毒威胁。异常检测同样依赖历史数据进行数据分析或模型构建来实现对样本的区别与分类，包括虚假新闻检测、垃圾邮件检测等。典型的方法包括但不限于基于规则的标签传播方法、基于神经网络的方法等，这类方法同样面临数据投毒攻击的危险。以垃圾邮件检测为例，攻击者构造部分垃圾邮件并通过邮件服务商开放入口将部分垃圾邮件标注为正常，从而影响垃圾邮件检测模型的训练过程，使模型预测结果发生偏移。在后续的服务中，躲避检测的垃圾邮件就可以成功进入其他用户的收件箱。

图像领域以CNN为基础，发展出了很多不同的经典网络结构，包括AlexNet、VGGNet、GoogleNet、ResNet等。AlexNet在2012年的ImageNet 图像分类比赛中刷新了识别率，是第一个真正意义上的深度学习网络，其提出的卷积和池化堆叠的网络结构获得了当时最优的效果。然而对于这类复杂的深度学习模型，研究人员提出通过在模型训练中注入一些特定的污染数据样本，可以很容易地实现一些预定义的攻击目标。以人脸识别场景为例，通过特定的数据样本注入可以实现“人脸隐蔽”“人员误判”等。“人脸隐蔽”即躲避人脸识别系统检测，使目标人员在检测系统中消失。“人员误判”即人脸识别系统将目标人员识别为预先指定的某位人员。这些“漏洞”为图像领域中深度学习模型的应用埋下了巨大的安全隐患，外部攻击者可能会通过此类“漏洞”成功进入有人脸识别安防系统的重要场地。

人机对话系统（自然语言处理子任务）得益于RNN 与注意力机制等深度学习技术的发展，近些年性能得到了很大的提升，在智能客服、智能家居等不同场景中得到了十分广泛的应用。基于深度学习，人机对话系统可以轻松学习并抽取高层次的语言特征。针对这类系统，有攻击者尝试通过数据投毒攻击影响对话效果。例如，攻击者通过数据投毒攻击使得人机对话系统在服务时，面对不同用户的不同问题全部回答“不知道”；更有针对性地，攻击者通过数据投毒攻击可以实现令人机对话系统主动返回一些“种族歧视”言论的效果。这会使得人机对话系统的服务质量严重下降，同时可能会造成十分不好的社会影响。

总的来说，数据投毒攻击是一种通过控制模型训练数据来主动创造模型漏洞的技术。深度学习技术复杂且难以解释，在带来性能提升的同时，其数据驱动的训练机制为不同领域产品埋下了巨大的安全隐患，一旦被有心者利用，可能会产生巨大的经济损失与社会影响。

展开

●第1章 AI安全发展概述●

1.1 AI与安全衍生

1.1.1 AI发展图谱

1.1.2 各国AI发展战略

1.1.3 AI行业标准

1.1.4 AI安全的衍生本质——科林格里奇困境

1.2 AI安全技术发展脉络

●第2章对抗样本攻击●

2.1 对抗样本攻击的基本原理

2.1.1 形式化定义与理解

2.1.2 对抗样本攻击的分类

2.1.3 对抗样本攻击的常见衡量指标

2.2 对抗样本攻击技巧与攻击思路

2.2.1 白盒攻击算法

2.2.2 黑盒攻击算法

2.3 实战案例：语音、图像、文本识别引擎绕过

2.3.1 语音识别引擎绕过

2.3.2 图像识别引擎绕过

2.3.3 文本识别引擎绕过

2.4 实战案例：物理世界中的对抗样本攻击

2.4.1 目标检测原理

2.4.2 目标检测攻击原理

2.4.3 目标检测攻击实现

2.4.4 攻击效果展示

2.5 案例总结

●第3章数据投毒攻击●

3.1 数据投毒攻击概念

3.2 数据投毒攻击的基本原理

3.2.1 形式化定义与理解

3.2.2 数据投毒攻击的范围与思路

3.3 数据投毒攻击技术发展

3.3.1 传统数据投毒攻击介绍

3.3.2 数据投毒攻击约束

3.3.3 数据投毒攻击效率优化

3.3.4 数据投毒攻击迁移能力提升

3.4 实战案例：利用数据投毒攻击图像分类模型

3.4.1 案例背景

3.4.2 深度图像分类模型

3.4.3 数据投毒攻击图像分类模型

3.4.4 实验结果

3.5 实战案例：利用投毒日志躲避异常检测系统

3.5.1 案例背景

3.5.2 RNN异常检测系统

3.5.3 投毒方法介绍

3.5.4 实验结果

3.6 案例总结

●第4章模型后门攻击●

4.1 模型后门概念

4.2 后门攻击种类与原理

4.2.1 投毒式后门攻击

4.2.2 非投毒式后门攻击

4.2.3 其他数据类型的后门攻击

4.3 实战案例：基于数据投毒的模型后门攻击

4.3.1 案例背景

4.3.2 后门攻击案例

4.4 实战案例：供应链攻击

4.4.1 案例背景

4.4.2 解析APK

4.4.3 后门模型训练

4.5 实战案例：基于模型文件神经元修改的模型后门攻击

4.5.1 案例背景

4.5.2 模型文件神经元修改

4.5.3 触发器优化

4.6 案例总结

●第5章预训练模型安全●

5.1 预训练范式介绍

5.1.1 预训练模型的发展历程

5.1.2 预训练模型的基本原理

5.2 典型风险分析和防御措施

5.2.1 数据风险

5.2.2 敏感内容生成风险

5.2.3 供应链风险

5.2.4 防御策略

5.3 实战案例：隐私数据泄露

5.3.1 实验概况

5.3.2 实验细节

5.3.3 结果分析

5.4 实战案例：敏感内容生成

5.4.1 实验概况

5.4.2 实验细节

5.4.3 结果分析

5.5 实战案例：基于自诊断和自去偏的防御

5.5.1 实验概况

5.5.2 实验细节

5.5.3 结果分析

5.6 案例总结

●第6 章 AI数据隐私窃取●

6.1 数据隐私窃取的基本原理

6.1.1 模型训练中数据隐私窃取

6.1.2 模型使用中数据隐私窃取

6.2 数据隐私窃取的种类与攻击思路

6.2.1 数据窃取攻击

6.2.2 成员推理攻击

6.2.3 属性推理攻击

6.3 实战案例：联邦学习中的梯度数据窃取攻击

6.3.1 案例背景

6.3.2 窃取原理介绍

6.3.3 窃取案例

6.3.4 结果分析

6.4 实战案例：利用AI水印对抗隐私泄露

6.4.1 案例背景

6.4.2 AI保护数据隐私案例

6.4.3 AI水印介绍

6.4.4 结果分析

6.5 案例总结

●第7 章 AI应用失控风险●

7.1 AI应用失控

7.1.1 深度伪造技术

7.1.2 深度伪造安全风险

7.2 AI应用失控防御方法

7.2.1 数据集

7.2.2 技术防御

7.2.3 内容溯源

7.2.4 行业实践

7.2.5 面临挑战

7.2.6 未来工作

7.3 实战案例：VoIP电话劫持+语音克隆攻击

7.3.1 案例背景

7.3.2 实验细节

7.4 实战案例：深度伪造鉴别

7.4.1 案例背景

7.4.2 实验细节

7.4.3 结果分析

7.5 案例总结

●后记 AI安全发展展望●

展开