为了响应国家健康发展人工智能技术的战略,针对国家、社会、个人对于提高机器学习安全与数据隐私保护的迫切需求,本书聚焦机器学习攻防对抗问题,根据机器学习的生命周期系统梳理了包括模型训练、模型推理、算法实践3个阶段的安全与隐私相关问题,并深入探讨了常见的攻防对抗场景及对应场景面临的安全威胁与隐私风险,如数据隐私泄露、模型后门攻击等。此外,本书还展望了提升模型安全性的可行方案,为读者提供了理论与实践结合的全面视角。
本书可供网络空间安全、计算机科学与技术、人工智能等相关专业的高年级本科生和研究生阅读,尤其适合具备机器学习、深度神经网络、网络安全等基础知识的读者。
1、本书聚焦机器学习攻防对抗问题,根据机器学习的生命周期系统梳理了包括模型训练、模型推理、算法实践3个阶段的安全与隐私相关问题;
2、本书深入探讨了常见的攻防对抗场景及对应场景面临的安全威胁与隐私风险,如数据隐私泄露、模型后门攻击等;
3、本书还展望了提升模型安全性的可行方案,提供了丰富的实战案例和理论分析,为读者提供了理论与实践结合的全面视角。
沈超,西安交通大学二级教授,教育部长江学者特聘教授,国家自然科学基金委创新群体B负责人,教育部创新团队负责人,科学探索奖、达摩院青橙奖、基金委优青获得者,信息物理融合系统教育部工程研究中心主任,国家重点研发计划首席科学家,国家基础加强计划技术首席科学家,国家重点研发计划“先进计算与新兴软件”重点专项指南专家组成员,麻省理工MIT TR35 China、霍英东青年教师一等奖、IEEE SMC Early Career Award、陕西省青年五四奖章获得者。主要从事智能系统安全与控制、人工智能可信与安全、智能软硬件测试的研究,在IEEE S&P、ACM CCS、USENIX Security、ICSE、ASE、ICML、NIPS等计算机和自动化领域的学术刊物上发表论文100余篇,获学术会议最佳论文奖12项,2021—2025年连续5年入选全球前2%顶尖科学家榜单。
第 1章 对抗性机器学习基础知识 001
1.1 监督学习 002
1.1.1 分类 002
1.1.2 回归 004
1.1.3 对抗环境中的监督学习 006
1.2 无监督学习 006
1.2.1 聚类 007
1.2.2 降维 009
1.2.3 对抗环境中的无监督学习 011
1.3 半监督学习 011
1.3.1 半监督学习的3个基本假设 011
1.3.2 半监督学习在分类和回归两种场景下的应用 012
1.4 强化学习 012
1.4.1 强化学习概述 013
1.4.2 有模型学习 016
1.4.3 基于学习的预测 018
1.4.4 对抗环境中的强化学习 023
1.5 深度学习 023
1.5.1 多层感知器 024
1.5.2 卷积神经网络 025
1.5.3 循环神经网络 026
1.5.4 对抗环境中的深度学习 027
1.6 本章小结 029
参考文献 029
第 2章 对抗性机器学习与隐私攻防 032
2.1 对抗与隐私攻击分类 032
2.1.1 对抗性攻击 032
2.1.2 对抗性机器学习与隐私攻击场景 033
2.1.3 训练阶段的攻击 037
2.1.4 推理阶段的攻击 038
2.2 对抗与隐私防御分类 040
2.2.1 对抗性防御 040
2.2.2 对抗性机器学习防御场景 041
2.2.3 训练阶段攻击防御 043
2.2.4 推理阶段攻击防御 045
2.3 本章小结 047
参考文献 048
第3章 训练阶段的攻击 054
3.1 数据投毒攻击 054
3.1.1 数据投毒攻击概述 055
3.1.2 破坏可用性目标的数据投毒攻击 056
3.1.3 破坏完整性目标的数据投毒攻击 062
3.2 模型投毒攻击 066
3.2.1 模型投毒攻击概述 066
3.2.2 模型更新投毒攻击 067
3.2.3 联邦数据投毒攻击 072
3.3 模型后门攻击 076
3.3.1 模型后门攻击概述 077
3.3.2 模型后门触发器 079
3.3.3 模型后门训练数据集 082
3.3.4 模型后门植入阶段 084
3.4 本章小结 086
参考文献 086
第4章 训练阶段的防御 089
4.1 数据投毒防御 089
4.1.1 数据投毒防御概述 090
4.1.2 数据投毒检测 091
4.1.3 数据投毒修复 093
4.2 模型投毒防御 095
4.2.1 鲁棒性联邦学习聚合算法 095
4.2.2 鲁棒性联邦学习协议 097
4.3 模型后门防御 099
4.3.1 模型后门防御概述 099
4.3.2 基于模型输入的防御方法 100
4.3.3 基于模型参数的防御方法 103
4.4 本章小结 105
参考文献 106
第5章 推理阶段的攻击 109
5.1 数字域对抗攻击 109
5.1.1 数字域白盒对抗攻击 110
5.1.2 数字域黑盒对抗攻击 116
5.2 物理域对抗攻击 123
5.2.1 物理域对抗攻击概述 124
5.2.2 物理域对抗攻击方法 124
5.3 隐私攻击 132
5.3.1 模型逆向攻击 133
5.3.2 成员推理攻击 137
5.3.3 模型窃取攻击 141
5.4 本章小结 144
参考文献 145
第6章 推理阶段的防御 148
6.1 数字域对抗攻击防御 148
6.1.1 基于修改输入的对抗攻击防御 149
6.1.2 基于修改网络结构的对抗攻击防御 150
6.1.3 基于训练过程的对抗攻击防御 151
6.1.4 基于对抗样本检测的对抗攻击防御 153
6.1.5 数字域对抗攻击防御其他手段 155
6.2 物理域对抗攻击防御 155
6.2.1 物理域对抗攻击的特殊性 156
6.2.2 物理域对抗攻击防御方法 158
6.3 隐私攻击防御 160
6.3.1 模型堆叠 161
6.3.2 模型水印 163
6.3.3 差分隐私 166
6.4 本章小结 171
参考文献 172
第7章 对抗性机器学习算法实践 174
7.1 机器学习可解释性 174
7.1.1 内生可解释性 175
7.1.2 后置可解释性 176
7.1.3 可解释性的应用 178
7.2 机器学习公平性 179
7.2.1 公平性准则 179
7.2.2 公平性测试 182
7.2.3 公平性修复 184
7.3 机器学习框架漏洞 185
7.3.1 机器学习框架性能漏洞 187
7.3.2 机器学习框架环境漏洞 188
7.3.3 机器学习框架功能漏洞 189
7.4 深度伪造生成 191
7.4.1 深度伪造生成概述 191
7.4.2 深度伪造人脸生成 192
7.4.3 文本内容生成 196
7.5 深度伪造检测 198
7.5.1 深度伪造检测概述 198
7.5.2 深度伪造人脸检测 199
7.5.3 生成文本检测 202
7.6 本章小结 204
参考文献 205
第8章 对抗性机器学习与安全的展望 209
8.1 训练阶段攻击展望 209
8.2 训练阶段防御展望 210
8.3 推理阶段攻击展望 211
8.4 推理阶段防御展望 212
8.5 对抗性机器学习展望 213
参考文献 214
名词索引 218