本书内容已经外聘和清华大学党委审读审核通过(清委文[2025]52号)后同意安排出版。在大数据时代,数据孤岛问题严重阻碍了数据共享与人工智能应用的发展。联邦学习作为一种隐私保护的机器学习范式,允许各机构在不泄露本地数据的前提下协同训练全局模型,有效挖掘分散数据并降低泄露风险,推动了人工智能在各领域的应用。本书全面介绍了联邦学习的核心概念与关键技术,涵盖基础知识、隐私安全、个性化学习、贡献度评估、与大模型的关系、拜占庭问题及实际应用案例。本书将帮助读者深入理解并掌握联邦学习这一前沿领域的理论与实践,适合作为计算机科学、人工智能和机器学习等专业的教材,也可供大数据和AI应用开发的工程师参考。
优质团队深度编撰。作者韩宇星长期执教于清华大学,杨强荣膺加拿大工程院及加拿大皇家学院院士,是国际联邦学习研究的引领者。他们结合多年的学术研究与一线工程实践经验,系统呈现联邦学习从基础理论到前沿应用的完整框架,让读者站在国内外的视角深入理解这一隐私保护机器学习范式。理论与实践无缝衔接。全书涵盖联邦学习的定义、系统模型与威胁模型、个性化与非独立同分布问题、贡献度评估、联邦大模型、拜占庭安全等关键技术板块,层层剖析核心原理;同时配以医疗、金融、边缘计算、推荐系统等真实案例,帮助读者将抽象算法与具体应用紧密结合,既打牢理论基础,又能快速落地工程实践。易学易用的教学设计。遵循“知其然、知其所以然”的教学理念,全书结构清晰、章节衔接紧凑,大量图表与示意图直观呈现复杂体系,循序渐进地引导读者掌握联邦学习技术,零基础读者也能逐步突破门槛。全方位应用场景覆盖。重点探讨联邦学习在医疗诊断、金融风控、智能推荐、物联网、自动驾驶等多个领域的典型应用,展示技术创新与工程实践的结合路径,帮助读者了解研究动向,打造面向未来的隐私保护型智能系统解决方案。
前言
在人工智能时代,各组织和机构积累了海量的数据,然而由于竞争、商业机密和隐私保护等因素,这些数据往往难以共享,形成了明显的数据孤岛现象。这种孤岛不仅限制了数据的有效利用,还阻碍了人工智能模型的训练和优化,导致算法性能的提升受到制约。
与此同时,随着对数据隐私的重视,一系列数据隐私法案相继出台,如欧盟的《通用数据保护条例》(GDPR)和美国的《加利福尼亚州消费者隐私法案》(CCPA)。这些法规要求企业在处理个人数据时必须遵循严格的隐私保护标准,确保用户的同意和数据的安全。这使得传统的集中式数据处理方法面临诸多合规风险,企业对用户数据的使用受到限制。
为了解决数据共享的难题,研究人员开始寻求一种新的方法,以便在不需要将所有数据集中到一个中心存储点的情况下训练机器学习模型。一种可行的方法是:各个拥有数据源的机构利用自身的数据独立训练一个模型,随后各机构的模型间进行信息交换,最终通过模型聚合得到一个全局模型。为了确保用户隐私和数据安全,精心设计各机构之间交换模型信息的过程,确保没有任何机构能够推断出其他机构的隐私数据内容。同时,在构建全局模型时,使其效果与集中式训练的模型几乎一致。这便是联邦学习(Federated Learning,FL)提出的动机和核心思想。
联邦学习是一种利用分散在各参与方的数据集,通过隐私保护技术融合多方数据信息,协同构建全局模型的分布式训练范式。在模型训练过程中,模型参数、模型结构、参数梯度等相关信息可以在参与方之间进行交换(可以通过明文、数据加密或添加噪声等方式)。然而,本地训练数据始终留在本地,确保用户数据的隐私不受威胁。这种机制极大地缓解了数据泄露的风险,训练好的联邦学习模型可以在各数据参与方之间共享和部署使用。
联邦学习的提出为解决数据孤岛问题、提高数据利用率和保护用户隐私提供了新思路。在未来的人工智能发展中,联邦学习有望成为一种重要的研究方向,推动机器学习技术在各个领域的广泛应用。随着对联邦学习研究的深入,它将为数据驱动的智能决策提供有力支持,助力构建一个更加智能化和互联互通的世界。
本书专注于联邦学习的全面介绍,旨在成为读者探索这一前沿领域的优选入门书籍。无论是计算机科学、人工智能还是机器学习专业的学生,抑或是从事大数据和人工智能应用开发的工程师,都能从中受益。特别是针对本科高年级学生、研究生、大学教师以及研究机构的研究人员,本书提供了深入的理论基础与应用方式,帮助他们掌握联邦学习的核心概念和技术。
本书各章节内容系统全面,旨在帮助读者深入理解联邦学习的多维度特性。第 1章回顾了联邦学习的基本概念,包括其提出的背景、定义以及分类,帮助读者建立初步的认识。第 2章聚焦于隐私安全问题,这是联邦学习研究的核心。该章详细讨论了联邦学习面临的隐私安全威胁及如何设计保障数据隐私和模型安全的系统。第 3章探讨了在参与方数据具有统计异质性和非独立同分布的情况下,如何应对全局模型泛化能力的损失,介绍了个性化联邦学习的概念和方法。第 4章分析了如何量化各参与方在模型训练中所作的贡献,强调了评估机制在激励参与者和促进合作中的重要性。第 5章从联邦大模型和联邦迁移学习两个角度介绍了联邦学习在大模型应用中的潜力。第 6章讨论了在联邦学习中遇到的拜占庭问题及其对模型安全的威胁,介绍了多种解决方案,确保模型训练的安全性。第 7章展示了联邦学习在现实世界中的具体应用案例,体现了其广泛的实用性和前景。通过这些章节,读者将全面了解联邦学习的理论基础及其实际应用。
本书在编撰过程中有幸得到了众多与学生的支持和帮助,特别感谢范力欣博士、古瀚林博士对于本书提出的宝贵意见,同时感谢学生赵心远、朱公溪对本书编辑提供的帮助。由于水平有限且工作量繁多,书中理解不当之处在所难免,恳请读者批评指正。
韩宇星杨强
2025年 5月
韩宇星,清华大学深圳国际研究生院长聘副教授、博士生导师。近5年发表SCI源刊论文50余篇。长期从事联邦学习的教学和科研工作,讲授“联邦学习”等课程。主持多项、省部级项目,荣获多项省部级奖励。杨强,加拿大工程院及加拿大皇家学院院士,香港理工大学人工智能高等研究院院长,香港科技大学荣休教授,微众银行首席人工智能官(荣休),AAAI-2021大会主席,国际人工智能联合会理事会前主席,中国人工智能学会常务副理事长。长期从事联邦学习和迁移学习的教学和科研工作。近5年发表SCI源刊论文百余篇。获2017年ACMSIGKDD杰出服务奖及2023年IJCAIDonaldE.Walker杰出服务奖。出版《迁移学习》、《联邦学习》、《隐私计算》和《联邦学习实战》等著作。
目录
第 1章联邦学习基础 ..............................................................1
1.1联邦学习概述
.....................................................................................2
1.
1.1联邦学习背景 ...........................................................................2
1.
1.2联邦学习定义与分类.................................................................3
1.
1.3联邦学习发展与现状.................................................................4
1.
2系统模型与威胁模型 ...........................................................................7
1.
2.1联邦学习系统结构 ....................................................................7
1.
2.2联邦学习威胁模型 ....................................................................8
1.
3联邦学习系统目标...............................................................................9
1.3.1隐私目标
..................................................................................9
1.3.2安全目标
................................................................................ 10
1.
3.3多目标平衡 ............................................................................ 11
1.
3.4贡献度评估 ............................................................................ 12
第 2章联邦学习与隐私安全 .................................................. 14
2.
1隐私安全问题定义............................................................................. 15
2.
1.1机器学习隐私问题与安全问题.................................................. 15
2.
1.2攻击与防护对象...................................................................... 16
2.
2联邦学习隐私安全威胁 ...................................................................... 17
2.
2.1面向数据隐私的威胁攻击 ........................................................ 17
2.
2.2面向模型安全的威胁攻击 ........................................................ 19
2.
2.3面向模型版权的威胁攻击 ........................................................ 20
2.
3联邦学习隐私安全保护方法 ............................................................... 24
2.3.1差分隐私
................................................................................ 24
2.
3.2安全多方计算 ......................................................................... 25
2.3.3同态加密
................................................................................ 26
2.
3.4模型版权保护技术 .................................................................. 27
第 3章个性化联邦学习......................................................... 33
3.
1非独立同分布问题与个性化学习的必要性 ........................................... 34
3.
2联邦学习个性化方法 ......................................................................... 35
3.
2.1基于客户端选择的方案............................................................ 35
3.
2.2基于元学习的方案 .................................................................. 35
3.
2.3 基于正则化的方案 .................................................................. 36
3.
2.4 基于蒸馏的方案...................................................................... 37
第 4 章联邦学习贡献度评估 .................................................. 39
4.
1贡献度评估的重要性与挑战 ............................................................... 40
4.
2贡献度评估标准与公平性................................................................... 41
4.2.1 基于
Shapley值的贡献评估方法 .............................................. 41
4.
2.2 基于距离的贡献度评估方法 ..................................................... 41
4.2.3 评价指标
................................................................................ 42
4.
3联邦学习贡献度评估方法................................................................... 43
4.3.1 基于
Shapley值的贡献度评估方法........................................... 43
4.
3.2 基于距离的贡献度评估方法 ..................................................... 45
第 5 章联邦学习与大模型 ..................................................... 47
5.1联邦大模型
....................................................................................... 48
5.
1.1 大模型预训练与联邦学习 ........................................................ 49
5.
1.2 大模型微调与联邦学习............................................................ 50
5.
1.3 联邦大模型应用研究 ............................................................... 53
5.2联邦迁移学习
................................................................................... 56
5.2.1 联邦迁移学习背景 .................................................................. 56
FDKT ................................................................................... 57
5.2.2 AUG-PE................................................................................ 60
5.2.3 InferDPT............................................................................... 61
5.2.4 FedMKT................................................................................ 62
5.2.5
5.2.6 联邦迁移学习展望 .................................................................. 63
第 6 章联邦学习与拜占庭问题............................................... 65
6.
1联邦学习的安全威胁 ......................................................................... 66
6.
1.1 常见的联邦学习安全问题 ........................................................ 66
6.
1.2 拜占庭攻击 ............................................................................ 67
6.
1.3 联邦学习与传统分布式学习中的安全问题对比 ..........................