本书从现象出发,深入浅出地介绍深度学习的基本原理,包括神经网络的输出和参数演化规律,以及大语言模型如何逐步涌现出更复杂的推理。本书以呈现现象为主,对读者的理论要求低,但能抓住深度学习的核心原理,对理解和训练深度学习都有重要帮助。此外,本书还介绍了强化学习、传统监督学习、传统非监督学习和可信人工智能等人工智能领域的相关知识。本书适合计算机及相关专业的在校本科生、研究生用来作为学习深度学习的入门读物。
许志钦2012年本科毕业于上海交通大学致远学院。2016年博士毕业于上海交通大学,获应用数学博士学位。2016年至2019年,在纽约大学阿布扎比分校和柯朗研究所做博士后。2019年至2025年,上海交通大学自然科学研究院/数学科学学院长聘教轨副教授。2025年至今,上海交通大学自然科学研究院/数学科学学院教授。张耀宇2012年本科毕业于上海交通大学致远学院。2016年博士毕业于上海交通大学,获应用数学博士学位。2016年至2019年,在纽约大学阿布扎比分校和柯朗研究所做博士后。2019年至2020年,在普林斯顿高等研究院做博士后。2020年至今,上海交通大学自然科学研究院/数学科学学院:长聘教轨副教授。
第1章 深度学习介绍
1.1 数据拟合
1.2 神经网络简介
1.2.1 单个神经元如何感知信息
1.2.2 单层神经网络
1.2.3 多层神经网络
1.3 常用的损失函数
1.3.1 均方误差损失
1.3.2 绝对误差损失
1.3.3 交叉熵
1.4 损失景观
1.5 优化方法
1.5.1 梯度的计算—— 反向传播
1.5.2 梯度下降法
1.5.3 带随机的优化方法
1.5.4 带动量的梯度下降法
1.5.5 自适应优化算法
1.6 参数的初始化
1.7 没有免费午餐定理
1.8 对深度学习的理解
1.8.1 深度学习的基本要素
1.8.2 深度学习理论
1.8.3 神经网络的泛化之谜与隐式偏好
1.8.4 研究手段:现象驱动的理论研究
1.9 习题
第2章 维数灾难
2.1 高维空间的特点
2.1.1 高维空间中数据的稀疏性
2.1.2 体积集中在表面的特性
2.1.3 距离的集中效应与正交性
2.1.4 高斯环带效应
2.1.5 随机投影降维
2.1.6 数据的线性可分性
2.2 维数灾难的例子
2.2.1 高维数值积分
2.2.2 高维偏微分方程
2.2.3 高维函数逼近
2.3 克服维数灾难的方法
2.3.1 蒙特卡罗方法
2.3.2 神经网络方法
2.4 习题
第3章数据与神经网络结构
3.1 全连接网络
3.2 残差神经网络
3.3 卷积神经网络
3.3.1 图像数据集的特征
3.3.2 初级视皮层的图像处理结构
3.3.3 卷积神经网络
3.4 语言任务与自然语言处理的主要范式
3.4.1 语言任务的特点
3.4.2 深度学习模型处理语言简介
3.5 循环神经网络
3.5.1 循环神经网络基本单元
3.5.2 encoder-decoder 架构的循环神经网络
3.5.3 使用BPTT 算法训练循环神经网络
3.5.4 长短时记忆网络
3.6 Transformer
3.6.1 Transformer 的基本原理
3.6.2 embedding
3.6.3 注意力层
3.6.4 前馈神经网络层
3.6.5 输出层
3.6.6 Transformer 做推断的详细流程
3.7 生成模型
3.7.1 自编码器
3.7.2 变分自编码器
3.8 习题
第4章 频率原则
4.1 频率原则的低维实验
4.1.1 神经网络的“光滑”偏好
4.1.2 频率和傅里叶变换
4.1.3 频率原则
4.2 从频率原则理解神经网络
4.2.1 实验理解频率原则的必要性
4.2.2 early-stopping 的频率角度理解
4.2.3 神经网络的优势与局限
4.3 习题
第5章 基于频率原则设计高效神经网络
5.1 多尺度神经网络结构
5.1.1 结构介绍
5.1.2 基于子空间分解的神经网络
5.2 神经辐射场
5.3 傅里叶特征网络
5.4 习题
第6章 频率原则的机制分析
6.1 频率原则的影响因素
6.1.1 初始化权值大小的影响
6.1.2 不同激活函数的影响
6.1.3 损失函数形式的影响
6.2 频率原则的简单分析
6.3 习题
第7章 相图分析
7.1 神经网络在不同初始化条件下的表现
7.2 神经网络的线性与非线性行为
7.2.1 参数的演化分析
7.2.2 线性行为与非线性行为的界定
7.3 线性区域与非线性区域的划分
7.3.1 状态量的定义与动力学相变
7.3.2 实验相图的获取
7.3.3 临界区域和凝聚区域
7.4 习题
第8章 凝聚现象
8.1 凝聚现象的实验
8.1.1 凝聚的过程
8.1.2 全连接网络的凝聚现象
8.1.3 卷积神经网络的凝聚现象
8.1.4 残差神经网络的凝聚现象
8.2 凝聚现象的探讨
8.2.1 凝聚现象的定义
8.2.2 对于凝聚现象的理解
8.3 初始凝聚
8.4 dropout 促进凝聚现象
8.4.1 什么是dropout
8.4.2 dropout 促进神经元凝聚
8.4.3 dropout 及其隐式正则化的显式表达
8.4.4 正则项对凝聚的影响
8.4.5 dropout 与样本量的关系
8.5 习题
第9章 损失景观的嵌入原则
9.1 宽度相似性与嵌入原则
9.1.1 损失停滞点的结构相似性
9.1.2 理论框架:嵌入原则
9.1.3 嵌入原则和凝聚现象的关系
9.1.4 嵌入原则和频率原则的关系
9.2 嵌入原则的深入分析
9.2.1 损失函数停滞现象的频谱分析
9.2.2 临界点嵌入后黑塞矩阵的特征值分析
9.2.3 简化神经网络的规模
9.3 习题
第10章 乐观估计
10.1 量化模型恢复目标函数所需的最小样本数量:模型秩
10.2 乐观样本数量和实际实验表现的对比
10.2.1 简单的非线性回归模型
10.2.2 矩阵分解模型
10.2.3 神经网络模型
10.2.4 超参数调节在非线性模型中的作用
10.3 神经网络架构设计的分析:乐观样本数量是否增加
10.4 习题
第11章 解的平坦性
11.1 解的平坦性的定义
11.2 批次大小对解的平坦性的影响
11.3 随机梯度下降对解的平坦性的影响
11.3.1 随机梯度下降噪声结构的重要性
11.3.2 随机梯度下降噪声与解的平坦性的关系
11.3.3 随机梯度下降隐式正则化的理论分析
11.4 dropout 对解的平坦性的影响
11.5 稳定边缘现象
11.6 习题
第12章 锚函数:研究语言模型的一类简单函数
12.1 研究基于Transformer 的语言模型面临的挑战
12.1.1 未知的任务
12.1.2 高昂的计算和内存需求
12.1.3 推理机制的难解释性
12.2 语言任务的特点
12.3 研究思路
12.4 锚函数与类语言任务
12.4.1 锚函数
12.4.2 类语言任务
12.5 数据划分与模型泛化
12.5.1 训练集和测试集的划分
12.5.2 数据泛化与任务泛化
12.6 实验结果与讨论
12.6.1 恒等学习任务
12.6.2 阅读理解任务
12.6.3 分类任务
12.6.4 复合任务
12.6.5 工作记忆任务
12.6.6 近义词任务
12.6.7 前向–后向背诵任务
12.6.8 统计输出任务
12.6.9 多锚点任务
12.7 恒等学习任务的机制研究*
12.7.1 两层模型的简要解释
12.7.2 简化的两层模型的机制
12.7.3 Llama2-7B 中的移位和广播
12.7.4 移位和广播操作的讨论
12.8 实验设置
12.8.1 模型结构
12.8.2 损失函数
12.8.3 超参数设置
12.9 习题
第13章 复杂度控制对语言模型推理能力的影响
13.1 引言
13.2 定义
13.2.1 双锚点复合函数
13.2.2 数据生成
13.2.3 初始化和正则化参数
13.2.4 数据的层级结构
13.2.5 泛化
13.2.6 模型架构和基本实验设置
13.3 复合函数解的阶段划分
13.4 通过注意力掩蔽策略分析不同阶段的机制
13.4.1 通过掩蔽关键项进行机制分析
13.4.2 通过掩蔽第二个锚进行机制分析
13.5 模型复杂度:相变的关键因素
13.5.1 输入权重的凝聚
13.5.2 词嵌入矩阵的结构化组织
13.5.3 凝聚和推理之间的关系
13.6 在现实任务上的进一步验证
13.6.1 组合扩散任务:概念图
13.6.2 组合任务:SCAN 和COGS
13.6.3 现实任务:法律文书推理
13.6.4 现实任务:加法任务和SlimPajama 数据集
13.6.5 推理任务:PrOntoQA
13.6.6 预训练任务:缩放定律
13.7 对不同解决方案背后机制的预测
13.8 习题
第14章 深度神经网络的更多现象
14.1 缩放定律
14.2 大模型密度定律
14.3 大语言模型的上下文学习
14.4 大语言模型中的思维链
14.5 顿悟现象
14.6 幸运彩票现象
14.7 神经网络中的double descent现象
14.8 神经塌缩现象
14.9 mode connectivity现象
14.10 习题
第15章 神经网络求解微分方程
15.1 举例:牛顿运动定律
15.2 参数化解的方法
15.2.1 最小二乘法
15.2.2 变分方法
15.2.3 弱解求解法
15.3 参数化算子的方法
15.4 优势与不足
15.4.1 优势
15.4.2 不足
15.5 传统算法和神经网络对于低频的不同偏好
15.5.1 多尺度神经网络解PDE
15.5.2 小结
15.6 习题
附录A 强化学习
附录B 传统监督学习
附录C 传统无监督学习
附录D 可信人工智能
参考文献