本书系统地探讨了线性代数在人工智能领域中的广泛应用,从理论基础到实战技术,内容全面且深入。全书共12章,涵盖线性代数基础、矩阵运算与线性方程组、特征值与特征向量、奇异值分解、向量空间与正交化等基础知识,并延伸至强化学习、自然语言处理、计算机视觉和推荐系统等前沿应用场景。通过理论讲解、模型分析和代码实践,深入剖析线性代数在算法建模、性能优化和结果解释中的关键作用。本书配有丰富的案例分析、课后练习及可视化实例,适合人工智能从业者、研究人员及相关领域学生学习和参考,为迈向更高水平的人工智能研究与开发奠定坚实基础。
薛栋,华东理工大学信息科学与工程学院副教授、博士生导师,德国慕尼黑工业大学工学博士,入选上海市高层次青年人才计划、浦江人才计划。长期从事人工智能与大数据相关研究,主持多项国家重大专项课题、国家自然科学基金面上项目、企业科研攻关项目等。常年主讲人工智能专业必修课程“人工智能数学基础”。
段兆阳,华东理工大学信息科学与工程学院讲师,硕士生导师,美国德州农工大学博士,从事过程系统工程、非线性系统理论与应用研究,承担博弈论和机器学习相关课程教学工作,主持国家重点研发计划课题和上海市“科技创新行动计划”扬帆计划项目,参与多项国家和省部级科研项目。
王圣强,华东理工大学数学学院副教授、数学与应用数学系副主任,复旦大学数学科学学院博士,先后获得第五届上海高校青年教师教学竞赛一等奖、上海市教学能手、校教学新星、校研究生课程优秀任课教师等荣誉。
目 录
第1章 线性代数基础
1.1 线性代数在人工智能中的作用 002
1.1.1 神经网络中的矩阵运算 002
1.1.2 数据降维与特征提取中的线性代数 005
1.1.3 推荐系统与图像处理中的线性代数应用 007
1.2 向量与矩阵 010
1.2.1 向量的定义及其在数据表示中的应用 010
1.2.2 矩阵的定义及其在数据表示中的应用 012
1.2.3 高维数据的矩阵表示与操作 015
1.3 向量空间与线性变换 017
1.3.1 向量空间的定义与几何意义 017
1.3.2 线性变换的基本概念及其应用 018
1.3.3 数据转换 020
1.4 向量与矩阵的基本操作 021
1.4.1 使用NumPy库进行向量与矩阵的加法、乘法运算 022
1.4.2 矩阵转置与逆矩阵的计算 023
1.4.3 通过矩阵运算模拟单层神经网络的计算 025
1.5 课后练习 027
第2章 矩阵运算与线性方程组
2.1 矩阵的基本运算 030
2.1.1 矩阵加法与标量乘法 030
2.1.2 矩阵乘法与计算复杂度 032
2.1.3 矩阵的转置与对称矩阵 033
2.1.4 矩阵分块及其在大规模数据处理中的应用 036
2.2 线性方程组的矩阵表示 038
2.2.1 线性方程组的矩阵形式 039
2.2.2 向量表示的线性方程组 040
2.2.3 线性回归问题的矩阵表示 042
2.2.4 机器学习中的最小二乘法与线性方程组求解 042
2.3 高斯消元法求解线性方程组 043
2.3.1 高斯消元法介绍及其Python实现 044
2.3.2 高斯消元法处理大规模数据矩阵的技巧 046
2.3.3 使用高斯消元法求解机器学习模型参数 047
2.4 使用矩阵求解线性方程组 048
2.4.1 线性回归中的最优解求解 048
2.4.2 图像处理中的矩阵求逆 049
2.4.3 比较不同求解方法(LU分解与QR分解)的效果与性能 051
2.4.4 在推荐系统中使用矩阵分解进行用户偏好预测 053
2.5 课后练习 055
第3章 特征值与特征向量
3.1 特征值与特征向量的定义与几何意义 058
3.1.1 特征值与特征向量的数学定义 058
3.1.2 特征向量的几何意义:线性变换中的不变方向 060
3.1.3 特征值的几何意义:线性变换中的比例缩放 062
3.1.4 通过特征向量理解线性代数中的变换 064
3.2 特征值分解与矩阵对角化 066
3.2.1 特征值分解的定义与步骤 066
3.2.2 实对称矩阵的性质与特征值分解 069
3.2.3 矩阵对角化的过程与应用 071
3.3 特征值与特征向量的计算与应用 073
3.3.1 应用实例:使用特征值与特征向量分析物体的振动模式 073
3.3.2 应用实例:特征值分解在PageRank算法中的应用 074
3.3.3 应用实例:使用特征值分解进行数据降维与简化模型 075
3.3.4 应用实例:在图像处理中的特征值计算 077
3.4 课后练习 080
第4章 奇异值分解
4.1 奇异值分解的基本概念 082
4.1.1 奇异值分解的定义、步骤与实例 082
4.1.2 奇异值分解中的矩阵分解 084
4.1.3 奇异值分解与矩阵恢复:如何重构原始矩阵 084
4.1.4 奇异值分解在高维数据简化中的应用 085
4.2 奇异值分解的几何意义 087
4.2.1 奇异值分解的几何解释:数据的变换与投影 087
4.2.2 如何通过奇异值分解将数据映射到低维空间 087
4.2.3 奇异值分解在高维数据降维中的作用 088
4.2.4 基于奇异值分解的数据集结构分析 089
4.3 奇异值分解的计算 090
4.3.1 奇异值分解的Python实现 090
4.3.2 处理大规模数据的奇异值分解优化技巧 091
4.4 课后练习 094
第5章 向量空间与正交化
5.1 向量的基与维数 096
5.1.1 向量空间的定义与基本性质 096
5.1.2 基的定义与计算方法 098
5.1.3 向量空间的维数与维数计算 100
5.2 正交化与QR分解 101
5.2.1 正交化的定义与几何解释 101
5.2.2 QR分解的定义与步骤 102
5.2.3 正交化与QR分解在计算中的作用 104
5.2.4 正交化与特征值分解的关系 105
5.3 施密特正交化与QR分解 107
5.3.1 施密特正交化的Python实现 107
5.3.2 QR分解的Python实现与应用 109
5.3.3 数据预处理中的正交化与QR分解 110
5.3.4 大规模数据QR分解的性能优化方法 112
5.4 课后练习 115
第6章 准备工作:数据预处理
6.1 数据预处理的数学意义 117
6.1.1 数据预处理的流程与目标 117
6.1.2 线性代数与数据质量的关系 118
6.2 数据清洗的线性代数方法 119
6.2.1 缺失值处理 119
6.2.2 异常值检测 122
6.3 数据转换与标准化 125
6.3.1 标准化与归一化 125
6.3.2 非线性变换的线性化 129
6.4 特征选择和特征提取 132
6.4.1 特征选择和特征提取的基本概念 132
6.4.2 特征向量与特征矩阵 135
6.4.3 特征选择 136
6.4.4 特征提取 139
6.4.5 特征构造 141
6.5 课后练习 143
第7章 网络模型中的线性代数
7.1 人工智能中的网络模型 146
7.1.1 机器学习和深度学习介绍 146
7.1.2 线性代数在机器学习和深度学习中的应用 147
7.2 机器学习与线性代数 148
7.2.1 线性回归算法 148
7.2.2 逻辑回归算法 155
7.2.3 SVM算法 158
7.2.4 决策树算法 160
7.2.5 随机森林算法 163
7.2.6 K近邻算法 165
7.3 线性代数在深度学习中的应用 168
7.3.1 前馈神经网络与线性代数 168
7.3.2 卷积神经网络与线性代数 171
7.3.3 循环神经网络与线性代数 174
7.3.4 长短期记忆网络与线性代数 177
7.3.5 生成对抗网络与线性代数 180
7.4 课后练习 185
第8章 模型优化中的线性代数
8.1 优化问题数学建模 188
8.1.1 优化目标与损失函数 188
8.1.2 参数空间的线性代数表示 191
8.2 梯度下降法家族 194
8.2.1 梯度下降法的数学基础 194
8.2.2 梯度下降法的算法步骤 195
8.2.3 线性代数在梯度计算中的应用 196
8.2.4 随机梯度下降 198
8.2.5 动量法 201
8.2.6 Nesterov加速梯度 206
8.2.7 自适应学习率算法 210
8.3 高阶优化方法 215
8.3.1 牛顿法 215
8.3.2 拟牛顿法 218
8.3.3 自适应优化算法 221
8.3.4 二阶优化的计算挑战与近似方法 224
8.4 课后练习 227
第9章 强化学习与线性代数:从数学原理到应用实践
9.1 强化学习基础 229
9.1.1 强化学习的核心特点与数学形式 229
9.1.2 强化学习与其他机器学习方法的区别 229
9.1.3 线性代数在强化学习中的作用 230
9.2 状态和动作的数学表示 231
9.2.1 状态向量与动作空间的张量表示 231
9.2.2 欧氏空间与离散状态编码的线性代数方法 234
9.3 价值函数与策略的线性代数分析 238
9.3.1 价值函数的矩阵迭代公式 238
9.3.2 策略梯度法的雅可比矩阵与梯度计算 241
9.3.3 策略表示与线性代数 243
9.4 马尔可夫决策过程与线性代数 245
9.4.1 MDP的核心思想 245
9.4.2 MDP的矩阵形式化定义 246
9.4.3 贝尔曼方程的矩阵运算推导 249
9.4.4 状态价值函数的线性方程组解法 253
9.5 经典强化学习算法中的线性代数 254
9.5.1 蒙特卡洛方法:基于状态-动作矩阵的统计估计 254
9.5.2 对蒙特卡洛预测策略的改进 257
9.5.3 时序差分学习 262
9.5.4 Q-learning与贝尔曼最优方程的矩阵收敛性分析 267
9.6 课后练习 271
第10章 自然语言处理与线性代数:从数学原理到应用实践
10.1 自然语言处理基础与核心任务 273
10.1.1 自然语言处理的基本概念 273
10.1.2 线性代数在自然语言处理中的作用 273
10.2 词嵌入的数学本质与应用实践 277
10.2.1 词嵌入的基本概念与数学本质 277
10.2.2 Word2Vec中的矩阵分解 277
10.2.3 GloVe模型的协方差矩阵解析 280
10.2.4 使用Gensim库训练领域专用词向量 284
10.3 表示学习与线性代数 291
10.3.1 表示学习介绍与常用方法 291
10.3.2 线性代数的应用 292
10.3.3 潜在语义分析与线性代数 295
10.3.4 神经网络中的嵌入层 302
10.4 语言模型的线性代数视角 308
10.4.1 语言模型基础 308
10.4.2 线性代数在语言模型中的应用 310
10.4.3 n-gram模型的概率矩阵构建 312
10.5 Transformer架构的矩阵运算革命 316
10.5.1 Transformer架构的基本概念与组成 316
10.5.2 线性代数在Transformer中的应用 319
10.5.3 多头注意力的并行计算实现 323
10.6 课后练习 327
第11章 计算机视觉与线性代数:从数学原理到应用实践
11.1 计算机视觉的数学基础 329
11.1.1 计算机视觉的核心任务与行业应用 329
11.1.2 线性代数在计算机视觉中的作用 329
11.2 图像处理的线性代数内核 330
11.2.1 图像数字化表示 330
11.2.2 空域与频域变换 332
11.2.3 几何变换与图像变换的矩阵表示 334
11.2.4 梯度计算与边缘检测 337
11.2.5 图像增强与线性代数 339
11.2.6 图像分割 343
11.3 特征工程的矩阵方法 345
11.3.1 传统特征提取方法与线性代数 345
11.3.2 深度学习特征提取方法与线性代数 353
11.4 视觉模型中的线性代数架构 357
11.4.1 CNN的矩阵化实现 357
11.4.2 Transformer视觉模型 361
11.4.3 基于生成对抗网络的图像处理 366
11.5 目标检测与分割的矩阵优化 370
11.5.1 新形式下的目标检测方法 370
11.5.2 目标分割技术的矩阵表达 373
11.6 课后练习 377
第12章 推荐系统与线性代数:从数学原理到应用实践
12.1 推荐系统基础理论 379
12.1.1 推荐系统的分类 379
12.1.2 推荐系统的数学定义与形式化表示 380
12.1.3 将推荐问题转化为线性代数优化问题 380
12.2 经典推荐算法中的线性代数 381
12.2.1 基于内容的推荐 381
12.2.2 基于矩阵分解的协同过滤推荐 383
12.2.3 基于标签的推荐 387
12.3 张量分解与高阶推荐系统 390
12.3.1 三维用户-物品-上下文张量表示 391
12.3.2 CP分解与Tucker分解在推荐系统中的应用 394
12.4 深度学习推荐模型的线性代数视角 397
12.4.1 嵌入向量的空间理论 397
12.4.2 神经协同过滤的混合模型 400
12.4.3 图神经网络推荐系统 405
12.5 课后练习 410