材料信息学是一门新兴的交叉学科,为在材料基因组和人工智能+材料理念下加速材料科学研究和工程技术发展提供了一个全新的方法。作为材料和力学学者,作者在推动材料信息学发展方面做了大量工作,在人工智能(AI)、机器学习(ML)和材料科学技术融合交叉方面,有诸多的尝试和心得体会。作者旨在写一套易懂的材料信息学简介书,以进一步推动材料信息学的发展。为便于读者尽快理解和掌握材料信息学的核心内容,兼顾内容的完整性,作者撰写完成了两部:本书为第一部,侧重于机器学习基础;第二部讲解高等机器学习。
本书共十二章,内容包括线性回归与线性分类、支持向量机、决策树和K近邻(KNN)、集成学习、贝叶斯定理和期望最大化算法、符号回归、神经网络、隐马尔可夫链、数据预处理与特征选择、可解释性的SHAP值和部分依赖图。本书叙述力求从简单明了的数学定义和物理图像出发,密切结合材料科学研究案例,给出了各种算法的详细步骤,便于读者学习和运用。
更多科学出版社服务,请扫码获取。
1978-1979年于新乡师范学院(现河南师范大学)物理系学习;1979—1982年:在北京钢铁学院(现北京科技大学)物理化学系金属物理专业学习,获得硕士学位;1982—1985年:在北京钢铁学院(现北京科技大学)物理化学系金属物理专业学习,获得博士学位。1986-1988 德国哥廷根大学,洪堡学者;1990-1993 美国耶鲁大学,副研究员;1993-2015 香港科技大学,讲师,副教授,教授,讲座教授,方氏工程学教授;2014创建上海大学材料基因组工程研究院、并任创院院长。2022加盟香港科技大学(广州),讲座教授。获国家自然科学二等奖二次、香港裘槎高级研究学者奖、美国ASM International Fellow奖国材料学会材料基因组工程分会首任主任,Journal of Materials Informatics主编,国际断裂学会副主席,中国腐蚀防护学会荣誉主席
目录
丛书序
前言
英文版前言
符号表
第1章 绪论 1
参考文献 9
第2章 线性回归 11
2.1 最小二乘法 11
2.2 主成分分析与主成分回归 21
2.3 最小绝对值收敛和选择算子(L1) 30
2.4 岭回归(L2) 33
2.5 弹性网络回归 37
2.6 多任务LASSO 40
作业 43
参考文献 44
第3章 线性分类 46
3.1 感知机 48
3.2 逻辑斯谛回归 51
3.3 线性判别分析 63
作业 69
参考文献 71
第4章 支持向量机 72
4.1 支持向量分类 72
4.2 核函数 77
4.3 软间隔 84
4.4 支持向量回归 89
作业 95
参考文献 97
第5章 决策树和K近邻 99
5.1 分类树 99
5.2 回归树 107
5.3 K最近邻方法 114
作业 118
参考文献 119
第6章 集成学习 120
6.1 Boosting方法 121
6.1.1 AdaBoost分类 121
6.1.2 AdaBoost回归和梯度提升器 128
6.1.3 损失函数的二阶展开提升学习(SOB) 132
6.1.4 极限梯度提升器(XGBoost) 133
6.2 装袋法 135
作业 139
参考文献 140
第7章 贝叶斯定理和期望最大化算法 142
7.1 贝叶斯定理 142
7.2 朴素贝叶斯分类器 143
7.3 最大似然估计 149
7.3.1 高斯分布 149
7.3.2 韦布尔分布 151
7.4 贝叶斯线性回归 155
7.5 期望最大化算法 163
7.5.1 高斯混合模型 163
7.5.2 洛伦兹分布与高斯分布的混合分布 175
7.6 高斯过程回归 185
作业 193
参考文献 194
第8章 符号回归 195
8.1 进化计算综述 195
8.2 遗传编程 196
8.3 语法引导的遗传编程和语法进化 199
8.4 LASSO在符号回归中的应用 206
作业 207
参考文献 207
第9章 神经网络 209
9.1 神经网络和感知机 209
9.2 反向传播算法 211
9.3 神经网络中的正则化 219
9.3.1 L1正则化 219
9.3.2 L2正则化 226
9.4 神经网络分类 230
9.4.1 二分类问题 230
9.4.2 单类别下多等级分类问题 236
9.5 自编码器 240
9.5.1 引言 240
9.5.2 去噪自编码器 241
9.5.3 稀疏自编码器 248
9.5.4 变分自编码器 255
作业 277
参考文献 278
第10章 隐马尔可夫链 279
10.1 马尔可夫链 279
10.2 静态马尔可夫链 282
10.3 马尔可夫链蒙特卡罗方法 283
10.3.1 Metropolis Hastings(M-H)算法 285
10.3.2 吉布斯抽样算法 286
10.4 观测序列概率的计算方法 289
10.4.1 直接法 289
10.4.2 正向法 291
10.4.3 反向法 293
10.5 最优状态序列评估 295
10.5.1 直接法 295
10.5.2 维特比算法 296
10.6 本征参数评估—鲍姆-韦尔奇算法 297
作业 307
参考文献 308
第11章 数据预处理与特征选择 310
11.1 可靠数据、正常数据、异常数据检测 310
11.1.1 局部离群因子 311
11.1.2 孤立森林 314
11.1.3 单类支持向量机 317
11.1.4 支持向量数据描述 322
11.2 特征选择 326
11.2.1 过滤式方法 326
11.2.2 包裹式选择 351
11.2.3 嵌入式特征重要性评估 358
作业 362
参考文献 363
第12章 可解释性的SHAP值和部分依赖图 365
12.1 SHAP值 365
12.2 两个特征的联合SHAP值 379
12.3 部分依赖图(PDP) 381
12.3.1 单特征部分依赖图 381
12.3.2 双特征及多特征部分依赖图 385
作业 392
参考文献 393
附录1 向量和矩阵 394
A1.1 定义 394
A1.1.1 向量 394
A1.1.2 矩阵 394
A1.2 矩阵代数 394
A1.2.1 逆和转置 394
A1.2.2 迹 395
A1.2.3 行列式 395
A1.2.4 特征值和特征向量 396
A1.2.5 奇异值分解 396
A1.2.6 伪逆 396
A1.2.7 一些常用的恒等式 397
A1.3 矩阵分析 397
A1.3.1 矩阵的导数 397
A1.3.2 行列式的导数 398
A1.3.3 逆矩阵的导数 398
A1.3.4 雅可比矩阵和黑塞矩阵 398
A1.3.5 链式法则 399
参考文献 399
附录2 统计学基础 400
A2.1 概率 400
A2.1.1 联合概率 400
A2.1.2 贝叶斯定理 400
A2.1.3 连续变量的概率密度 400
A2.1.4 分位数函数 401
A2.1.5 随机变量的期望、方差和协方差 401
A2.2 分布 401
A2.2.1 伯努利分布 401
A2.2.2 二项分布 401
A2.2.3 泊松分布 402
A2.2.4 高斯分布 402
A2.2.5 韦布尔分布 402
A2.2.6 卡方(X2)分布和卡方(X2)检验 403
A2.2.7 学生t分布和t检验 403
参考文献 403
索引 404