书单推荐 新书推荐 |
数据科学导引 读者对象:本书主要面向高等院校数据科学与大数据技术专业的学生,可作为专业核心课程的教材,同时也适合相关领域的研究人员和工程技术人员参考。 ![]()
本书系统介绍数据科学核心理论与技术,融合了数学、统计学和计算机科学等多学科知识,旨在构建完整的数据科学知识体系。全书共 15 章,主要内容包括数据预处理、经典机器学习模型(回归、分类、聚类、集成)、关联规则挖掘、特征工程(降维与特征选择)、最大期望算法、概率图模型、深度学习、文本分析、图与网络分析以及分布式计算等核心模块。特别值得关注的是,本书对当前热点技术如Transformer、BERT、图神经网络等进行了讲解,并设有专门的文本分析和图与网络分析章节。此外,书中包含丰富的附录内容,涵盖了矩阵运算、概率论、优化算法等数学基础,为读者提供了必要的知识储备。本书主要面向高等院校数据科学与大数据技术专业的学生,可作为专业核心课程的教材,同时也适合相关领域的研究人员和工程技术人员参考。对于希望系统掌握数据科学技术、具备解决实际数据问题能力的读者来说,本书提供了从基础到前沿的完整学习路径。通过本书的学习,读者能够建立扎实的数据科学理论基础,并获得宝贵的实践经验。
欧高炎,北京大学理学博士,博雅大数据学院院长,数据科学教育专家,全球首家大数据教育、竞赛和服务平台“数据嗨客”创始人。中国人民银行征信中心《大数据新算法用于信用模型构建的效果评估》项目组负责人。参与编写?《数据科学导引》等多部教材,在大数据人才培养领域有重要影响力。
第 1 章 绪论........................................................ 1
1.1 数据科学的基本内容 ........................................ 2 1.1.1 数据分析的中心问题 ..................................... 4 1.1.2 数据的数学结构 ......................................... 5 1.1.3 数据分析的主要困难 ..................................... 6 1.1.4 算法的重要性 ........................................... 6 1.2 数据科学对学科发展的影响 ................................. 7 1.2.1 对传统学科的冲击 ....................................... 8 1.2.2 新学科的诞生:计算广告学 ............................... 9 1.3 数据科学对科学研究的影响 ................................ 10 1.4 数据科学的课程体系....................................... 10 1.5 本书结构 .................................................. 11 第 2 章 数据预处理................................................ 13 2.1 特征编码 .................................................. 14 2.1.1 数字编码.............................................. 14 2.1.2 One-Hot 编码 ......................................... 15 2.2 缺失值处理 ................................................ 16 2.3 数据标准化 ................................................ 19 2.3.1 Z-score 标准化......................................... 19 2.3.2 Min-Max 标准化 ....................................... 20 2.3.3 小数定标标准化 ........................................ 21 2.3.4 Logistic 标准化 ........................................ 21 2.3.5 不同标准化方法的对比 .................................. 22 2.4 特征离散化 ................................................ 23 2.4.1 等距离散化............................................ 24 2.4.2 等频离散化............................................ 25 2.4.3 聚类离散化............................................ 26 2.4.4 信息增益离散化 ........................................ 26 2.4.5 卡方离散化............................................ 27 2.4.6 类别属性相互依赖最大化 ................................ 28 2.4.7 小结..................................................29 2.5 离群值检测 ................................................ 29 2.5.1 基于统计的方法 ........................................ 30 2.5.2 基于近邻的方法 ........................................ 30 2.5.3 小结..................................................33 2.6 其他预处理方法 ........................................... 33 案例与实战 ..................................................... 33 第 3 章 回归模型 .................................................. 35 3.1 线性回归 .................................................. 36 3.1.1 一元线性回归 .......................................... 36 3.1.2 多元线性回归 .......................................... 37 3.1.3 小结..................................................38 3.2 线性回归正则化 ........................................... 39 3.2.1 岭回归和 LASSO.......................................39 3.2.2 其他正则化的线性回归模型 .............................. 43 3.3 非线性回归 ................................................ 44 3.3.1 样条回归.............................................. 44 3.3.2 径向基函数网络 ........................................ 46 案例与实战 ..................................................... 48 第 4 章 分类模型 .................................................. 50 4.1 逻辑回归 .................................................. 51 4.1.1 从线性回归到逻辑回归 .................................. 52 4.1.2 参数估计.............................................. 53 4.1.3 小结..................................................54 4.2 k-近邻..................................................... 55 4.2.1 k 值的选择 ............................................ 56 4.2.2 提高预测性能 .......................................... 57 4.2.3 小结..................................................58 4.3 决策树 .................................................... 59 4.3.1 决策树的生成 .......................................... 60 4.3.2 常见的决策树算法 ...................................... 65 4.3.3 决策树的剪枝 .......................................... 67 4.3.4 决策树分析............................................ 68 4.4 朴素贝叶斯 ................................................ 69 4.4.1 贝叶斯定理............................................ 69 4.4.2 朴素贝叶斯模型 ........................................ 70 4.4.3 参数估计方法 .......................................... 71 4.4.4 算法分析.............................................. 72 4.5 支持向量机 ................................................ 72 4.5.1 间隔与支持向量 ........................................ 72 4.5.2 对偶问题与 SMO 算法 .................................. 75 4.5.3 软间隔................................................77 4.5.4 核函数与核方法 ........................................ 79 4.5.5 支持向量机的优缺点 .................................... 80 案例与实战 ..................................................... 80 第 5 章 集成模型 .................................................. 82 5.1 集成方法综述..............................................83 5.1.1 Bagging 算法 .......................................... 84 5.1.2 Boosting 算法 ......................................... 86 5.1.3 Stacking 算法 ......................................... 87 5.2 随机森林算法..............................................88 5.2.1 随机森林算法的原理 .................................... 88 5.2.2 性能评估和特征评估 .................................... 89 5.2.3 随机森林算法的特点 .................................... 90 5.3 AdaBoost 算法 ............................................ 91 5.3.1 AdaBoost 算法的流程 .................................. 92 5.3.2 AdaBoost 算法的误差分析...............................96 5.3.3 AdaBoost 算法的目标函数...............................98 5.3.4 AdaBoost 算法小结 .................................... 98 5.4 应用实例:个人信用风险评估.............................. 99 5.4.1 项目背景.............................................. 99 5.4.2 建模流程.............................................. 99 5.4.3 效果评估.............................................100 5.4.4 总结 ................................................ 104 案例与实战 .................................................... 104 第 6 章 聚类模型 ................................................. 106 6.1 K-means 聚类............................................ 107 6.1.1 模型 ................................................ 108 6.1.2 K 值的选择 .......................................... 109 6.1.3 质心的选择...........................................109 6.1.4 K-means 的一些变种 .................................. 110 6.2 层次聚类 ................................................ 110 6.2.1 聚合式聚类...........................................111 6.2.2 分拆式聚类...........................................113 6.3 谱聚类 ................................................... 114 6.4 基于密度的聚类 .......................................... 116 6.5 小结......................................................117 案例与实战 .................................................... 118 第 7 章 关联规则挖掘 ............................................ 119 7.1 关联规则概述.............................................120 7.2 Apriori 算法.............................................. 123 7.2.1 Apriori 算法的性质....................................123 7.2.2 Apriori 算法的步骤....................................123 7.2.3 Apriori 算法的示例....................................124 7.2.4 关联规则生成.........................................125 7.2.5 Apriori 算法小结......................................125 7.3 FP-Growth 算法..........................................126 7.3.1 构建 FP-tree ......................................... 126 7.3.2 基于 FP-tree 挖掘频繁项集............................. 130 7.3.3 关联规则生成.........................................132 7.3.4 FP-Growth 算法小结 .................................. 132 案例与实战 .................................................... 133 第 8 章 降维 ..................................................... 135 8.1 主成分分析............................................... 136 8.1.1 PCA 算法的步骤......................................137 8.1.2 PCA 算法小结........................................139 8.2 线性判别分析.............................................139 8.2.1 LDA 的优化目标...................................... 140 8.2.2 LDA 的求解方法...................................... 142 8.2.3 LDA 小结............................................143 8.3 多维尺度变换.............................................145 8.3.1 多维尺度变换的优化目标 ............................... 145 8.3.2 多维尺度变换的求解方法 ............................... 145 8.3.3 应用实例.............................................148 8.3.4 多维尺度变换小结 ..................................... 149 8.4 局部线性嵌入.............................................149 8.4.1 局部线性嵌入算法的步骤 ............................... 150 8.4.2 局部线性重构.........................................151 8.4.3 寻找低维表示.........................................152 8.4.4 局部线性嵌入算法小结 ................................. 153 8.5 其他降维方法.............................................154 案例与实战 .................................................... 154 第 9 章 特征选择 ................................................. 156 9.1 特征选择的一般过程...................................... 157 9.2 特征选择常用的方法...................................... 159 9.2.1 过滤式...............................................159 9.2.2 封装式...............................................160 9.2.3 嵌入式...............................................161 9.3 无监督特征选择 .......................................... 162 9.4 小结......................................................163 案例与实战 .................................................... 163 第 10 章 最大期望算法 ........................................... 165 10.1 EM 算法概述............................................166 10.2 高斯混合模型 ........................................... 168 10.3 EM 算法小结............................................171 案例与实战 .................................................... 172 第 11 章 概率图模型 ............................................. 174 11.1 概率图模型概述 ......................................... 175 11.1.1 有向图模型..........................................176 11.1.2 无向图模型..........................................177 11.2 隐马尔可夫模型 ......................................... 178 11.2.1 估算问题:前后向算法 ................................ 180 11.2.2 解码问题:Viterbi 算法 ............................... 181 11.2.3 学习问题:Baum-Welch 算法 .......................... 183 11.2.4 隐马尔可夫模型的拓展 ................................ 186 11.3 条件随机场..............................................188 11.3.1 一阶链式条件随机场及其一般形式 ...................... 188 11.3.2 特征工程............................................190 11.3.3 条件随机场模型的参数估计 ............................ 192 11.3.4 条件随机场模型的推断 ................................ 192 11.4 小结 .................................................... 193 案例与实战 .................................................... 193 第 12 章 深度学习................................................195 12.1 多层感知机..............................................198 12.1.1 激活函数............................................199 12.1.2 网络结构设计........................................200 12.1.3 输出层..............................................201 12.1.4 损失函数............................................201 12.1.5 反向传播算法........................................202 12.2 深度学习模型的优化.....................................204 12.2.1 动量法..............................................206 12.2.2 Nesterov 动量法 ..................................... 206 12.2.3 具有自适应学习率的优化算法 .......................... 206 12.2.4 批规范化............................................209 12.2.5 小结 ............................................... 210 12.3 卷积神经网络 ........................................... 211 12.3.1 卷积操作............................................211 12.3.2 池化 ............................................... 214 12.3.3 典型的卷积神经网络结构 .............................. 215 12.4 循环神经网络 ........................................... 216 12.4.1 循环神经网络的计算图表示 ............................ 217 12.4.2 循环神经网络的结构 .................................. 217 12.4.3 长短期记忆网络...................................... 220 12.5 注意力机制网络 ......................................... 222 12.5.1 序列到序列模型中的注意力机制 ........................ 223 12.5.2 一般化的注意力机制 .................................. 225 12.5.3 基于注意力机制的 Transformer 模型 .................... 226 12.5.4 BERT 和 GPT-3 预训练模型 .......................... 231 12.6 小结 .................................................... 233 案例与实战 .................................................... 234 第 13 章 文本分析................................................235 13.1 文本表示模型 ........................................... 237 13.1.1 向量空间模型........................................237 13.1.2 文本降维............................................239 13.2 主题模型 ................................................ 245 13.2.1 LDA 模型...........................................245 13.2.2 参数估计............................................247 13.2.3 主题模型小结........................................250 13.3 词向量 .................................................. 251 13.3.1 Word2Vec .......................................... 251 13.3.2 GloVe .............................................. 253 13.3.3 ELMo .............................................. 254 13.3.4 小结 ............................................... 256 13.4 情感分析 ................................................ 256 13.4.1 情感分类............................................257 13.4.2 基于特性的情感分析 .................................. 259 13.4.3 小结 ............................................... 263 案例与实战 .................................................... 264 第 14 章 图与网络分析 ........................................... 266 14.1 图论的基本概念 ......................................... 267 14.1.1 基本定义............................................268 14.1.2 常见图介绍..........................................269 14.2 几何特征 ................................................ 271 14.2.1 中心度..............................................272 14.2.2 集聚系数............................................275 14.2.3 模块度..............................................276 14.3 链接分析 ................................................ 277 14.3.1 PageRank 算法 ...................................... 277 14.3.2 主题敏感 PageRank 算法..............................280 14.3.3 HITS 算法 .......................................... 280 14.4 图表示学习..............................................281 14.4.1 浅层节点向量表示 .................................... 281 14.4.2 图神经网络..........................................285 14.4.3 图向量表示..........................................289 14.5 社区发现 ................................................ 289 14.5.1 基于层次聚类的算法 .................................. 290 14.5.2 基于模块度优化的算法 ................................ 291 14.6 知识图谱 ................................................ 292 14.6.1 知识图谱的数据模型 .................................. 292 14.6.2 知识图谱的数据管理方法 .............................. 294 14.6.3 知识图谱在不同领域的研究热点 ........................ 295 案例与实战 .................................................... 296 第 15 章 分布式计算 ............................................. 297 15.1 Hadoop: 分布式存储与处理.............................. 298 15.1.1 分布式文件系统 HDFS................................299 15.1.2 分布式数据处理框架 MapReduce ....................... 301 15.2 常见模型的 MapReduce 实现............................ 304 15.2.1 统计查询模型的 MapReduce 实现 ...................... 304 15.2.2 线性回归的 MapReduce 实现 .......................... 305 15.2.3 支持向量机的 MapReduce 实现 ........................ 306 15.2.4 K-means 的 MapReduce 实现 ......................... 307 15.2.5 PageRank 的 MapReduce 实现 ........................ 307 15.2.6 小结 ............................................... 308 15.3 Spark:分布式数据分析 ................................. 308 15.3.1 弹性分布式数据集 .................................... 309 15.3.2 Spark 运行流程 ...................................... 311 15.3.3 Spark 与 Hadoop 的对比.............................. 312 15.4 其他分布式系统 ......................................... 313 附录 A 矩阵运算 ................................................. 314 A.1 基本概念 ................................................ 315 A.2 矩阵求导 ................................................ 317 A.3 矩阵分解 ................................................ 318 附录 B 概率论基础 ............................................... 320 B.1 基本概念.................................................321 B.2 常见概率分布 ............................................ 321 附录 C 优化算法 ................................................. 326 C.1 基本概念.................................................327 C.2 梯度下降法 .............................................. 328 C.3 拉格朗日乘数法.......................................... 329 附录 D 距离......................................................331 D.1 欧氏距离 ................................................ 332 D.2 曼哈顿距离 .............................................. 332 D.3 马氏距离 ................................................ 333 D.4 海明距离 ................................................ 333 D.5 余弦相似度 .............................................. 334 D.6 皮尔逊相关系数..........................................334 D.7 杰卡德相似度 ............................................ 334 D.8 KL 散度 ................................................. 335 附录 E 模型评估 ................................................. 336 E.1 基本概念.................................................337 E.2 数据集划分方法.......................................... 339 E.3 模型评价指标 ............................................ 341
你还可能感兴趣
我要评论
|






