本书系统地介绍了数据仓库和数据挖掘的基本原理和应用方法,内容主要包括数据仓库的概念和相关技术发展、数据模型、数据 ETL,数据挖掘的数据预处理、数据分类、回归分析、关联规则挖掘、数据聚类、异常检测、数据可视化等算法,以及大数据智能平台的设计与实现。各章节以数据为“经”组织,以算法为“纬”讲述,既自然衔接又相对独立。读者可按教材的自然顺序学习,也可据实际需要挑选相关章节学习。 本书适合高等学校大数据科学与技术、人工智能、计算机科学与技术、软件工程等专业方向的本科生、研究生作为教材或参考书,也可供相关领域的科研、工程人员参考。
1.引入大量案例,注重实践和工程应用。
2.引入产教融合项目,案例为产教融合项目成果和科研成果,具有前沿性和引领性。
3. 配套资源丰富,教学资源丰富。
王树良,教授,博士生导师,北京理工大学电子政务研究院执行院长,第十一届全国青联委员,中国制造企业双创发展联盟副理事长,国家科技创新专项专家咨询组秘书长,教育部高等学校软件工程专业教学指导委员会委员,中国指挥与控制学会认知与行为专业委员会主任,数字政府建设服务联盟专家指导委员会委员,大数据系统软件国家工程研究中心技术指导委员会委员,Chinese Journal of Electronics编委。 入选国家高层次领军人才、科技部领军人才、教育部新世纪优秀人才、CICC青年科学家等。 主持国家重点研发计划项目、国家科技创新战略重大专项、国家自然科学基金项目等。 获国家科学技术进步奖一等奖、全国优秀博士学位论文、中国指挥与控制学会技术发明一等奖等。
第1章 概述 1
1.1 引言 1
1.1.1 数据剧增 1
1.1.2 生产要素 2
1.1.3 数据战略 2
1.2 研究历程 3
1.2.1 数据管理分析的历程 3
1.2.2 数据挖掘的历程 4
1.2.3 大数据的历程 5
1.3 数据挖掘的流程 6
1.3.1 业务理解 7
1.3.2 数据理解 7
1.3.3 数据准备 8
1.3.4 建立模型 8
1.3.5 模型评估 8
1.3.6 结果部署 9
1.4 数据驱动的应用 9
1.4.1 能源环保 9
1.4.2 医疗卫生 9
1.4.3 社会治安 10
1.4.4 城市发展 10
1.4.5 影视娱乐 10
1.4.6 推荐系统 11
1.5 关键挑战 11
1.5.1 数据庞大价值疏 11
1.5.2 多源异构变化快 12
1.5.3 解释困难隐私多 13
本章习题 13
第2章 数据 14
2.1 数据的基本内容 14
2.1.1 蕴含内容 14
2.1.2 基本类型 14
2.1.3 数据形态 18
2.1.4 数据属性 18
2.2 数据的统计特征 20
2.2.1 集中趋势 20
2.2.2 离散程度 21
2.2.3 分布形状 22
2.3 数据的相似相异 23
2.3.1 集合距离 24
2.3.2 几何距离 24
2.3.3 语义距离 25
本章习题 26
第3章 数据预处理 27
3.1 数据清洗 27
3.1.1 被污染的数据 27
3.1.2 数据清洗的过程 30
3.1.3 数据清洗的方法 30
3.2 数据变换 33
3.2.1 数据平滑 33
3.2.2 数据锐化 33
3.2.3 数据规范化 34
3.2.4 数据离散化 35
3.3 数据集成 38
3.3.1 基于数据仓库的方案 38
3.3.2 基于虚拟集成系统的方案 39
3.4 数据融合 40
3.4.1 基于知识图谱的数据融合 41
3.4.2 基于知识图谱的融合数据应用 42
3.5 数据归约 42
3.5.1 属性归约 42
3.5.2 数值归约 44
本章习题 46
第4章 数据仓库和数据湖 47
4.1 数据仓库的概念 47
4.1.1 从数据库到数据仓库 47
4.1.2 数据仓库的特点 48
4.1.3 传统数据仓库的Inmon模式、Kimball模式 49
4.1.4 动态数据仓库 50
4.1.5 海量数据仓库 50
4.2 数据仓库模型 51
4.2.1 星型模型 51
4.2.2 雪花型模型 52
4.2.3 星-雪花型模型 53
4.2.4 数据立方体 53
4.3 数据ETL 55
4.3.1 数据抽取 55
4.3.2 数据转换 56
4.3.3 数据加载 57
4.4 OLAP 57
4.4.1 从OLTP到OLAP 57
4.4.2 OLAP系统分类 58
4.4.3 OLAP基本操作 59
4.4.4 基于OLAP的数据挖掘 61
4.5 数据湖 61
4.5.1 数据湖的架构 62
4.5.2 数据湖的组成部分及其关系 62
4.5.3 存储系统 64
4.5.4 数据探索 65
4.6 湖仓一体 66
4.6.1 湖仓一体的架构 67
4.6.2 湖仓一体的优劣 68
本章习题 68
第5章 关联规则 69
5.1 关联规则的基本思想 69
5.2 关联规则的主要算法 71
5.2.1 Apriori算法 72
5.2.2 FP-Growth算法——Apriori算法的优化 77
5.3 关联规则的研发历程 79
本章习题 80
第6章 聚类 81
6.1 聚类的基本思想 81
6.1.1 簇 81
6.1.2 聚类分析 81
6.1.3 聚类评价指标 82
6.2 聚类的主要算法 84
6.2.1 k-means算法 85
6.2.2 高斯混合模型 90
6.2.3 层次聚类算法 92
6.2.4 DBSCAN聚类算法 98
6.2.5 网格聚类 101
6.2.6 拓扑图聚类 103
6.2.7 引力聚类 105
6.2.8 深度聚类 107
6.3 聚类的研发历程 109
本章习题 110
第7章 分类 111
7.1 分类的基本思想 111
7.1.1 相关概念 111
7.1.2 算法评价指标 111
7.2 分类的主要算法 113
7.2.1 决策树算法及其优化 113
7.2.2 CART算法 121
7.2.3 SVM算法 124
7.2.4 KNN算法 129
7.2.5 朴素贝叶斯算法 132
7.3 分类的研发历程 136
本章习题 137
第8章 回归分析 138
8.1 回归分析的基本思想 138
8.2 回归分析的主要模型 138
8.2.1 线性回归模型 139
8.2.2 非线性回归模型 143
8.2.3 逐步回归分析 145
8.2.4 逻辑回归分析 146
8.3 回归分析的研发历程 148
本章习题 149
第9章 异常检测 150
9.1 异常检测的基本思想 150
9.1.1 异常种类 150
9.1.2 异常检测方法 150
9.2 异常检测的主要算法 151
9.2.1 基于统计的异常检测 152
9.2.2 基于距离的异常检测 156
9.2.3 基于密度的异常检测 157
9.2.4 基于聚类的异常检测 159
9.2.5 时间序列异常检测 162
9.3 异常检测的研发历程 164
本章习题 166
第10章 高级数据分析方法 167
10.1 集成学习 167
10.1.1 装袋算法 167
10.1.2 提升 168
10.2 深度学习 169
10.2.1 多层感知机 170
10.2.2 卷积神经网络 172
10.2.3 递归神经网络 173
10.2.4 Transformer 174
10.3 强化学习 178
10.3.1 马尔可夫决策过程 178
10.3.2 基于值的强化学习 179
10.3.3 基于策略的强化学习 181
10.4 大模型预训练 183
10.4.1 BERT 183
10.4.2 GPT 185
10.4.3 BERT与GPT对比分析 186
本章习题 187
第11章 数据可视化 189
11.1 可视化基本思想 189
11.1.1 可视化人机交互 189
11.1.2 可视化分析 189
11.2 可视化主要方法 189
11.2.1 统计数据可视化方法 190
11.2.2 高维数据可视化方法 193
11.2.3 图数据可视化方法 194
11.2.4 文本数据可视化方法 197
11.2.5 时空数据可视化方法 199
11.2.6 交互可视化方法 199
11.3 基于可视化的交互式数据挖掘方法 200
11.3.1 基于可视化的交互式数据挖掘方法分类 200
11.3.2 可视化增强的通用数据挖掘方法 200
11.3.3 面向应用场景的方法 201
11.4 可视化数据分析挖掘的研发历程 203
本章习题 204
第12章 典型应用 205
12.1 客户流失预测 205
12.1.1 业务理解 205
12.1.2 数据理解 205
12.1.3 数据准备 207
12.1.4 构建模型 215
12.1.5 评估模型 221
12.1.6 结果部署 223
12.2 客户稳定度评估 224
12.2.1 业务理解 224
12.2.2 数据理解 225
12.2.3 数据准备 229
12.2.4 构建模型 230
12.2.5 评估模型 237
12.2.6 结果部署 239
12.3 基于梧桐·鸿鹄大数据实训平台的案例实践 239
12.3.1 客户流失预测 240
12.3.2 客户稳定度评估 244
本章习题 245
参考文献 246