本书构建了“基础理论—核心方法—高级应用”的递进式体系。基础理论模块聚焦
统计学核心原理,涵盖描述性统计分析、抽样分布与统计推断等基础内容,奠定方法论基
础。核心方法模块深入解析变量之间的独立性分析、非参数统计、相关与回归分析等关
键方法,通过阶梯式案例设计,实现从单一变量分析到复杂系统研究的能力进阶。高级
应用模块结合新闻文本特征提取、社会公众调查意见自动分类等前沿场景,系统阐述特征
提取、特征选择、主题挖掘等技术的方法论逻辑与应用范式。
本书凭借层次化的知识架构与多元化的案例设计,既能帮助读者夯实统计学理论基
础,又能培养其在复杂数据场景下的分析能力。本书适合具有一定数学素养的高年级本
科生和研究生,能帮助他们通过系统化的方法论训练,提升量化研究能力与数据驱动的决
策思维。
方秋莲
----------------------------
方秋莲,中南大学数学与统计学院副教授;中南大学数学与计算技术学院概率论与数理统计博士;中国现场统计学会成员。所授课程:统计学,计量经济学、贝叶斯统计。研究方向:数据搜集、分析与统计建模。
第1章 统计学基础与Python软件 ………………………………………………………… 1
1.1 统计的性质 …………………………………………………………………………… 2
1.1.1 统计的三种含义 ………………………………………………………………… 2
1.1.2 统计学的研究对象及特点 ……………………………………………………… 2
1.1.3 统计认识事物的过程 …………………………………………………………… 3
1.2 统计的发展历史 ……………………………………………………………………… 5
1.2.1 古典统计学时期 ………………………………………………………………… 5
1.2.2 近代统计学时期 ………………………………………………………………… 6
1.2.3 现代统计学时期 ………………………………………………………………… 7
1.3 统计学的分类 ………………………………………………………………………… 8
1.3.1 理论统计学和应用统计学 ……………………………………………………… 8
1.3.2 描述统计与推断统计 …………………………………………………………… 9
1.3.3 常用的统计研究方法…………………………………………………………… 10
1.3.4 统计学与其他学科之间的关系………………………………………………… 11
1.4 统计学的基本范畴…………………………………………………………………… 12
1.4.1 统计学中的几组基本概念……………………………………………………… 12
1.4.2 量的层次………………………………………………………………………… 19
1.4.3 数据类型………………………………………………………………………… 20
1.4.4 变量及其类型…………………………………………………………………… 22
1.5 Python软件简介 …………………………………………………………………… 22
1.5.1 Python的优势 ………………………………………………………………… 22
1.5.2 Python及相关工具的安装 …………………………………………………… 23
1.5.3 Python数据分析基础 ………………………………………………………… 25
习题 ………………………………………………………………………………………… 36
第2章 描述性统计分析 …………………………………………………………………… 38
2.1 数据的整理…………………………………………………………………………… 38
2.1.1 数据的预处理…………………………………………………………………… 38
2.1.2 数据透视表……………………………………………………………………… 44
2.2 数据的显示…………………………………………………………………………… 46
2.2.1 品质数据的整理与显示………………………………………………………… 46
2.2.2 顺序数据的整理与显示………………………………………………………… 51
2.2.3 数值型数据的整理与显示……………………………………………………… 54
2.3 数据特征的测度……………………………………………………………………… 64
2.3.1 数据集中趋势的测度———平均指标…………………………………………… 64
2.3.2 数据离散程度的测度———离散指标…………………………………………… 76
2.3.3 数据分布形态的测度———偏态系数与峰度系数……………………………… 80
2.4 案例分析———基于Python的统计指标计算 ……………………………………… 82
习题 ………………………………………………………………………………………… 86
第3章 抽样分布与统计推断 ……………………………………………………………… 93
3.1 统计量及其抽样分布………………………………………………………………… 93
3.1.1 样本……………………………………………………………………………… 94
3.1.2 统计量…………………………………………………………………………… 95
3.1.3 抽样分布………………………………………………………………………… 99
3.2 参数估计 …………………………………………………………………………… 113
3.2.1 点估计 ………………………………………………………………………… 113
3.2.2 区间估计 ……………………………………………………………………… 117
3.2.3 估计量的优良性 ……………………………………………………………… 120
3.3 假设检验 …………………………………………………………………………… 123
3.3.1 假设检验的思想 ……………………………………………………………… 123
3.3.2 两类错误 ……………………………………………………………………… 124
3.3.3 假设检验的一般步骤 ………………………………………………………… 125
3.3.4 正态总体参数的假设检验 …………………………………………………… 125
习题………………………………………………………………………………………… 128
第4章 变量之间的独立性分析…………………………………………………………… 131
4.1 列联分析 …………………………………………………………………………… 131
4.1.1 列联表 ………………………………………………………………………… 131
4.1.2 χ2 统计量……………………………………………………………………… 132
4.1.3 期望频数的计算 ……………………………………………………………… 132
4.1.4 拟合优度检验 ………………………………………………………………… 132
4.1.5 独立性检验 …………………………………………………………………… 134
4.1.6 分类变量相关性大小的测度 ………………………………………………… 134
4.2 单因素方差分析 …………………………………………………………………… 135
4.2.1 问题的提出 …………………………………………………………………… 136
4.2.2 方差分析的基本假定 ………………………………………………………… 137
4.2.3 方差分析的基本原理 ………………………………………………………… 138
4.2.4 计算及Python的实现 ……………………………………………………… 140
4.2.5 效应量分析 …………………………………………………………………… 142
4.2.6 多重比较 ……………………………………………………………………… 143
4.3 双因素方差分析 …………………………………………………………………… 150
4.3.1 重复试验的双因素方差分析 ………………………………………………… 150
4.3.2 无重复试验的双因素方差分析 ……………………………………………… 156
习题………………………………………………………………………………………… 160
第5章 非参数统计………………………………………………………………………… 165
5.1 符号检验 …………………………………………………………………………… 165
5.2 Wilcoxon 符号秩检验……………………………………………………………… 167
5.3 Wilcoxon秩和检验 ………………………………………………………………… 169
5.4 Kruskal-Wallis 检验 ……………………………………………………………… 171
5.5 非参数统计在多领域的应用 ……………………………………………………… 172
习题………………………………………………………………………………………… 173
第6章 相关与回归分析…………………………………………………………………… 175
6.1 相关关系的描述与测度 …………………………………………………………… 175
6.1.1 变量之间的相关关系 ………………………………………………………… 175
6.1.2 相关系数 ……………………………………………………………………… 179
6.1.3 相关关系的显著性检验 ……………………………………………………… 181
6.1.4 距离与相似系数 ……………………………………………………………… 183
6.2 一元线性回归分析 ………………………………………………………………… 185
6.2.1 “回归”思想 ………………………………………………………………… 185
6.2.2 回归模型的一般形式 ………………………………………………………… 186
6.2.3 一元线性回归 ………………………………………………………………… 187
6.2.4 案例分析———基于Python的一元线性回归分析 ………………………… 197
6.3 多元线性回归 ……………………………………………………………………… 202
6.3.1 多元线性回归模型 …………………………………………………………… 202
6.3.2 回归系数的估计 ……………………………………………………………… 204
6.3.3 回归方程的显著性检验 ……………………………………………………… 208
6.3.4 中心化和标准化 ……………………………………………………………… 210
6.4 案例分析 …………………………………………………………………………… 212
习题………………………………………………………………………………………… 216
第7章 多元相关分析……………………………………………………………………… 218
7.1 主成分分析 ………………………………………………………………………… 218
7.1.1 主成分分析的基本思想 ……………………………………………………… 219
7.1.2 相关概念 ……………………………………………………………………… 219
7.1.3 主成分的几何意义 …………………………………………………………… 220
7.1.4 主成分的推导 ………………………………………………………………… 221
7.1.5 主成分的性质 ………………………………………………………………… 222
7.1.6 标准化变量的主成分及其性质 ……………………………………………… 224
7.1.7 基于样本数据的主成分分析 ………………………………………………… 225
7.1.8 案例分析 ……………………………………………………………………… 226
7.1.9 主成分分析的应用 …………………………………………………………… 230
7.2 典型相关分析 ……………………………………………………………………… 233
7.2.1 典型相关分析的数学描述 …………………………………………………… 234
7.2.2 典型相关分析的基本理论及方法 …………………………………………… 235
7.2.3 计算步骤与程序 ……………………………………………………………… 239
7.3 案例分析 …………………………………………………………………………… 242
习题………………………………………………………………………………………… 248
第8章 基于新闻文本数据集的特征提取算法及改进案例……………………………… 252
8.1 文本集 ……………………………………………………………………………… 253
8.2 特征选择算法 ……………………………………………………………………… 254
8.2.1 算法概述 ……………………………………………………………………… 254
8.2.2 文档频率 ……………………………………………………………………… 255
8.2.3 卡方统计量 …………………………………………………………………… 256
8.2.4 信息增益 ……………………………………………………………………… 258
8.2.5 期望交叉熵 …………………………………………………………………… 260
8.2.6 TextRank算法 ……………………………………………………………… 260
8.3 特征选择算法的改进 ……………………………………………………………… 262
8.3.1 卡方统计量的改进 …………………………………………………………… 262
8.3.2 信息增益的改进 ……………………………………………………………… 264
8.3.3 期望交叉熵的改进 …………………………………………………………… 264
8.4 TF-IDF算法及其改进 …………………………………………………………… 265
8.4.1 特征加权概述 ………………………………………………………………… 265
8.4.2 TF-IDF算法 ………………………………………………………………… 265
8.4.3 TF-IDF算法的改进 ………………………………………………………… 266
8.5 案例分析 …………………………………………………………………………… 266
8.5.1 实验准备 ……………………………………………………………………… 266
8.5.2 实验设计 ……………………………………………………………………… 269
8.5.3 实验结果分析 ………………………………………………………………… 270
习题………………………………………………………………………………………… 283
第9章 统计调查开放式问题调查意见的自动分类汇总及主题挖掘案例 …………… 285
9.1 案例基本信息 ……………………………………………………………………… 285
9.1.1 案例背景 ……………………………………………………………………… 285
9.1.2 案例建设的目的 ……………………………………………………………… 286
9.1.3 案例建设流程图 ……………………………………………………………… 287
9.2 数据集介绍及预处理 ……………………………………………………………… 288
9.2.1 数据集介绍 …………………………………………………………………… 288
9.2.2 数据预处理 …………………………………………………………………… 289
9.3 基于统计学习的社会公众调查意见的单标签自动分类研究 …………………… 290
9.3.1 数据预处理 …………………………………………………………………… 290
9.3.2 分类器评价指标 ……………………………………………………………… 290
9.3.3 基于社会公众调查意见数据集的分类器选择 ……………………………… 291
9.4 主题挖掘 …………………………………………………………………………… 310
习题………………………………………………………………………………………… 331
参考文献……………………………………………………………………………………… 332