本书全面介绍了自然语言处理(NLP)的核心概念与技术,内容覆盖文本预处理、文本的多种表示方法,深入探讨了文本分类、聚类技术,以及信息抽取和实体识别,还涉及了机器翻译、自动摘要、智能问答与对话系统,以及情感分析和舆情监测等高级应用。此外,对知识图谱的构建和应用,以及损失函数与模型优化也进行了详细阐述,为读者提供了自然语言处理领域的系统性知识。本书适合AI、机器学习、深度学习及自然语言处理的爱好者阅读,也可以作为高等院校的教材使用。
谢美萍,本科与硕士毕业于西北工业大学,博士毕业于哈尔滨工程大学,2001年至今为上海财经大学信息管理与工程学院 副教授,研究生导师,主要研究方向为数据挖掘与数据分析、非线性系统建模、机器学习。
目 录
第1章 绪 论 1
1.1 自然语言处理的定义和发展历程 1
1.1.1 自然语言处理的定义 2
1.1.2 自然语言处理的发展历程 2
1.2 自然语言处理的研究内容和研究方法 5
1.2.1 自然语言处理的研究内容 5
1.2.2 自然语言处理的研究方法 8
1.3 自然语言处理的应用和前景 8
1.4 自然语言处理的开发环境 9
本章小结 12
第2章 文本预处理 14
2.1 文本清洗和去噪 14
2.2 词法分析 16
2.2.1 中文分词 16
2.2.2 词性标注 28
2.3 句法分析 31
2.3.1 句法分析的概念 32
2.3.2 句法分析树库及其评测方法 33
2.3.3 依存句法分析 36
2.3.4 依存句法分析工具 38
2.4 语义分析 39
2.4.1 词义消歧 39
2.4.2 语义角色标注 42
2.4.3 语义分析面临的挑战 45
本章小结 46
第3章 文本表示方法 47
3.1 One-Hot编码 47
3.2 词袋模型 49
3.3 TF-IDF方法 50
3.4 Word2Vec方法 53
3.4.1 连续词袋模型 54
3.4.2 Skip-gram模型 56
3.4.3 Word2Vec的应用 57
3.5 分布式表示方法 60
3.5.1 分布式语义假设 60
3.5.2 奇异值分解 61
3.6 词嵌入 63
本章小结 64
第4章 文本分类和聚类 65
4.1 文本分类的概念和任务 66
4.1.1 文本分类的概念 66
4.1.2 文本分类的任务 67
4.2 文本分类算法 68
4.2.1 朴素贝叶斯算法 68
4.2.2 支持向量机 72
4.3 文本聚类的概念和任务 76
4.3.1 文本聚类的概念 76
4.3.2 文本聚类的过程 77
4.4 文本聚类算法 78
4.4.1 文本聚类中的数据类型及规范化 78
4.4.2 文本聚类中的聚类算法 81
本章小结 86
第5章 信息抽取 87
5.1 信息抽取的概念和任务 87
5.1.1 信息抽取的相关概念 88
5.1.2 信息抽取的任务 90
5.2 信息抽取的方法和技术 93
5.2.1 基于规则的方法 93
5.2.2 有监督学习方法 101
5.2.3 无监督学习方法 106
5.2.4 半监督学习方法 109
本章小结 114
第6章 命名实体识别 115
6.1 命名实体识别技术的发展现状 116
6.2 命名实体识别的概念 116
6.3 实体识别模型 118
6.3.1 循环神经网络 118
6.3.2 BI-LSTM-CRF模型 124
6.3.3 Seq2Seq模型 128
6.3.4 注意力机制 130
6.4 实体识别案例 132
本章小结 133
第7章 机器翻译和文本摘要 134
7.1 机器翻译 134
7.1.1 机器翻译概述 135
7.1.2 基于规则的机器翻译方法 137
7.1.3 基于统计的机器翻译方法 138
7.1.4 基于神经网络的机器翻译方法 141
7.1.5 机器翻译的质量评价 147
7.2 文本摘要 149
7.2.1 抽取式摘要 149
7.2.2 抽象式摘要 151
7.2.3 文本摘要的评估 153
本章小结 154
第8章 智能问答系统和对话系统 155
8.1 智能问答系统 155
8.1.1 智能问答系统概述 155
8.1.2 智能问答系统的主要组成部分 156
8.1.3 智能问答系统的类型 160
8.1.4 智能问答系统的评价 167
8.2 对话系统 169
8.2.1 对话系统概述 169
8.2.2 对话系统的基本过程 170
8.2.3 对话系统的类型 171
8.2.4 对话系统的评价 174
本章小结 174
第9章 情感分析和舆情监测 176
9.1 文本情感分析简介 176
9.1.1 文本情感分析的主要内容 177
9.1.2 文本情感分析的常见应用 179
9.2 情感分析的方法和技术 182
9.2.1 基于情感词典的方法 183
9.2.2 基于文本分类的方法 185
9.2.3 基于LDA主题模型的方法 187
9.3 舆情监测简介 189
9.3.1 舆情监测的主要内容 189
9.3.2 舆情监测的常见应用 192
9.4 舆情监测技术 194
9.4.1 网络爬虫 194
9.4.2 文本情感分析 195
9.5 电商产品情感评论数据分析案例 196
9.5.1 背景与挖掘目标 196
9.5.2 分析方法与过程 197
9.5.3 运行结果 199
本章小结 201
第10章 知识图谱 202
10.1 知识图谱概述 202
10.1.1 知识图谱的发展历程 203
10.1.2 知识图谱的基本概念 203
10.1.3 知识图谱的研究内容 205
10.2 知识图谱的表示与存储 205
10.2.1 知识图谱的符号表示 206
10.2.2 知识图谱的向量表示 210
10.2.3 基于表的知识图谱存储 214
10.2.4 基于图的知识图谱存储 219
10.3 知识图谱的构建 220
10.3.1 数据获取 220
10.3.2 知识抽取 220
10.3.3 知识表示 221
10.3.4 知识融合 221
10.3.5 知识建模 222
10.3.6 知识推理 222
10.3.7 知识图谱的其他步骤 223
10.4 知识图谱的应用 226
10.4.1 搜索引擎 226
10.4.2 问答系统 226
10.4.3 推荐系统 227
10.4.4 推理决策 227
10.4.5 智能对话 227
10.5 构建词云图应用案例 228
本章小结 229
第11章 损失函数与模型瘦身 230
11.1 损失函数 230
11.2 常用的损失函数 231
11.2.1 0-1损失函数 231
11.2.2 交叉熵损失函数 231
11.2.3 平均绝对误差损失函数 232
11.2.4 均方误差损失函数 232
11.2.5 Huber损失函数 233
11.2.6 分位数损失函数 233
11.2.7 Hinge损失函数 234
11.3 模型瘦身 234
11.3.1 知识蒸馏 235
11.3.2 网络剪枝 238
本章小结 241