随着数据量的爆炸式增长,大数据存储技术在数据科学、人工智能、云计算等领域的重要性日益凸显。大数据不仅为个人生活、企业经营,以及国家与社会的发展带来了机遇,也带来了挑战。本书是一本大数据入门图书,主要介绍了Hive、HBase、Sqoop等内容。本书采用理论与实践相结合的讲解方式,旨在帮助读者摆脱枯燥的理论学习,注重实际动手能力的培养。通过本书的学习,读者可以掌握Hadoop生态圈中常用组件的大数据存储技术,如HDFS、Hive、HBase。本书不仅注重理论知识的讲解,更强调实践能力的培养,适合高职学生使用,可以帮助读者快速入门大数据领域,提升自己的实践能力和就业竞争力。
		
	
徐自力,男,浙江安防职业技术学院大数据技术专任教师,ACM竞赛教练,大数据技术与应用竞赛教练,2018年毕业于浙江工业大学,硕士研究生学历。
项目一  大数据存储	1
任务1  数据仓库介绍	3
1.1.1  数据仓库概念	3
1.1.2  数据仓库的构建	4
1.1.3  数据仓库的主要特点	5
1.1.4  数据仓库和数据库的区别	5
1.1.5  数据仓库应用场景	6
任务2  NoSQL数据库介绍	7
1.2.1  NoSQL数据库概念	7
1.2.2  NoSQL数据库的基本原理	7
1.2.3  NoSQL数据库的常见存储结构类型	8
1.2.4  NoSQL数据库适用场景	8
1.2.5  NoSQL数据库的关键技术	9
项目二  Hadoop基础介绍	11
任务1  基于VMware创建CentOS 7虚拟机	14
2.1.1  VMware软件安装	14
2.1.2  创建CentOS 7虚拟机	16
2.1.3  虚拟机网络配置	23
任务2  Hadoop环境搭建	29
2.2.1  Java环境配置	29
2.2.2  Hadoop伪分布式环境搭建	30
项目三  HDFS操作与MapReduce基础	36
任务1  HDFS的操作命令	39
3.1.1  环境准备	39
3.1.2  HDFS操作	40
任务2  第一个MapReduce程序WordCount	43
3.2.1  创建MapReduce工程	43
3.2.2  编写代码	46
3.2.3  MapReduce程序运行	50
项目四  Hive基础介绍	55
任务1  Hive安装	60
4.1.1  基础环境准备	60
4.1.2  Hive安装步骤	60
任务2  Hive数据库操作	62
任务3  Hive数据表操作	65
项目五  Hive数据类型	72
任务1  Hive原始数据类型应用	75
5.1.1  数值类型	75
5.1.2  字符串类型	76
5.1.3  布尔类型与时间类型	77
5.1.4  插入演示数据	78
任务2  Hive复杂数据类型应用	79
5.2.1  array	79
5.2.2  map	80
5.2.3  struct	81
5.2.4  union	82
项目六  Hive表操作	84
任务1  Hive内部表与外部表	86
6.1.1  Hive内部表	86
6.1.2  Hive外部表	88
任务2  Hive分区表	91
任务3  Hive分桶表	96
项目七  Hive数据操作	100
任务  Hive数据操作	102
7.1.1  使用load命令加载数据	103
7.1.2  使用insert命令插入数据	104
7.1.3  export命令与import命令	108
7.1.4  使用truncate命令删除数据	109
项目八  Hive QL语句	111
任务1  Hive QL语句	112
8.1.1  基础查询	113
8.1.2  运算符	116
8.1.3  Hive函数	117
8.1.4  表连接	125
8.1.5  排序	128
8.1.6  分组	131
任务2  Hive JDBC操作	133
8.2.1  Hive JDBC工程搭建	133
8.2.2  通过Hive JDBC操作数据表	137
项目九  HBase基础介绍	144
任务  HBase安装	147
9.1.1  基础环境准备	147
9.1.2  安装HBase	148
项目十  HBase操作	151
任务1  HBase Shell操作	154
任务2  HBase Java API	157
项目十一  Sqoop基础介绍	167
任务1  Sqoop安装	169
任务2  Sqoop应用	170
项目十二  综合应用——电商会员分析	176
任务1  Sqoop会员数据采集	178
12.1.1  准备数据	178
12.1.2  数据采集	180
任务2  会员信息分析	181