SparkSQL是Spark大数据框架的一部分,支持使用标准SQL查询和HiveQL来读写数据,可用于结构化数据处理,并可以执行类似SQL的Spark数据查询,有助于开发人员更快地创建和运行Spark程序。 全书分为4篇,共9章,第一篇讲解了SparkSQL发展历史和开发环境搭建。第二篇讲解了SparkSQL实例,使
本书是在如今大数据迅猛发展背景下,结合作者经验编写的大数据分析方面的教材,本书以培养学生三能(学习能力、实践能力、创新能力)为中心,采用国外MBA教材的体例和写法,将案例与应用背景相结合,将专业知识与实践相结合,并注重新的专业知识结构要求。
图书情报工作杂志社编的《数据管理的研究与实践》共收录27篇有关数据管理的研究与实践的文章,从理论到实践,从国内到国外,从多维度深刻分析目前中国数据管理的研究与实践的情况。特别是国外篇,美国社会科学数据管理联盟的建设与发展给中国提供了很好的参考价值。
本书共分11章,包括大数据的产生发展、Hadoop概述、MapReduec的工作机制、MapReduec的类型格式与特征、Hadoop分布式文件系统、Hadoop生态系统等内容。
本书全面阐述了大数据的内涵与特征、体系架构以及所涉及关键技术。全书共分7章,内容包括大数据概论、大数据存储、大数据处理、大数据分析、大数据可视化、大数据应用和大数据发展趋势与展望,每章内容都与主流技术和典型案例紧密结合,以便读者对大数据及其关键技术有更好的了解和掌握。本书适合作为高等院校数据科学与大数据技术、计算机、软
本书提出了对二阶平稳过程建模理论的论述,对于工程和应用科学也具有重要意义。关于平稳过程的处理在全书开头,这是一个有悠久历史的基础性问题,始于上世纪40年代柯尔莫戈洛夫、维纳等的工作。通过现代数字计算机,关于滤波与平稳随机信号与系统建模也得到了研究和解决,这始于上世纪60年代早期卡尔曼的基础性工作。本书提供了基于希尔伯特
本书给出了从基于本体的数字内容数据的形式化表示、基于本体的数字内容数据的存储模型、数字内容数据的访问模型,到基于本体的数字内容数据的查询模型的方法,不仅对数字内容数据给出了形式化描述与逻辑推导,同时针对一些实际问题给出有效的解决方法,从而实现对数字媒体数据进行有效管理;最后,给出了一些应用实例。本书旨在从本体角度去管理
人文社会科学和自然科学研究过程中积累了大量的研究数据,这些数据如何管理、共享、出版和引证?如何再次利用他人的数据?过程中牵涉到哪些知识产权?本书的几位作者不仅熟悉全球尤其欧美的研究数据管理的实践应用,而且在英国数据档案馆拥有多年数据相关专业工作的管理与实践经验,他们在本书中将多年积累的**数据管理实践建议、指导和培训倾
面向动态数据高效属性约简算法研究
本书是数据挖掘和机器学习领域的经典畅销教材,被国内外众多名校选用。第4版新增了关于深度学习和概率方法的重要章节,同时,备受欢迎的机器学习软件Weka也再度升级。书中全面覆盖了该领域的实用技术,致力于帮助读者理解不同技术的工作方式和应用方式,从而学会在工程实践和商业项目中解决真实问题。本书适合作为高等院校相关课程的教材,