《Spark大数据技术与应用(第2版)》——图书配套资料下载

发布时间:2021-06-02 作者:本站原创 浏览量:872

1. 图书简介

本书是定位于Spark大数据技术从入门到应用的系统教程,主要包括Spark基本原理与架构、集群安装配置、Scala与Spark编程、Spark生态圈组件、完整项目案例等精选内容。涉及的知识点精简,实践操作性强,可以有效指导读者学习理解Spark大数据技术并进行开发应用。

本书采用了以任务为导向的教学模式,按照解决实际任务的工作流程路线,逐步学习相关的理论知识点,推导生成可行的解决方案,最后落实在任务实现环节。全书大部分章节紧扣任务需求展开,不堆积知识点,着重于解决思路的启发与解决方案的实施。从任务需求到实现这一完整流程的体验,更有助于读者真正的理解与掌握Spark大数据技术。

全书共9章,具体内容包括Spark概述、Scala基础、Spark编程、Spark编程进阶、Spark SQL结构化数据文件处理、Spark Streaming实时计算框架、Spark GraphX图计算框架、Spark MLlib功能强大的算法库、以及广告检测流量作弊识别的项目案例。本书的大部分章节包含了实训与课后习题,通过练习和操作实践,可以帮助读者巩固所学的内容。

本书可以作为高校大数据技术类专业教材,也可作为大数据技术爱好者自学用书。 

2. 第2版与第1版的区别

Spark目前在计算方面依旧具有强大的竞争力,结合Spark框架的发展现状及Spark未来的发展趋势,并根据广大读者的意见反馈,本书保留原书特色的基础上,对教材进行了内容与代码的全面升级。第2版修订的主要内容如下。

  • 第1章修改了Spark集群的搭建过程介绍,将使用的CentOS版本由CentOS 6.7升级至CentOS 7.8,将使用的JDK版本由JDK 1.7升级至JDK 1.8,将使用的Hadoop版本由Hadoop 2.6.4升级至Hadoop 3.1.4,将使用的Spark版本由Spark 1.6.3升级至Spark 2.4.7。

  • 第2章修改了Scala的安装过程介绍,将Scala版本由Scala 2.10.6升级至Scala 2.11.12。

  • 第3章将章节的例子数据由学生成绩表数据更换为员工薪资表数据,根据数据重新了设置任务名称,并修改了章节中任务实现的内容。

  • 第4章修改了Spark开发环境搭建的过程介绍,将IDEA版本由ideaIC 2017.1.5升级至ideaIC 2018.3.6,将IDEA中Scala插件的版本由2017.1.20升级至2018.3.6。

  • 第4章的案例更换为“统计分析竞赛网站用户访问日志数据”。

  • 第5章修改了Spark SQL CLI的配置过程,将使用的Hive版本由Hive 1.2.1升级至Hive 3.1.2,将使用的MySQL驱动包版本由5.1.32升级至5.1.27;修改了Spark SQL与Shell交互的内容介绍。

  • 第5章的案例更换为“统计分析竞赛网站用户访问日志数据”。

  • 第6章的案例更换为“实现书籍热度实时计算”。

  • 第7章的案例更换为“实现网页价值排名Top10”。

  • 第8章的案例更换为“使用决策树算法实现网络入侵识别分类”。

  • 第9章的案例更换为“广告检测的流量作弊识别”。

  • 更新了全书的实训和课后习题。

3. 图书配套资料下载说明

方法:打开云教材(https://book.tipdm.org/),下载对应的图书资源。