《Spark大数据技术与应用（第2版）》——图书配套资料下载

发布时间：2021-06-02 作者：本站原创浏览量：872

1. 图书简介

本书是定位于Spark大数据技术从入门到应用的系统教程，主要包括Spark基本原理与架构、集群安装配置、Scala与Spark编程、Spark生态圈组件、完整项目案例等精选内容。涉及的知识点精简，实践操作性强，可以有效指导读者学习理解Spark大数据技术并进行开发应用。

本书采用了以任务为导向的教学模式，按照解决实际任务的工作流程路线，逐步学习相关的理论知识点，推导生成可行的解决方案，最后落实在任务实现环节。全书大部分章节紧扣任务需求展开，不堆积知识点，着重于解决思路的启发与解决方案的实施。从任务需求到实现这一完整流程的体验，更有助于读者真正的理解与掌握Spark大数据技术。

全书共9章，具体内容包括Spark概述、Scala基础、Spark编程、Spark编程进阶、Spark SQL结构化数据文件处理、Spark Streaming实时计算框架、Spark GraphX图计算框架、Spark MLlib功能强大的算法库、以及广告检测流量作弊识别的项目案例。本书的大部分章节包含了实训与课后习题，通过练习和操作实践，可以帮助读者巩固所学的内容。

本书可以作为高校大数据技术类专业教材，也可作为大数据技术爱好者自学用书。

2. 第2版与第1版的区别

Spark目前在计算方面依旧具有强大的竞争力，结合Spark框架的发展现状及Spark未来的发展趋势，并根据广大读者的意见反馈，本书保留原书特色的基础上，对教材进行了内容与代码的全面升级。第2版修订的主要内容如下。

第1章修改了Spark集群的搭建过程介绍，将使用的CentOS版本由CentOS 6.7升级至CentOS 7.8，将使用的JDK版本由JDK 1.7升级至JDK 1.8，将使用的Hadoop版本由Hadoop 2.6.4升级至Hadoop 3.1.4，将使用的Spark版本由Spark 1.6.3升级至Spark 2.4.7。
第2章修改了Scala的安装过程介绍，将Scala版本由Scala 2.10.6升级至Scala 2.11.12。
第3章将章节的例子数据由学生成绩表数据更换为员工薪资表数据，根据数据重新了设置任务名称，并修改了章节中任务实现的内容。
第4章修改了Spark开发环境搭建的过程介绍，将IDEA版本由ideaIC 2017.1.5升级至ideaIC 2018.3.6，将IDEA中Scala插件的版本由2017.1.20升级至2018.3.6。
第4章的案例更换为“统计分析竞赛网站用户访问日志数据”。
第5章修改了Spark SQL CLI的配置过程，将使用的Hive版本由Hive 1.2.1升级至Hive 3.1.2，将使用的MySQL驱动包版本由5.1.32升级至5.1.27；修改了Spark SQL与Shell交互的内容介绍。
第5章的案例更换为“统计分析竞赛网站用户访问日志数据”。
第6章的案例更换为“实现书籍热度实时计算”。
第7章的案例更换为“实现网页价值排名Top10”。
第8章的案例更换为“使用决策树算法实现网络入侵识别分类”。
第9章的案例更换为“广告检测的流量作弊识别”。
更新了全书的实训和课后习题。

3. 图书配套资料下载说明

方法：打开云教材（https://book.tipdm.org/）,下载对应的图书资源。