本书是定位于Spark大数据技术从入门到应用的系统教程,主要包括Spark基本原理与架构、集群安装配置、Scala与Spark编程、Spark生态圈组件、完整项目案例等精选内容。涉及的知识点精简,实践操作性强,可以有效指导读者学习理解Spark大数据技术并进行开发应用。
本书采用了以任务为导向的教学模式,按照解决实际任务的工作流程路线,逐步学习相关的理论知识点,推导生成可行的解决方案,最后落实在任务实现环节。全书大部分章节紧扣任务需求展开,不堆积知识点,着重于解决思路的启发与解决方案的实施。从任务需求到实现这一完整流程的体验,更有助于读者真正的理解与掌握Spark大数据技术。
全书共9章,具体内容包括Spark概述、Scala基础、Spark编程、Spark编程进阶、Spark SQL结构化数据文件处理、Spark Streaming实时计算框架、Spark GraphX图计算框架、Spark MLlib功能强大的算法库、以及广告检测流量作弊识别的项目案例。本书的大部分章节包含了实训与课后习题,通过练习和操作实践,可以帮助读者巩固所学的内容。
本书可以作为高校大数据技术类专业教材,也可作为大数据技术爱好者自学用书。
Spark目前在计算方面依旧具有强大的竞争力,结合Spark框架的发展现状及Spark未来的发展趋势,并根据广大读者的意见反馈,本书保留原书特色的基础上,对教材进行了内容与代码的全面升级。第2版修订的主要内容如下。
第1章修改了Spark集群的搭建过程介绍,将使用的CentOS版本由CentOS 6.7升级至CentOS 7.8,将使用的JDK版本由JDK 1.7升级至JDK 1.8,将使用的Hadoop版本由Hadoop 2.6.4升级至Hadoop 3.1.4,将使用的Spark版本由Spark 1.6.3升级至Spark 2.4.7。
第2章修改了Scala的安装过程介绍,将Scala版本由Scala 2.10.6升级至Scala 2.11.12。
第3章将章节的例子数据由学生成绩表数据更换为员工薪资表数据,根据数据重新了设置任务名称,并修改了章节中任务实现的内容。
第4章修改了Spark开发环境搭建的过程介绍,将IDEA版本由ideaIC 2017.1.5升级至ideaIC 2018.3.6,将IDEA中Scala插件的版本由2017.1.20升级至2018.3.6。
第4章的案例更换为“统计分析竞赛网站用户访问日志数据”。
第5章修改了Spark SQL CLI的配置过程,将使用的Hive版本由Hive 1.2.1升级至Hive 3.1.2,将使用的MySQL驱动包版本由5.1.32升级至5.1.27;修改了Spark SQL与Shell交互的内容介绍。
第5章的案例更换为“统计分析竞赛网站用户访问日志数据”。
第6章的案例更换为“实现书籍热度实时计算”。
第7章的案例更换为“实现网页价值排名Top10”。
第8章的案例更换为“使用决策树算法实现网络入侵识别分类”。
第9章的案例更换为“广告检测的流量作弊识别”。
更新了全书的实训和课后习题。
方法:打开云教材(https://book.tipdm.org/),下载对应的图书资源。