数据挖掘:实用案例分析

发布时间:2015-01-27 作者:本站原创 浏览量:7646
分享到:

1. 为什么要写这本书

现在,什么程序员最稀缺?什么技术最火?回答:数据挖掘!

数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果,因此“数据挖掘”已成为企业保持竞争力的必要方法。

近年来企业所处理的数据每五年就会呈现倍数增长。大部分的企业并没有数据不足的问题,过度的数据重复与不一致才是大问题,这使得企业无论在使用、有效管理以及将这些数据用于决策过程方面都遭遇到了问题,因此未来几年,随着大数据迅速发展,数据挖掘将是极为重要的成长领域,数据挖掘的应用越来越广泛,可以说,只要企业拥有分析价值的数据源,皆可用来进行高价值的数据挖掘分析。目前数据挖掘主要应用在电信、零售、农业、互联网、金融、电力、生物、化工和医疗等行业。典型的应用如:客户细分、流失预警、价值评估、交叉销售、欺诈发现、精准营销、故障诊断等。

总的来说,跟国外相比,我国由于信息化程度不太高,企业内部信息不完整,零售业、银行、保险、证券等对数据挖掘的应用并不太理想。但随着市场竞争的加剧,各行业对数据挖掘技术的意愿越来越强烈,可以预计,未来几年各行业的数据分析应用一定会从传统的统计分析发展到大规模数据挖掘应用。

2. 本书特色

本书作者从实践出发,结合大量数据挖掘工程案例,总结出数据挖掘建模过程应完成的任务主要包括:数据探索、数据预处理、分类与回归、聚类分析、时序预测、关联规则挖掘、偏差检测等。因此,图书的编排以解决某个应用的挖掘目标为前提,先介绍案例背景,再阐述分析方法与过程,最后完成模型构建,在介绍建模过程的同时穿插操作训练,把相关的知识点嵌入相应的操作过程中。

为了便于读者轻松地获取一个真实的实验环境,本书使用TipDM顶尖数据挖掘平台。TipDM是一款数据挖掘建模仿真工具,集WEKA、MATLAB、R、Mahout等工具算法接口,基于B/S架构设计,无须下载和安装,在线访问使用即可;系统操作简单,易学易用。读者可以根据光盘中的数据和书中所说明的方法,一边学习,一边在这个平台上上动手实践。此外,本书还设计了6个动手实验,目的是让读者能真正具备实际动手能力。

随光盘附数据挖掘建模案例数据文件、数据挖掘算法工具包源程序及使用说明。

3. 读者对象

  • 需求分析及系统设计人员。

这类人员可以在理解数据挖掘原理及建模过程的基础上,结合数据挖掘案例完成精确营销、客户分群、交叉销售、客户流失分析、客户信用记分、欺诈发现等数据挖掘应用的需求分析和设计。

  • 数据挖掘开发人员。

这类人员可以在理解数据挖掘应用需求和设计方案的基础上,结合图书提供的基于第三方接口快速完成数据挖掘应用的编程实现。

  • 开设有数据挖掘课程的高校教师和学生。

目前国内不少高校将数据挖掘引入本科教学中,在数学、自动化、电子信息、金融等专业开设了数据挖掘技术相关的课程,但目前这一课程的教学仍主要限于理论介绍。因为过于抽象,学生理解起来往往比较困难,教学效果不甚理想。本书提供的基于实战案例和建模实践的教学,能够使师生充分发挥互动性和创造性,理论联系实际,使师生获得最佳的教学效果。

  • 进行数据挖掘应用研究的科研人员。

许多科研院所为了更好地对科研工作进行管理,纷纷开发了适应自身特点的科研业务管理系统,并在使用过程中积累了大量的科研信息数据。但是,这些科研业务管理系统一般没有对这些数据进行深入分析,对数据所隐藏的价值并没有充分挖掘利用。科研人员需要数据挖掘建模工具及有关方法论来深挖科研信息的价值,从而提高科研水平。

  • 关注高级数据分析的人员。

业务报告和商业智能解决方案对于了解过去和现在的状况可能是非常有用的。但是,数据挖掘的预测分析解决方案还能使这类人员预见未来的发展状况,让他们的机构能够先发制人,而不是处于被动。因为数据挖掘的预测分析解决方案将复杂的统计方法和机器学习技术应用到数据之中, 通过使用预测分析技术来揭示隐藏在交易系统或企业资源计划(ERP)、结构数据库和普通文件中的模式和趋势,从而为这类人员的决策提供科学依据。

4. 如何阅读本书

本书共12章,分三个部分,通过一个个真实案例深入浅出的剖析,使读者在不知不觉中能快速领悟看似高不可攀的数据挖掘理论。读者在阅读过程中,应充分利用随书配套的案例建模数据,借助相关的数据挖掘建模工具,通过动手实践,帮助快速理解相关知识和理论。

第一部分是基础篇(第1~4章),主要对数据挖掘的基本概念、应用分类、建模方法及常用的建模工具进行了介绍;第4章对本书所用到的数据挖掘建模平台TipDM进行了说明。

第二部分是实战篇(第5~10章),其中第5~9章为案例部份,重点对数据挖掘技术在金融业、电信业、电力行业、互联网行业、生产制造业以及公共服务业等行业的应用场景进行了讨论,在过程组织上,按照先介绍案例背景、挖掘目标,再阐述分析方法与过程,最后完成模型构建的顺序进行,在介绍建模过程的同时穿插操作训练,把相关的知识点嵌入相应的操作过程中;第10章为实验部份,读者可以通过本章介绍的方法,动手实践以巩固加深数据挖掘知识及分析建模过程。

第三部分是高级篇(第11~12章),其中第11章对基于第三方接口的数据挖掘二次开发技术进行了说明,通过示例,介绍了如何基于WEKA和MATLAB等工具实现数据挖掘算法接口编程;第12章介绍了基于Hadoop框架开发的并行数据挖掘算法工具箱—TipCDM,并通过一个实际案例,介绍了基于云计算的海量数据挖掘的具体应用及实现过程。

详见:http://item.jd.com/11275848.html?utm_source=baidu&utm_medium=cpc&utm_campaign=&utm_term=baidu_377028348_0_s2758354c8b67aaa41e0.60066578


此外,泰迪云课堂提供相关的学习视频,详见:https://edu.tipdm.org

5. 图书配套资料下载说明

登录泰迪云教材https://book.tipdm.org/

读者交流群:628994198