第二届泰迪华南杯数据挖掘竞赛赛题

发布时间：2014-03-01 作者：本站原创浏览量：8486

第二届泰迪华南杯数据挖掘竞赛试题

说明：1、参赛选手可从下述试题中任选一题作答，并在论文报告中标明

2、论文等级会综合考虑论文质量和难度系数

试题一小车压双黄线自动检测（难度系数：1.0）

压双黄线自动检测是通过对交通道路上的监控设备采集到的车辆正面图片进行处理，采用智能技术对车辆是否压双黄线实现自动检测，如图1，具体视频图像见附件一_车辆压双黄线视频图像.zip。

图 1车辆压双黄线视频图像

请基于机器视觉的车辆检测和跟踪技术，如图像预处理技术、图像背景提取技术、多目标识别与跟踪技术等，对道路监测系统中车辆压双黄线的视频图像进行处理和综合分析，从中得到所需要的事件、信息及数据，实现对道路上突发的车辆压双黄线交通事件进行实时检测，减少交管部门人工排查违章投入，并在第一时间内自动报警。

提示：

1.监控视频分析可分为运动检测、目标分类、目标跟踪、目标行为描述等几个主要内容。

〉运动检测：即在每帧中找到运动的目标。本题中由于多数情况下摄像机是固定不动的，所以背景在相邻的帧中没有变化，使用差分就可以粗略地把背景标记出来。

〉目标分类：视频中运动的目标很多，例如行人、汽车、自行车、动物。构造特征识别感兴趣的目标。

〉目标跟踪：找出各帧中目标的关系。例如证明第10帧中的目标A和第11帧中的a是同一个目标，B和b是同一个，而11帧中的c是新出现的目标。不能把b弄成了和A，或者a弄成了B。注意目标有可能在某些时段是静止的，例如车辆在双黄线上等候。在题目所给视频中，曾有把穿越双黄线的聚集的人群误识别为车辆的情况。如果使用目标跟踪的分析，就可以发现该目标在穿越黄线前是由多个面积较小的目标合并而成的，在穿越后又分解为多个小目标。

〉目标行为描述：从前面的分析中得出车辆目标压线、掉头、逆行等结论。

2.本题中摄像机机位固定，所以交通标志线在场景中的位置不变，可以人工标记出标志线所在的区域，然后做碰撞检测。

3.题目目标的扩展。如果上述各环节都较好地实现，还可以做下面的主题分析：a）社会车辆进入公交专用线的检测。很多城市划定了公交专用线，在给定的时间段内社会车辆不得进入。能否构造有效的特征来分类特定时段间公交专用线（例如BRT专线、桥梁上的公交专用线等）内的公交车和社会车辆。b）车辆逆行检测 c）行人检测。有些路段是禁止行人入内的，如高架桥、高速公路等。当系统检测到有行人入内时报警。

4.视频数据的补充。参赛者可自行补充视频数据来检验算法。使用手机或数码相机的摄像功能在人行天桥上拍摄车道内的场景，尽可能使用三脚架等装置固定摄像设备。在同向行驶的多个车道内，变换车道是常见的情况，交规上对各种标志线（例如虚线、实线、允许单侧变换车道的虚实线）有明确规定，这类视频比较容易拍摄。可以通过对变换车道的检测来验证双黄线压线检测算法。欢迎各位参赛者拍摄视频并上传至QQ群中。对于本题，一个难点是使用不同的视频数据（不同时间、光照、角度）来验证算法的稳健性。

5.计算机实现。OpenCV(Open Source Computer Vision Library)是一个跨平台的计算机视觉库，在网上可以找到很多基于OpenCV的视频分析算法和代码，大家可以借鉴。

6.研究过程：查找以往针对该类问题的文献，研究如何对视频关键帧进行提取，再用算法模型对关键帧图像进行检测，从而识别压双黄线视频。

7.参考文献（也可利用google，中国知网等自行查找）：

〉基于视频的人脸检测与识别研究吴培敏

〉安全带识别系统的研究与实现骆玉荣

试题二面向网络舆情的关联度分析（难度系数：0.9）

网络舆情是指在互联网上流行的对社会问题不同看法的网络舆论，是社会舆论的一种表现形式，是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。

近年来，网络舆情对政治生活秩序和社会稳定的影响与日俱增，一些重大的网络舆情事件使人们开始认识到网络对社会监督起到的巨大作用。同时，网络舆情突发事件如果处理不当，极有可能诱发民众的不良情绪，引发群众的违规和过激行为，进而对社会稳定形成严重威胁。

附件二_网络舆情数据.zip为通过网络爬虫工具从某社区采集的网络舆情信息，请基于关联度分析法，从资源集合中找出与用户信息.xls中存在关联的用户，并进行关联度排序。

提示：

1.本题意在通过研究，实现通过网络爬虫工具从某些社区采集的网络舆情信息与指定的用户进行关联度分析。由于用户的姓名、住址、身份证号、电话号码、QQ号码、E-mail、MSN等信息与用户存在着不同程度的关联，舆情资源集合中这些信息的出现模式，也间接的反映了资源与用户的关联。

2.研究过程（仅作参考）：

（1）设置不同的权重，表征用户与其姓名、住址、身份证号、电话号码、QQ号码、E-mail、MSN等信息的关联规则；

（2）将用户的姓名、住址、身份证号、电话号码、QQ号码、E-mail、MSN等信息定义为关键字；

（3）对舆情资源进行中文分词；

（4）进行词频统计；

（5）用户与舆情资源的关联度分析。

3.参考文献（也可利用google，中国知网等自行查找）：

〉网络舆情监控系统的实现方法。何佳

〉中文网络客户评论中的产品特征挖掘方法研究。李实

试题三设备维修信息数据挖掘（难度系数：0.8）

某设备生产企业伴随着销量的增加，维修也在不断增多，随着时间的推移，越来越多的航空维修记录被存储到数据库中，当这些数据量积累到一定程度时，必然反映出有规律性的东西。

附件三_维修记录数据.zip为从数据库中导出的近年来的维修记录信息（由于数据量大，请使用Excel2007以上版本打开），请参考有关文献及结合所学知识，对本题所提供的设备维修信息数据进行挖掘分析，如备件储备需求预测分析、潜在故障预警分析、易损件及原因分析等方面进行探索分析，并对实现过程进行描述，以便为公司决策运营提供指导依据。

提示：

1. 试题中提供了两类数据：客户购机信息和维修信息

2. 研究过程：

（1）基于市场级别、购买商场、购买价格、机型、产品型号等属性，可对客户的消费行为和习惯进行分析；

（2）基于产品型号、故障原因代码、故障原因描述、反映问题描述等属性进行关联规则挖掘，按支持度大小反映某型号设备出现的常见故障现象。

（3）通过数据分析可了解设备故障的时间分布，可用这个信息进一步做备件储备需求预测，如根据“维修措施”中“更换交流接触器”及相关时间信息，统计主要备件的时间分布，并最终实现备件的储备需求预测。

3.参考文献（也可利用google，中国知网等自行查找）：

〉数据挖掘在设备状态预测中的应用浅析。胡洁，张珂珩

试题四从基因表达数据中发现知识（难度系数：0.8）

基因微阵列技术的发明给基因表达的试验研究带来了一场革命，使得同时测定多个基因在多个试验条件下的表达值成为可能。基因表达数据可以看作一个N×M的矩阵，其中行代表基因，列代表试验条件，而矩阵中每个元素值代表一个基因在一个试验条件下的表达水平。

基因表达数据的分析已经变成一个热门话题，而聚类是其中一种传统的分析工具，该方法根据基因在所有试验条件下的表达值，基于基因间的相似性将基因分成互不重叠的簇，从而发现具有显著生物意义的模式。然而，大多数的基因都只在部分试验条件下是协同调节的，传统的聚类方法无法找到这些模式，因此，双聚类方法在近几年内受到广泛关注，该方法同时对行、列进行聚类，用于发现那些嵌入在高维数据（如基因表达数据）的子空间中的簇。

本试题的基因表达数据集由附件（见附件四_酵母菌数据集.zip和附件五_乳腺癌数据集.zip）提供（也可以通过在中国知网等电子文献数据库中查找相关论文，再根据检索到的参考文献中相关说明，查找并自行下载有科研意义的其它基因微阵列数据），请利用双聚类算法对其进行挖掘分析，发现有意义的生物信息。建议尽可能在多个基因阵列数据集上对不同方法的性能进行各种比较，并给出统计分析和生物意义解释。

提示：

1.科研过程：查找以往针对该类问题的文献，探讨如何应用双聚类算法分析基因表达数据，根据问题和数据特点选择合适的双聚类模型（如加法型，一致演化型、OPSM双聚类），实现自己的算法过程，并从各种角度对模型性能进行评价。

建议的参考文献（也可利用google，中国知网等自行查找）：

〉Biclustering of expression data. Y. Cheng and G. Church.

〉Discovering local structure in gene expression data: The order-preserving submatrix problem. A. Ben-Dor, et al.

〉A systematic comparison and evaluation of biclustering methods for gene expression data.

〉Biclustering Algorithms for Biological Data Analysis：A Survey

〉molecular classification of cancer:class_discovery and class prediction by gene expression monitoring

〉基于双聚类挖掘癌症共享的基因功能模块。张凡

〉基于离散时序基因表达数据的双聚类算法。许涛，尚学群，杨蜜静，王淼

〉从基因表达数据中挖掘最大的行常量双聚类。缪苗

2.编程语言用C，Java，Matlab均可，源程序要给出算法流程图和伪代码，源代码需给出相应的注释。

3.对于挖掘结果应从算法效率及应用意义上进行比较分析，并给出实验结果的图表，同时尽量使用数据可视化技术，可以采用各种绘图软件如Matlab，Smartdraw等。如有必要，应该对程序运行和数据分析的过程进行录屏并配音讲解，以增强自己工作和成果的表现效果。

4.可考虑选用某种数据结构（如前缀树等）来存贮和快速查找双聚类的结果，实现对大规模问题中双聚类数据进行有效的管理。

建议的参考文献：

〉Bicluster数据分析软件设计与实现

〉生物信息学中的并行处理

5.为提高算法的运行效率，可考虑应用某种编程模式，如云计算，并行计算等。

建议的参考文献（也可自行查找）：

〉《实战MATLAB之并行程序设计》

〉DisCo: Distributed Co-clustering with Map-Reduce. A Case Study Towards Petabyte-Scale End-to-End Mining. Spiros Papadimitriou , Jimeng Sun.

〉云计算环境下的并行数据挖掘策略研究。张敏

〉基因表达数据的并行双向聚类算法。刘维

〉基于云平台的双向聚类算法在生物信息领域中的应用。孙燕飞

6.基因表达式数据可以自行从网上下载，但需要对数据格式和意义加以说明。

数据网址例如：

〉http://www.broad.mit.edu/cgi-bin/cancer/publications/pub_paper.cgi?mode=view&paper_id=43

〉http://www.ncbi.nlm.nih.gov/geo/

〉数据堂：http://www.datatang.com/

〉UCI数据集http://archive.ics.uci.edu/ml/datasets.html

试题五货币汇率（难度系数：0.8）

随着经济全球化的发展，各国间的经济联系日益紧密。其中，分析各国货币汇率之间的联系对于分析各国间经济联系有着重要的意义，发现在特定时期具有相同运动模式的货币有助于解释各国之间的经济关系，为各项经济研究工作提供了指导作用，如经济政策的制定，财务预测等等。

请自行寻找一个包含若干个国家在若干年内的货币汇率数据集，将数据挖掘技术应用于该数据集，并结合经济学知识对挖掘结果进行详细合理的分析。

提示：

1.科研过程：查找以往针对该类问题的相关文献，探讨如何应用数据挖掘技术（如聚类，双聚类，关联分析等）分析货币汇率数据，实现自己的算法过程，并从各种角度对模型性能进行评价。建议的参考文献（也可利用google，中国知网等自行查找）：

〉Bicluster Analysis of Currency Exchange Rates. Haizhou Li , Hong Yan.

〉Discovery of time-inconsecutive co-movement patterns of foreign currencies using an evolutionary biclustering method. Qing-Hua Huang

〉Multistage RBF neural network ensemble learning for exchange rates forecasting. Lean Yu.

2.数据集请自行从网上下载，并对自己下载的数据格式和意义加以说明。常见的数据网址供参考：

〉国家统计局网址：http://www.stats.gov.cn/tjsj/ndsj/

〉广东省统计局网址：http://www.gdstats.gov.cn/tjsj/default.htm

〉数据堂：http://www.datatang.com/

〉UCI数据集http://archive.ics.uci.edu/ml/datasets.html

〉华南师范大学图书馆所有数据库列表：

http://lib.scnu.edu.cn/dzzy2/home_zy_search-nn.asp

其中的国泰安数据集和中经网统计数据库都是经济金融类的数据平台

3.编程语言用C，Java，Matlab均可，源程序要给出算法流程图和伪代码，源代码需给出相应的注释。

4.结合经济学知识给出一些结论和建议，可从算法效率及应用意义上进行比较分析，并给出实验结果的图表，同时尽量使用数据可视化技术，可以采用各种绘图软件如Matlab，Smartdraw等。如有必要，应该对程序运行和数据分析的过程进行录屏并配音，以增强表现力。

5.可考虑选用某种数据结构（如前缀树等）来存贮和快速查找结果，实现对大规模问题中的结果数据进行有效的管理。建议的参考文献：

〉Bicluster数据分析软件设计与实现

6.为提高算法的运行效率，可考虑应用某种编程模式，如云计算，并行计算等。建议的参考文献（也可自行查找）：

〉《实战MATLAB之并行程序设计》

〉DisCo: Distributed Co-clustering with Map-Reduce. A Case Study Towards Petabyte-Scale End-to-End Mining. Spiros Papadimitriou , Jimeng Sun.

〉云计算环境下的并行数据挖掘策略研究。张敏

试题六智能推荐（难度系数：0.8）

随着互联网技术的迅猛发展，人们逐渐走入了信息过载的时代。面对大量的信息，我们都显得有些无所适从。作为信息需求者，从大量信息中找到自己感兴趣的信息往往是一件非常困难的事情；而对于信息提供者，让自己的信息脱颖而出，受到大家的关注，也是一件非常困难的事情。推荐系统就是解决这一矛盾的重要工具。推荐系统通过建立用户和信息产品之间的关系，利用已有的选择过程或相似性关系，一方面挖掘用户潜在感兴趣的信息，另一方面让信息能够展现在对它感兴趣的用户面前。一个完整的推荐系统通常包含收集用户信息的行为记录模块，分析用户喜好的模型分析模块和推荐算法模块。

我们身边最熟悉的例子要数电子商务网站的推荐系统，几乎每个大型电子商务网站都把个性化推荐作为重要的营销手段之一。更有文献表明早期Amazon的35%销售增量都来自它的推荐系统。除了商品，音乐、电影等也是常见的推荐对象。

请自行下载Movie Lens数据集，并利用数据挖掘技术建立一个电影推荐系统。

提示：

1.科研过程：查找以往针对该类问题的相关文献，对推荐系统的相关知识有所了解，探讨如何应用数据挖掘技术（如双聚类、关联分析等）构建一个电影推荐系统，实现自己的算法过程，并从各种角度对模型性能进行评价。建议的参考文献（也可利用google，中国知网等自行查找）：

〉基于多目标优化双聚类的数字图书馆协同过滤推荐系统。刘飞飞

〉基于双聚类模型的协同过滤推荐引擎设计。康美林

〉基于关联规则的图书销售网站个性化推荐系统设计与实现。王静

2.相关数据集的下载地址为：http://www.datatang.com/data/43893/，可从中选取部分数据，并对自己下载的数据格式和意义加以说明。

3.编程语言用C，Java，Matlab均可，源程序要给出算法流程图和伪代码，源代码需给出相应的注释。

4.对于挖掘结果应从算法效率及应用意义上进行比较分析，并尽量多的使用可视化技术，如Matlab，Smartdraw等。如有必要，应该对程序运行和数据分析的过程进行录屏并配音讲解，以增强效果。

5.可考虑选用某种数据结构（如前缀树等）来存贮和快速查找结果，实现对大规模问题中的结果数据进行有效的管理。建议的参考文献：

〉Bicluster数据分析软件设计与实现

6.为提高算法的运行效率，可考虑应用某种编程模式，如云计算，并行计算等。

建议的参考文献（也可自行查找）：

〉《实战MATLAB之并行程序设计》

〉DisCo: Distributed Co-clustering with Map-Reduce. A Case Study Towards Petabyte-Scale End-to-End Mining. Spiros Papadimitriou , Jimeng Sun.

〉云计算环境下的并行数据挖掘策略研究。张敏

〉基于云计算平台的智能推荐系统研究。吕雪骥

本次竞赛的试题通过百度网盘下载，提取密码: ulkw