第四届泰迪杯全国大学生数据挖掘竞赛赛题征集通知

发布时间:2015-07-16 作者:广东省数据挖掘竞赛组委会 浏览量:5875

【大赛宗旨】 创造意识,创新精神,公平竞赛,重在参与。 

【组织单位】 主办单位:广东省工业与应用数学学会

          承办单位:广州泰迪智能科技有限公司

            协办单位:华南师范大学数学科学学院 

 

【大赛意义】   

泰迪杯数据挖掘大赛是一个面向高等学校广大学生的竞赛活动,目的在于在高校中推广数据挖掘的教学和实践,在企业中推广数据挖掘的创新和应用,加强校企交流互动和信息共享,提升高校的教学质量和企业的竞争能力。 

 

【参赛说明】   

1.竞赛设赛题三个,学生任选其中一个参赛即可。

2.学生以个人名义登记参赛,也可以组队参加,但每队人数不超过3人(必须属于同一所学校)。组织方对参赛选手的年级和专业不做具体限制,各年级均可报名参加。

3.参赛选手必须同意竞赛委员会设立的竞赛相关规则。报名申请时填写真实的姓名、团队名称、指导老师、院系、手机、通信地址及其他注册页面所要求的资料,以便于核对身份并颁发奖品。竞赛委员会保证所收集到的学生个人信息资料仅用于竞赛有关工作,不会公开和泄露。竞赛论文在未征得作者同意的情况下不会公开。

4.指导老师可以是本校老师,也可由学生自行指定。

5.参赛者请加入QQ群(泰迪杯数据挖掘竞赛,295026770),加群时附加信息说明“数据挖掘竞赛”,加群后请按“学校简称_姓名”修改群名片,如“华师大_李建波”,有问题可咨询群内指导老师。

6.本次比赛不收取任何费用。

 

【竞赛网站】 http://www.tipdm.org

 

【竞赛时间】具体时间以广东省工业应用与数学学会数据挖掘竞赛委员会下发的通知为准

1. 报名时间:201641----2016430

2. 开题时间:201641

3. 竞赛时间:201651------2016515

4. 评阅时间:2016518------201667

5. 评审结果公示时间:2016715

6. 颁奖时间:2016719日,包括赛题评讲。获奖名单将在竞赛网站、广东省工业与应用数学学会、华南师范大学数学科学学院网站及泰迪公司网站上发布。  

 

【技术支持】   

泰迪科技将为本次数据挖掘竞赛提供技术支持。数据挖掘需要使用专业的软件平台来实现,如IBM公司的SPSS Modeler(前身为SPSSClementine)、SAS公司的Entelprise Miner,以及由新西兰怀卡托大学开发的开源软件Weka,也可采用由泰迪科技提供的TipDM数据挖掘平台。 

 

【竞赛组织】   

成立数据挖掘竞赛组委会,下设命题委员会、评审委员会等组织,由广东省工业与应用数学学会统一管理。 

 

【奖励办法】   

“泰迪杯全国大学生数据挖掘竞赛”获奖奖励办法如下:

1.  凡完成合格论文报告要求者可获得成功参赛证书。

2.  优秀论文奖:奖励泰迪杯优秀论文奖荣誉证书一本。

3.  特等奖1名,采用论文答辩的形式,从一、二等奖里面评取。奖励泰迪杯数据挖掘竞赛特等奖荣誉证书一本,并提供3000元奖学金。(1组)

4.  一等奖:约3%,奖励泰迪杯数据挖掘竞赛荣誉证书一本,并提供1000元奖学金。

5.  二等奖:约5%,奖励泰迪杯数据挖掘竞赛荣誉证书一本,并提供500元奖学金。

6.  三等奖:约10%,奖励泰迪杯数据挖掘竞赛荣誉证书一本,并提供价值200元的纪念品一份。

7.  特等奖、一、二、三等奖获得者可优先得到泰迪科技实习及推荐工作机会。实习优秀者将获优先签约权。

 

 

 

【赛题征集】

 

1.本届竞赛试题约2~3题,现面向广大企业及科研院所征集,试题一旦采用,将向出题者颁发证书一本及奖金1000元。

2.竞赛试题最好能体现某一行业领域最前沿的数据挖掘应用需求,试题应包含挖掘目标、数据文件、提示信息等方面内容,示例如下:

           

 

                       

 

试题一 基于电商平台家电设备的消费者需求及产品数据挖掘分析(难度系数:1.0

             背景:                                                  

 

                       

 

随着互联网与移动互联网的快速发展,截止20146月,我国的网民规模达6.32亿,互联网普及率为46.9%2015年中国网民的渗透率将接近50%2014年天猫双十一的交易额达571亿,网上购物将成为人民生活的一部分。网民在电商平台上浏览和购物,产生了海量的数据,如何利用好这些碎片化、非结构化的数据,将直接影响到企业产品在电商平台上的发展,也是大数据在实际企业经营中的应用。对于用户在电商平台上留下的评论数据,运用文本分析方法,了解用户的需求、抱怨,购买原因以及产品的优点、缺点,对于改善家电设备产品及用户体验有着重要的意义。

                       

 

                       

 

据观研天下行业分析:近年来我国家电设备销量增长迅速,以电热水器为例,2011年电热水器市场销量比2010年增长2.29%,销售额增长5.23%2013年热水器零售量达到2842万台,零售额达到459亿元,2014年热水器整体规模向上,但增速较2013年有所回落,零售量达到2985万台,零售额达到504亿元。

                       
需求:

  1、 分析用户对于热水器/净水器产品的个性化需求;
  2、 分析现有电商热水器/净水器的产品劣势(用户抱怨点)及产品优势(用户赞点);
  3、 分析各品牌的产品间的差异,进行差异化卖点提炼;
  4、 分析用户购买的原因;
  5、 对用户的购买行为进行分析挖掘(搜索关键字、购买时关注点、购买步骤、使用、评价)(此部分可选择来做)。  

提示:

  1、 在电商平台进行评论数据抓取(可用火车头采集器进行评论爬虫);
  2、 对评论数据进行预处理(处理掉水军及随意发表的评论数据);
  3、 可分品类进行细化分析(热水器:电热热水器、燃气热水器;净水器:净水机、纯水机);
  4、 对评论数据进行文本分析(好评、差评、中文分词、词频统计、情感分析、语义网络);
  5、 可利用百度指数、淘宝指数等互联网工具对热水器和净水器的消费人群及搜索关注点进行分析;
  6、 建议在国内外相关文献的基础上尽量选择新技术手段进行挖掘,比如基于深度学习理论模型完成情感分析,参见文献:《基于深度学习的微博情感分析》、《基于深度学习的文本情感分类研究》等。

说明:

  1、 附件一_电热水器及净水器评论数据集.zip是电热水器和净水器的评论数据,参赛者也可去电商平台进行数据爬虫,爬取最新的评论数据(若自行爬取的数据,提交论文成果时请一并提交);
  2、 参赛者可以选择热水器或者净水器任一一个品类进行分析挖掘;
  3、参赛者可以从以上需求选择部分或所有主题进行建模分析,也可提出自已的分析主题。

  

竞赛组委会联系地址:

 

广东省广州市科学城科珠路232号益民科技园(邮编:510663  

电话:+86(020) 82039399

联系人:张尚佳,Email: zhangshangjia@tipdm.com