“泰迪杯”数据挖掘挑战赛致力于推广我国高校数据挖掘实践教学,培养学生数据挖掘的应用和创新能力,增加校企间的交流合作和信息共享,提升我国高校的教学质量和企业的竞争能力。迄今已经成功举办了五届竞赛活动,并获得丰硕佳果。
本届泰迪杯竞赛由全国大学生数学建模竞赛组委会主办,广州泰迪智能科技有限公司承办,广东省工业与应用数学学会、华南师范大学协办,本届竞赛共有来自全国30多个省市、自治区的325所高校2541支队伍参赛。本届竞赛在参赛队伍数量和水平、分布地域、院校层次都有了很大的突破。从获奖结果上来看,硕士研究生队伍相比往届要更加活跃,不仅获奖率最高,且获得的高奖项比重也很大。本届获奖院校综合表现比较突出的是“211工程”院校,收获了大部分特等奖,其次是军事院校,虽然参赛的队伍比较少,但是获奖比重却是最大的。
一、参赛队伍变化
(1)数量迅猛增长
本届竞赛同比去年增长将近53%,从近几届泰迪杯参赛队伍的不断快速地增长可以看出,泰迪杯数据挖掘竞赛正逐渐地深入到全国各地高校,也反映了其创办的宗主获得了各高校的认可。
图1 历届参赛队伍数量
(2)地域分布广
本届泰迪杯参赛队伍众多,分布的地域也很广泛。共有来自于全国30多个省、自治区、直辖市的高校学生参加,其中广东省的参赛队伍数量居首位,有将近700支队伍参赛;其次山东、湖北位居第二、第三位,有100多支参赛队伍。
图2 第五届泰迪杯参赛队伍省份分布
第三届至第五届泰迪杯参赛队伍地域分布情况如图3所示。从图中可以看出,随着竞赛的深入举办,比赛的影响力在不断提升,参赛队伍分布地域持续增长。
图3 第三至五届泰迪杯参赛队伍地域分布
二、参赛院校变化
(1)数量快速增长,高水平院校增多
泰迪杯竞赛从第三到第五届参赛院校数量已经由130个上升至310个,增长率高达138%。其中,类似于清华大学、中山大学、华南理工大学这样的“985工程”、“211工程”院校数量也在不断增多。与此同时,可以发现多个“211工程”的重点军事院校也出现在历届泰迪杯竞赛中,如第三军医大学、中国解放军理工大学、海军航空大学。
此外,随着泰迪杯竞赛影响力的不断扩大,本届赛事更是迎来了两所海外大学的队伍参赛,分别是曼彻斯特大学和纽约大学。
图4 本届不同类别院校参赛数量
图5 本届不同类别院校参赛队伍数量
(2)参赛学生水平不断提高
参赛学生的年级(或者学历)呈现出一定程度的多样性,包含了专科、本科、硕士研究生、博士研究生的不同年级。从第四届到第五届泰迪杯参赛学生学历来看,参赛选手主要处于大三、大二两个年级。不同的是本届高水平参赛选手比例增多,尤其体现在硕士研究生的比重上,由1.2%上升至12.2%。
图6 第四、五届参赛队伍年级比例
(3)专业覆盖广,主要集中在数学、计算机相关专业
从本届参赛选手就读专业上分析,信息与计算科学、数学与应用数学、统计学等应用数学专业,计算机科学与技术、软件工程等计算机专业,这两大类与数据挖掘对口专业的学生依然是参赛的主体成员。同时,也不乏就读于金融、管理、医疗、通讯、物理、化学等领域专业的学生参赛。
值得注意的是,随着大数据挖掘技术的不断推广,各高校开始增设于此相应的学科专业,比如此次参赛队伍中出现的数据挖掘与商业信息处理、智能科学与技术等。
图7 本届参赛队伍专业分布
三、赛事成绩
由组委会聘请专家组成的评阅委员会历时20多天的评审,最终评定特等并获企业冠名奖作品3份、特等奖作品3份、MATLAB创新奖作品2份、一等奖作品49份、二等奖作品109份、三等奖作品203份、成功参赛作品1131份。本届挑战赛采用盲审(屏蔽参赛者信息;评审者只能评阅非本区域作品;三位评阅者同时评阅同一作品,超限PK后取平均分),没有区分研究生、本科生及专科生、评审结果公平公正。
(1)获奖与年级的关系
泰迪杯竞赛考验的是学生如何科学合理地运用数据挖掘手段解决企业实际难题的能力,这就要求参赛选手具有充实的知识储备和缜密的逻辑思维。从本届竞赛成绩来看,硕士研究生学历的获奖比例最高,达到23%,这部分选手不管是知识水平,还是实践经验都是比较有优势的,故而取得了不错的成绩。其次是大三的参赛选手,获奖比例达到21%,大三的学生相对于大一、大二来说,掌握的知识更加全面,动手实践能力也较强;相对于事务繁多的大四而言,大三则有更多的时间专心学习、潜心研究,故而大三的选手在此次竞赛中也具有一定的优势。
图8 参赛队伍年级获奖率
从各年级所获奖项的分布上来看,学历水平越高获得本届竞赛高奖项的比例也越高,而获得三等奖的比重随着年级的增加越来越低。硕士研究生获得一等奖和特等奖的比例都很高,特等并获企业冠名奖和MATLAB创新奖则都被大三的选手收入囊中。
图9 参赛队伍年级获奖级别
(2)获奖与院校的关系
本科院校的办学层次要比专科院校要高,学生的整体水平也比较高,在全国众多的本科院校中也存在一些更高水平的院校类别,办学水平越高的院校获奖的机会也相对更大。为了更详尽地分析本届竞赛结果在不同类别院校之间的差异,这里将本科院校划分成普通本科院校、“211工程”院校、(非“211工程”的)“985工程”院校、军事院校。其中,军事院校多为“211工程”国家重点培养军事院校。可以看出本届竞赛中军事院校获奖比例最高,达到了29%;其次为“211工程”院校,有22%的队伍获奖。
图10 参赛队伍院校获奖率
专科院校在本届竞赛中均获得三等奖,军事院校获得的一、二等奖比重最高。大部分特等并获企业冠名奖和特等奖被“211工程”院校获得,普通本科院校则收获了MATLAB创新奖及其余的特等并获企业冠名奖、特等奖。
图11 参赛队伍院校获奖级别