第八届“泰迪杯”数据挖掘挑战赛赛题

发布时间:2020-02-28 作者:本站原创 浏览量:6236

A题:基于数据挖掘的上市公司高送转预测

出题单位——深圳点宽网络科技有限公司

近年来,我国证券市场的高速发展催生了一批题材股,根据重大事件的不同分类,可以分为资产重组板块、粤港澳板块、新能源板块等等。在这些题材中间,高送转这一题材无疑是中小投资者强烈追捧的对象。因为实施高送转后股价将做除权处理,投资者可以通过填权行情从二级市场的股票增值中获利。很多股票在公布派送预案的第二天直接涨停,而等除权后再买入可能会面临很大的回撤风险。如果我们能准确预测下一年可能实施高送转的上市公司并提前买入,这对我们投资的安全性具有很大的现实意义。

经过研究,影响上市公司实施高送转的因子主要有两类:一是基本因子,包括股价、总股本、上市年限等;二是成长因子,包括每股未分配利润、每股资本公积、每股现金流、每股收益等。除此之外,还有“未来6个月是否存在解禁”、“是否存在定增方案”等因子需要挖掘。

... ...

请仔细阅读以下说明:

1、关于赛题数据

(1) 示例数据:2020年3月1日9:00:00随赛题公布。

(2) 全部数据:2020年4月25日9:00:00公布。

(3) 测试数据:2020年5月9日9:00:00 公布。

2、提交作品

(1) 命名方式:论文命名为“A题”,附件命名为“作品附件”,测试结果命名为“作品测试结果”。

(2) 论文及附件内请勿出现队号、学校、学院、队员以及指导老师相关任何信息,否则该作品视为无效作品。

(3) 请参赛队于2020年5月8日16:00:00之前在竞赛官网 “提交作品”处提交论文(PDF 版,大小不超过 50M)及附件(论文正文(Word 版)、程序源代码、代码实现的流程图以及输入、输出说明的压缩包,大小不超过200M)。

3、公布测试数据,提交测试结果

2020年5月9日9:00:00准时公布测试数据,请在“赛题与数据”页面对应的题目右下方下载测试数据,并于2020年5月10日9:00:00前在“提交测试结果”页面提交测试结果。

点击下载A题赛题

点击下载A题示例数据(提取码:fmf4)

点击下载A题全部数据(提取码:apzw)

点击下载A题测试数据

B题:电力巡检智能缺陷检测

出题企业——广州智能装备研究院有限公司

一、问题背景

为了保证输电线路的安全、可靠运行,电网运行部门需要定期对输电线变电系统进行巡检、维修以及维护来确保消除故障或者隐患。随着我国经济的高速发展,对电力输电网设备等基础设施的安全运营也提出了更高的要求。

架空线路巡检作为保障输配电网正常运行的重要手段之一,一直以来都面临着网线分布广、设施布置复杂,巡线作业强度大、周期长,部分区域自然环境复杂恶劣等问题。传统的电网巡查方式是通过人工进行巡检的,该方法存在以下几个问题。

(1) 劳动强度大,工作效率低,在危险地段会危及到巡查工人的生命安危

(2) 人工录入数据量大,而且录入过程容易出错

(3) 对于工人是否巡查到位无法进行有效的管理,巡查质量不能得到保障

近年来由于无人机或者智能机器人技术的飞速发展,考虑通过拍摄的大量电力设备及线路的现场图片代替人工巡检,其基本工作流程如下。

(1) 划定无人机工作区域,设定巡查时间

(2) 无人机飞达指定区域,进行图片拍摄(要求尽可能达到360°全方位),

(3) 分析无人机拍摄的图片,并进行问题标注,反馈至调度中心

(4) 调度中心根据问题,安排对应人员进行检修

但是由于无人机拍摄图片数目多(单个高架塔拍摄图像大于300张),尺寸大(4096*2160),人工进行一张图片标注就需要5-10分钟,工作量巨大。同时执行标注工作的相关人员极易用眼疲劳,从而导致漏标,错标。鉴于以上情况,考虑使用图像处理与机器学习(深度学习)的方法,对图片进行标注。

... ...

请仔细阅读以下说明:

1、 关于赛题数据

(1) 示例数据:2020年3月1日9:00:00随赛题公布。

(2) 全部数据:2020年4月25日9:00:00公布。

(3) 测试数据:2020年5月9日9:00:00公布。

2、 提交作品

(1) 命名方式:论文命名为“B题”,附件命名为“作品附件”,测试结果命名为“作品测试结果”。

(2) 论文及附件内请勿出现队号、学校、学院、队员以及指导老师相关任何信息,否则该作品视为无效作品。

(3) 请参赛队于2020年5月8日16:00:00之前在竞赛官网【提交作品】处提交论文(PDF版,大小不超过50M)及附件(论文正文(Word版)、源数据(组委会提供的源数据除外)、过程数据、程序的压缩包,大小不超过200M)。

3、公布测试数据,提交测试结果

2020年5月9日9:00:00准时放出测试数据,请在"赛题与数据"页面对应的题目右下方下载测试数据,并于2020年5月10日9:00:00前请在“提交测试结果”页面提交测试结果。

点击下载B题赛题

点击下载B题示例数据(提取码:i8xr)

点击下载B题全部数据(提取码:bnyh)

点击下载B题测试数据

C题:“智慧政务”中的文本挖掘应用

出题企业——广东泰迪智能科技股份有限公司

一、问题背景

近年来,随着微信、微博、市长信箱、阳光热线等网络问政平台逐步成为政府了解民意、汇聚民智、凝聚民气的重要渠道,各类社情民意相关的文本数据量不断攀升,给以往主要依靠人工来进行留言划分和热点整理的相关部门的工作带来了极大挑战。同时,随着大数据、云计算、人工智能等技术的发展,建立基于自然语言处理技术的智慧政务系统已经是社会治理创新发展的新趋势,对提升政府的管理水平和施政效率具有极大的推动作用。

附件给出了收集自互联网公开来源的群众问政留言记录,及相关部门对部分群众留言的答复意见。请利用自然语言处理和文本挖掘的方法解决下面的问题。

... ...

请仔细阅读以下说明:

1、关于赛题数据

(1) 示例数据:2020年3月1日9:00:00随赛题公布。

(2) 全部数据:2020年4月25日9:00:00公布。

(3) 测试数据:2020年5月9日9:00:00 公布。

2、提交作品

(1) 命名方式:论文命名为“C题”,附件命名为“作品附件”,测试结果命名为“作品测试结果”。

(2) 论文及附件内请勿出现队号、学校、学院、队员以及指导老师相关任何信息,否则视该作品为无效作品。

(3) 请参赛队于2020年5月8日16:00:00之前在竞赛官网“提交作品”处提交论文(PDF 版,大小不超过 50M)及附件(包含论文正文(Word 版)、过程数据、程序、热点问题表、热点问题留言明细表的压缩包,大小不超过200M)。

3、公布测试数据,提交测试结果

2020年5月9日9:00:00准时公布测试数据,请在“赛题与数据”页面对应的题目右下方下载测试数据,并于2020年5月10日9:00:00前在“提交测试结果”页面提交测试结果。

C题数据根据与数据提供方的约定,只提供竞赛使用,竞赛结束之后不开放下载。

点击下载C题赛题