A题:通过机器学习优化股票多因子模型
出题单位——深圳点宽网络科技有限公司
Fama通过分析美国市场几十年的数据发现,美国股市绝大部分可以被市值、估值以及市场收益3个因子解释,并因此获得了2013年诺贝尔经济学奖。Fama的工作开启了通过因子化分析股市获取超额收益的先河,此后学术界及业界不断地寻找其他能获取超额收益的因子及其组合和风险控制的方式。
在我国,基于财务因子(比如市盈率、市值等)及长周期的量价因子(比如月度反转、月度成交量等)为主要因子的传统多因子模型在A股市场曾经获得过较为稳健的超额收益,但是由于A股市场存在明显的风格切换(比如2017年下半年从传统的小市值风格切换到只有极少数大市值股票上涨,而绝大部分股票下跌的风格),传统多因子模型的稳定性及有效性受到了较大的考验。
相比传统的线性多因子模型,机器学习算法能够通过对因子的非线性表达,捕捉到更加精细的市场信号,获取较为稳健的超额收益。
... ...
请仔细阅读以下对于A题的说明:
1、关于赛题数据和解题软件
①示例数据:2019年3月16日公布2016年1月1日至2016年12月31日的全市场股票因子数据。
②全部数据:2019年4月13日公布2016年1月1日至2018年9年30日的全市场股票因子数据。
③需下载解题软件策略回测工具Auto-Trader V3.1.4.1及以上版本,软件适用系统win7、win10;建议配置i5、8G。
④数据下载请登录DigQuant量化社区(网址:www.digquant.com.cn,进入【泰迪杯】栏目,建议使用Google浏览器),初始登录账号密码见竞赛组委会发出的竞赛报名成功邮件,社区和Auto-Trader客户端的登录名和密码一致。
⑤数据的使用方法请查看DigQuant社区【泰迪杯】专栏中的《比赛数据包》。
A题数据包使用方法的补充说明:数据包SingleBPFactor_2016.zip为Zip格式压缩文件,下载成功后,使用Zip解压软件解压后形成数据文件夹。进入文件二级文件夹(文件夹I)中,将会看到有一个或多个文件夹(如:sse、szse等)。创建C:\Users\Public\Documents\Bitpower\AT\SingleBPFactor文件夹(文件夹II),将文件夹I 中的所有子文件夹及其中的文件复制到文件夹II。登陆Auto-Trader客户端后就可以使用这些数据文件。
2、提交作品
①命名方式:论文命名为“A题”,附件命名为“作品附件”。
②论文及附件内请勿出现队号、学校、学院、队员以及指导老师相关任何信息,否则该作品视为无效作品。
③请参赛队于2019年4月26日16:00之前在竞赛官网【提交作品】处提交论文(PDF版,大小不超过50M)及附件(论文正文(Word版)、源数据(组委会提供的源数据除外)、过程数据、程序的压缩包,大小不超过200M)。
④在2019年4月26日16:00:00之前将策略的回测报告、Matlab或Python源代码、执行脚本说明、调用的外部的代码包(若没有调用,则无需上传),通过Auto-Trader内置的“私有云策略池”上传提交。操作流程详见赛题中的【附录7】。
注:A题答题过程中,遇到数据或软件使用问题,请拨打0755-86952080客服热线。
B题:直肠癌淋巴结转移的智能诊断
出题单位——广州泰迪智能科技有限公司
一、问题的背景
直肠癌是指从齿状线至直肠乙状结肠交界处之间的恶性肿瘤,是消化道最常见的恶性肿瘤之一。近几年在中国,直肠癌的发病率越来越高,特别在一些大城市,它已经跃居至恶性肿瘤发病率排行榜前三位。直肠癌易向肠外浸润并发生淋巴结及远处转移,常常需先进行辅助放化疗才能获得手术机会,患者预后较早期直肠癌患者的预后差。直肠癌患者是否有淋巴结转移对治疗方案的决策以及病人预后有重要的影响,因此对是否有淋巴结转移的准确判断是直肠癌治疗的重要步骤,但目前尚无一种方法能在术前准确地判断淋巴结转移情况。直肠癌肿瘤本身的特性和周围淋巴结转移存在一定的关联性,所以本问题期待参赛者能够设计出有效的算法通过对直肠癌CT影像特征的判断来对淋巴结转移情况进行评估,提高影像学对淋巴结转移判断的准确性。
... ...
请仔细阅读以下说明:
1、关于赛题数据
①示例数据:2019年3月16日随赛题公布。
②全部数据:2019年4月13日公布。
③测试数据:2019年4月27日9:00:00公布。
2、提交作品
①命名方式:论文命名为“B题”,附件命名为“作品附件”,测试结果命名为“作品测试结果”。
②论文及附件内请勿出现队号、学校、学院、队员以及指导老师相关任何信息,否则该作品视为无效作品。
③请参赛队于2019年4月26日16:00之前在竞赛官网【提交作品】处提交论文(PDF版,大小不超过50M)及附件(论文正文(Word版)、源数据(组委会提供的源数据除外)、过程数据、程序的压缩包,大小不超过200M)。
3、公布测试数据,提交测试结果
2019年4月27日9:00:00准时放出测试数据,请在本页面通过给出的云盘链接下载测试数据,并于2019年4月28日9:00:00前请在“提交测试结果”页面提交测试结果。
B题数据根据与数据提供方的约定,只提供竞赛使用,竞赛结束之后不开放下载。
C题:运输车辆安全驾驶行为的分析
出题单位——交通运输部公路科学研究院汽车运输研究中心
一、问题背景
车联网是指借助装载在车辆上的电子标签通过无线射频等识别技术,实现在信息网络平台上对所有车辆的属性信息和静、动态信息进行提取和有效利用,并根据不同的功能需求对所有车辆的运行状态进行有效的监管和提供综合服务的系统。当前道路运输行业等相关部门利用车联网等系统数据,开展道路运输过程安全管理的数据分析,以提高运输安全管理水平和运输效率。
某运输企业所辖各车辆均存在常规运输路线与驾驶人员。在驾驶员每次运输过程中,车辆均可自动采集当前驾驶行为下的行车状态信息并上传至车联网系统。驾驶行为可能随气象、路况等因素的变化而变化,进一步影响行车安全、运输效率与节能水平。
请根据该运输企业所采集的数据(见附件1、附件2),分析车辆行驶过程中的驾驶行为对行车安全、运输效率与节能情况的影响,运用数据挖掘的方法,建立有效的数学模型进行评价。
... ...
请仔细阅读以下说明:
1、关于赛题数据
①示例数据:2019年3月16日随赛题公布。
②全部数据:2019年4月13日公布。
2、提交作品
①命名方式:论文命名为“C题”,附件命名为“作品附件”。
②论文及附件内请勿出现队号、学校、学院、队员以及指导老师相关任何信息,否则该作品视为无效作品。
③请参赛队于2019年4月26日16:00之前在竞赛官网【提交作品】处提交论文(PDF版,大小不超过50M)及附件(论文正文(Word版)、源数据(组委会提供的源数据除外)、过程数据、程序的压缩包,大小不超过200M)。
关于赛题的补充说明:
目前常用的坐标系有如下三种:
(1)WGS-84(世界标准地理坐标系)
(2)GCJ-02(中国国测局地理坐标系)
(3)BD-09(百度地理坐标系)
本道赛题附件1所给的行车轨迹采集数据中,经纬度数据所使用的坐标系为WGS-84,若需调用高德地图或百度地图等工具进行经纬度处理,则需做相应的坐标系转换。