第八届挑战赛A-基于数据挖掘的上市公司高送转预测

发布时间:2020-11-25 作者:本站原创 浏览量:5636

摘要:

“高送转”是高比例送红股或转增股本的简称,它是市场的常发事件,而且在预案公告日前一段时间有显著正的超额收益。因此投资者若能在公告前识别“高送转”事件股票,则能获得较好的投资收益。

针对问题一, 采用了LR、RFC、SVM、XGBoost、Lightgbm和Catboost六种机器学习算法去求出对上市公司实施高送转方案有较大影响的因子,并基于AUC指标与k折交叉验证和网格搜索给机器学习算法参数调优,通过评价指标AUC对比对效果较好的XGBoost、LGBoost、CatBoost三个模型,选择算法特征重要性排名前20个重要特征,挑选出三个模型共同确定的重要因子,从而得出问题一的中对上市公司实施高送转方案有较大影响的因子。

这20个特征因子为基本因子:上市年限、总资产净利率、投资支出/折旧和摊销、息税折旧摊销前利润/负债合计、最低价、最高价、收盘价;成长因子:基本每股收益、每股净资产、稀释每股收益、每股资本公积、每股收益(期末摊薄);时序因子:基本每股收益同比增长、总资产相对年初增长、最高价下半年变异系数、收盘价上半年变异系数、收盘价下半年变异系数。

针对问题二,在预测模型的选择上本文选择了基于Stacking集成学习的融合分类模型,第1层基学习器选择LR、RFC、SVM、XGBoost、Lightgbm和Catboost,第2层元学习器选择了Lightgbm,从而确定了最优的Stacking集成学习预测模型。Stacking集成模型在测试集上的AUC得分为85.71%,高于所有基础分类器,可见建立的模型较为稳定,不存在严重过拟合且效果较好。并求出第8年预测结果:10.01%的上市公司选择高送转高送转,即有347个上市公司决定高送转,3119个上市公司不会选择高送转。

本文利用机器学习算法,充分使用上市公司历史数据,融合了多种算法,且建立的Stacking集成学习预测模型较为稳定,具有较大的参考价值和现实意义。

关键词:机器学习、AUC指标、网格搜索、高送转、Stacking集成学习分类模型

阅读原文