第九届挑战赛A1-基于数据挖掘的上市公司财务数据分析

发布时间:2021-07-28 作者:本站原创 浏览量:14844

摘要:

由于信息不对称,隐蔽的上市公司财务数据造假及爆雷很难被预防和预测,一旦雷爆,有可能产生多米诺骨牌效应,严重损害投资者利益。本文尝试用机器学习,寻找各行业与财务数据造假相关的数据指标,并且使用挑选出来的指标进行机器学习预测得到第六年可能会发生造假的公司。

针对问题一,采用了基于惩罚项和基于树模型两种不同的嵌入法,前一种用了LR、LASSO、SVM三种模型,后一种用了RF、GBDT、XGBoost、LightGBM模型共七种来机器学习,求出对上市公司发生造假有相关性的特征。再根据特征重要性程度,得到每个算法排名的前30个指标,挑选出在所有算法中出现次数大于或等于3次的指标,作为与财务数据造假相关的数据指标。并以制造业和房地产业为例,对挑选出来的指标进行共性分析和差异性分析。

针对问题二,通过SMOTE采样解决不同行业的数据不平衡问题之后,利用F1-score和AUC指标,并基于k折交叉验证和网格搜索给第一问中效果较好的LR、RF、GBDT、XGBoost、LightGBM模型进行超参数调优。在调试好的机器模型的基础上,本文选择了基于Stacking 集成学习把模型融合成一个集成分类预测模型,第1层基学习器选择RF、GBDT、XGBoost、LightGBM模型,第2层元学习器选择了LR模型,从而确定了最优的Stacking集成学习分类预测模型。Stacking集成模型在测试集上的F1-score得分为0.96,AUC为0.79,高于所有的基学习器,不存在过拟合现象并且预测效果良好,并求出第6年制造业的预测结果为有20家上市公司发生财务数据造假。

针对问题三,采用了第二问的方法对其他行业进行预测,对没有发生造假情况的租赁和商务服务业使用OneClass SVM进行异常点检测,得到所有行业(除制造业)在第6年共有27家上市公司发生财务造假。本文旨在寻求一个能包含全行业的集成学习机器分类模型,但是在超参数调优的过程中,发现由于LR模型的局限性,限制了集成学习机器模型的能力,暂时不能得到此机器模型。

本文利用机器学习算法,充分使用上市公司历史数据,融合了多种算法,且建立的Stacking集成学习预测模型较为稳定,能够帮助企业及时发现财务问题以采取补救措施;为投资者、企业合作伙伴等利益相关者提供更多财务信息来优化投资决策;为监管层提供有效方法,降低人力、物力成本,完善市场监管的作用,具有较大的参考价值和现实意义。

关键词:财务造假 嵌入法 机器学习 Stacking

点击查看全文