第九届挑战赛A2-基于机器学习模型预测财务造假的上市公司

发布时间:2021-07-28 作者:本站原创 浏览量:8556

摘要:

“财务造假”是指上市公司伪造财务报表,虚报、瞒报公司的部分财务数据。正是如此,通过机器学习模型对公司财务数据挖掘,对数据分析、预测财务造假有了理论上的可行性。基于对样例数据集进行了常规的缺失值、异常值、标准化等数据处理,在总19种行业中,对8种行业数据不平衡处理,包含朴素随机欠采样、朴素随机过采样以及ADASYN过采样法等方法。运用SVM及K折交叉验证去验证并挑选各个行业最优的均衡方法,剩余11种则不进行任何均衡操作。随后,采取特征选择中使用了权重法、过滤法、包裹法、嵌入法等方法提取特征,并结合实际经济学意义得到最终特征。最终通过6种模型预测,以F1分数为评价指标,进行预测哪些上市公司可能会存在造假情况。

针对问题一,在对样例数据集进行上述的特征因子选择后,可以确定出各行业与财务数据造假相关的数据指标。随后,通过构造

image.png

函数并制作热力图,可以得出不同行业上市公司财务造假相关数据指标的异同。

针对问题二、问题三,通过 LR、RF、SVM、MLP、XGBoost、GBDT、ADAboost这7种模型对各个行业进行财务造假预测,得出第6年各个行业上市公司财务造假的情况。

其中所有行业最优预测模型的总平均准确率为0.751,总平均AUC为0.76486。

关键字:财务造假;行业分类;机器学习;特征选择;不平衡处理

点击查看全文