第九届挑战赛A2-基于机器学习模型预测财务造假的上市公司

发布时间：2021-07-28 作者：本站原创浏览量：8556

摘要：

“财务造假”是指上市公司伪造财务报表，虚报、瞒报公司的部分财务数据。正是如此，通过机器学习模型对公司财务数据挖掘，对数据分析、预测财务造假有了理论上的可行性。基于对样例数据集进行了常规的缺失值、异常值、标准化等数据处理，在总19种行业中，对8种行业数据不平衡处理，包含朴素随机欠采样、朴素随机过采样以及ADASYN过采样法等方法。运用SVM及K折交叉验证去验证并挑选各个行业最优的均衡方法，剩余11种则不进行任何均衡操作。随后，采取特征选择中使用了权重法、过滤法、包裹法、嵌入法等方法提取特征，并结合实际经济学意义得到最终特征。最终通过6种模型预测，以F1分数为评价指标，进行预测哪些上市公司可能会存在造假情况。

针对问题一，在对样例数据集进行上述的特征因子选择后，可以确定出各行业与财务数据造假相关的数据指标。随后，通过构造

函数并制作热力图，可以得出不同行业上市公司财务造假相关数据指标的异同。

针对问题二、问题三，通过 LR、RF、SVM、MLP、XGBoost、GBDT、ADAboost这7种模型对各个行业进行财务造假预测，得出第6年各个行业上市公司财务造假的情况。

其中所有行业最优预测模型的总平均准确率为0.751，总平均AUC为0.76486。

关键字：财务造假；行业分类；机器学习；特征选择；不平衡处理

点击查看全文