第五届技能赛B-银行客户忠诚度分析

发布时间:2023-01-15 作者:本站原创 浏览量:2301

摘要:

改革开放以来,居民收入水平呈现快速增长的趋势。随着个人财富的积累,人们渐渐将注意力转移到自身财产管理上,各类理财产品层出不穷。在巨大的市场机遇面前,各家银行面临巨大的市场竞争。“以客户为中心”业务模式可以为客户带来极致体验和价值成长,形成路径依赖,进而实现价值共赢。因此,有效进行客户忠诚度分析,维护和提升客户忠诚度是当代银行发展历程中的重要课题。本文主要研究银行忠诚度的诸多问题,查阅相关文献并根据题中所给数据进行分析,综合运用XGBoost模型、随机森林预测模型等方法建立相关问题的数学模型,并利用Python、Excel、SPSS等软件进行模型的求解,得出合理的结论。

对于任务一,首先对短期数据进行缺失值和重复值处理,通过dropna()函数删除缺失值所在行,再通过drop.duplicates函数,删除user_id列重复值所在行数据。接着对于长期数据进行异常值处理,即取子数据框功能筛选并删除异常值所在行,对于需要保留的部分数据通过filter函数筛选并删除异常字符所在行。最后,对短期数据中的字符型数据进行特征编码。

对于任务二,首先选用spearman 相关系数计算短期数据中所有指标之间的相关性,用heatmap 函数绘制相关系数热力图。接着分别统计两种产品购买结果下不同年龄客户量占比,由bar 函数绘制成分组柱状图。然后统计蓝领、学生与其他职业的产品购买情况,由pie 函数绘制成饼状图。分别统计两种产品购买结果下的拜访客户通话时长,由boxplot 函数绘制拜访客户的通话时长箱线图。

对于任务三,利用Excel 统计两种流失情况下不同年龄客户量占比,根据Excel 数据透视表,绘制相应折线图。统计两种流失情况下客户信用资格与年龄分布,绘制相应散点图。构造包含各账号户龄在不同流失情况下的客户量占比透视表,绘制相应堆叠柱状图。依照图表,对账号户龄和客户金融资产进行划分,利用Excel 分别进行特征编码,作为新的客户特征。统计各资产阶段中新、老客户流失的客户量,由heatmap 函数绘制热力图并设置上下限,对新老客户各资产阶段的客户流失情况进行分析。

对于任务四,根据给定图表,利用Excel 统计各类特征,进行特征构建。对于任务五,遵循代表性与不重复性原则,选取适当的客户特征,建立客户长期忠诚度预测模型。构建客户特征指标。基于任务3 和任务4 处理后的结果,在任务四构建的IsActiveStatus,IsActiveAssetStage,CrCardAssetStage 指标的基础上,继续选取客户信用资格、性别、年龄、客户购买产品数量、个人年收入、新老用户活跃程度、不同金融资产客户活跃程度、不同金融资产信用卡持有状态8 个特征考虑,分别利用XGBoost 分类预测和随机森林分类预测两种模型进行预测,结果显示训练集的F1 值分别为98.4%和84.4%,训练效果较好。分别使用混淆矩阵、F1 Score、准确率、召回率、精确率对预测模型进行评估,经过效果比较,最终选取XGBoost模型完成预测。

关键字:XGBoost模型、随机森林预测模型、用户忠诚度分析

点击查看全文