第十一届挑战赛C1-泰迪内推平台招聘与求职双向系统的构建

发布时间：2023-09-01 作者：本站原创浏览量：2521

摘要：

在新时代背景下，大学生求职问题已成为广泛关注的社会热点，特别是疫情过后，多种社会因素加剧了应届生就业的严峻形势。对招聘信息与求职者信息进行分析研究，挖掘各类兴起行业相应的人才需求现状及发展趋势，有助于为广大求职者提供正确的就业指导。本文围绕招聘信息与求职信息，运用自然语言处理技术进行数据分析挖掘，基于半结构化文本构建Topsis-Fuzzy 模型以评估岗位匹配度和求职者满意度，并结合自由文本构建空间向量模型来修正评估结果，最后根据互惠概率、贪心优化和动态规划分别构建了三种双向推荐模型。

针对问题一，本文首先运用python 中Request 模块获得，读取“找工作”，”找人才”以及各岗位信息和求职信息所在网址的url 并分析其规律；然后，基于规律利用json 库loads 函数将截至2023 年4 月17 日各求职者和各招聘岗位的信息以字典形式爬取下来；最后，运用panda 库中dataframe 函数将字典形式转化为表格形式，在此基础上运用concat 函数分别完成对各招聘岗位和各求职者关键指标信息之间的横向拼接，并将其保存到对应的csv 文件。经过上述爬取步骤，一共获得10920 条求职者信息，1575 条招聘信息。

针对问题二，本文首先运用word2vec 模型、TF-IDF 算法对所爬取信息展开文本预处理，包括文本清洗，字段提取，停用词过滤及自由文本关键词提取，在此基础上通过对各指标的词频统计分别绘制求职者和招聘岗位的整体画像，探究内推平台中求职者和招聘岗位的共同特征。考虑到仅仅采用整体画像对招聘信息和求职信息展开画像描述缺乏个性化描述，难以精准表达招聘岗位和求职者的需求，本文运用k-means++算法对招聘岗位和求职者进行聚类，并基于不同类别求职者和招聘信息在聚类指标上的差异可视化分析对各类别求职者和招聘信息进行命名。最后，针对各类求职者和招聘信息的特征通过词频统计分别绘制画像，并从双向匹配的角度对各类画像展开分析，结论表明：“策马奔腾型岗位”与“目标求职者”相匹配，“经验丰富型岗位“和”智慧前沿型岗位”与“高薪求职者”相匹配，而“持续探索型岗位”与“入门求职者”相匹配。

针对问题三，本文综合考虑了半结构化文本和自由文本来评估岗位匹配度和求职者满意度。一方面，本文针对半结构化文本构建评价体系，然后运用AHP

法和熵权法对评价指标进行组合赋权，考虑到部分离散型指标数据可能导致评价结果不准确，本文引入模糊理论构建Topsis-Fuzzy 评价模型来评估岗位匹配度和求职者满意度，将离散型指标映射为模糊隶属度函数，使得评估结果更加可靠。另一方面，由于自由文本蕴含重要的求职与招聘信息，本文结合TF-IDF 权重法和向量空间模型(VSM)计算自由文本中招聘信息与求职者信息的特征向量，然后结合余弦相似度、皮尔逊相关系数、Jaccard 相似度、欧几里得距离和曼哈顿距离来计算招聘信息与求职者信息的综合相似度，以综合相似度指标来刻画招聘企业与求职者的匹配程度和求职者对招聘企业的满意程度，最后利用相似度对基于半结构化文本得出的匹配度和满意度进行修正。

针对问题四，本文根据题中所给的招聘流程逐步构建了三个招聘求职双向推荐模型。为了提高双向推荐的效率，本文首先对互惠概率进行定义（代表企业 i 给求职者 j 发送offer 的实际概率），然后构建基于互惠概率的招聘求职双向推荐模型，根据互惠概率是否大于阈值α来给招聘企业优先推荐求职者。为了使得履约率指标尽可能达到最高，本文构建了基于贪心优化的招聘求职双向推荐模型，主要思路是在每一轮发送offer 时选择签约人数最多的策略以实现最终所有岗位的签约总人数最大的目标。考虑到贪心优化往往会导致局部最优解，本文基于动态规划的招聘求职双向推荐模型以期得出全局的最优推荐策略。最后本文对比三种模型的结果发现，三种模型的履约率均随着α 的增加呈阶梯式下降；当α ∈[000022501] 时，基于动态规划的招聘求职双向推荐模型的履约率(60265%)是最高的0需要发送offer 的轮数(3)是最小的，说明该模型能以最低的成本达到最优的履约率结果，是相对最优的双向推荐模型。

关键词：双向推荐；自然语言处理技术；k-means++算法；Topsis-Fuzzy 模型；向量空间模型(VSM)；贪心优化；动态规划

点击查看全文