第四届挑战赛C1-网络招聘信息的分析与挖掘

发布时间:2016-10-18 作者:BdRaces 浏览量:2335

摘要:  

网络招聘凭借其信息传递速度快、空间距离小、成本低廉等优势,已成为招聘者发布和应聘者获取信息的主要渠道。因此,对网络招聘信息进行分析研究,了解社会和相关行业的需求特点与趋势,为广大求职者提供正确的就业指导有着非常重要的意义。本文将基于数据挖掘技术对某招聘网站发布的 50 多万条招聘信息数据进行内在的信息挖掘,提取我们需要进行分析的部分进行深度挖掘和分析。

针对问题一:本文首先将附件 3 中的非结构化数据进行去重去空、中文分词及停用词过滤等数据预处理,然后基于 TFIDF 权重法提取 50000 个候选特征词,形成词袋,构造词汇-文本矩阵,由于这种方法具有高维度,高稀疏度以及同义词影响的缺点,因此,本文进一步利用基于潜在语义(LSA)分析的奇异值分解算法(SVD)对词汇-文本矩阵进行空间语义降维,语义压缩后的文本向量被认为投影在了同一空间里,再通过 k-means聚类算法对职位的职业类型和专业领域进行划分。

针对问题二:本文将附件 1 中结构化的数据数值化处理后,运用主成分分析法构建综合排名算法得出各个热门指标的排名,进而对各个指标的未来人才需求走向进行可视化分析,引入时间因素预测短期人才需求走向;

针对问题三:本文将所有大数据相关职位筛选出来,深入分析其需求增长趋势、行业分布情况、地域分布情况、行业职位特征、行业薪酬情况以及技能要求,对其进行可视化展示,并运用关联规则挖掘对其各个指标的内在联系进行剖析。

针对问题四:文本另外抓取了 58 同城的网络招聘信息,通过计算 TSI 人才紧缺指数,深入分析了 IT 行业在地域、职位、学历方面的供求现状。

最后我们根据目前统计学人才培养方案与实际行业需求的差距,提出针对性建议。

关键词:TFIDF;奇异值分解;K-means 文本聚类;主成分分析;关联规则挖掘