第四届挑战赛C1-网络招聘信息的分析与挖掘

发布时间：2016-10-18 作者：BdRaces 浏览量：2335

摘要：

网络招聘凭借其信息传递速度快、空间距离小、成本低廉等优势，已成为招聘者发布和应聘者获取信息的主要渠道。因此，对网络招聘信息进行分析研究，了解社会和相关行业的需求特点与趋势，为广大求职者提供正确的就业指导有着非常重要的意义。本文将基于数据挖掘技术对某招聘网站发布的 50 多万条招聘信息数据进行内在的信息挖掘，提取我们需要进行分析的部分进行深度挖掘和分析。

针对问题一：本文首先将附件 3 中的非结构化数据进行去重去空、中文分词及停用词过滤等数据预处理，然后基于 TFIDF 权重法提取 50000 个候选特征词，形成词袋，构造词汇-文本矩阵，由于这种方法具有高维度，高稀疏度以及同义词影响的缺点，因此，本文进一步利用基于潜在语义（LSA）分析的奇异值分解算法（SVD）对词汇-文本矩阵进行空间语义降维，语义压缩后的文本向量被认为投影在了同一空间里，再通过 k-means聚类算法对职位的职业类型和专业领域进行划分。

针对问题二：本文将附件 1 中结构化的数据数值化处理后，运用主成分分析法构建综合排名算法得出各个热门指标的排名，进而对各个指标的未来人才需求走向进行可视化分析，引入时间因素预测短期人才需求走向；

针对问题三：本文将所有大数据相关职位筛选出来，深入分析其需求增长趋势、行业分布情况、地域分布情况、行业职位特征、行业薪酬情况以及技能要求，对其进行可视化展示，并运用关联规则挖掘对其各个指标的内在联系进行剖析。

针对问题四：文本另外抓取了 58 同城的网络招聘信息，通过计算 TSI 人才紧缺指数，深入分析了 IT 行业在地域、职位、学历方面的供求现状。

最后我们根据目前统计学人才培养方案与实际行业需求的差距，提出针对性建议。

关键词：TFIDF；奇异值分解；K-means 文本聚类；主成分分析；关联规则挖掘

查看全文