第九届挑战赛C3-基于LDA主题模型和LightGBM分类模型的在线旅游评论挖掘及分析

发布时间:2021-07-28 作者:本站原创 浏览量:4276

摘要:

近年来,随着网络技术的快速发展和旅游业信息的高度密集,在线旅游(Online Travel Agent,简称OAT)已经成为用户获取信息、表达观点、相互交流的重要途径,大量以评论和游记等为形式的非结构化数据不断涌现,借助自然语言处理技术来提取旅游者对目的地的真实印象,能够掌握影响游客满意度的重要因素,有针对性地提高游客满意度、提升目的地美誉度,不仅能够保证客源稳定,而且对于旅游企业科学监管、资源优化配置以及市场持续开拓具有长远而积极的作用。

针对任务一,由于原始数据集含有大量噪声,本文首先对原始数据进行预处理,包括文本去重、分词、词性标注和去停用词。由于与景点和酒店相关的印象词语具有一定的特殊性,保留句子中词性为名词、名动词和形容词的词汇。对比了基于词频、TF-IDF和textrank三种算法进行文本关键词提取的结果,最终,保留TF-IDF算法提取的关键词和对应权重,分别制作50个景区和50家酒店的印象词云表。

针对任务二,首先,对评论数据进行文本预处理,保留分词结果中词性标注为名词的词语,基于LDA模型进行主题识别,依据主题聚类结果和相关文献,分别构建不同评价维度下景区及酒店评论的主题词词典。其次,使用哈工大开源LTP分词库,通过将标点符号替换为换行符,实现对评论的分句。再者,基于主题词典,实现分句筛选和分类,并对分句进行情感分析,进行情感得分规范化。采用以好评数比例扩大好评影响力的方法,修正情感得分规范化时,最终得分偏低的情况。最后,基于用户对各评价维度的关注度,计算每个景区或酒店总得分时的权重。最终结果中,对景区在服务、位置、设施、卫生和性价比上预测评分的均方误差分别为0.24,0.37,0.21,0.10和0.10;对酒店在服务、位置、设施、卫生和性价比上预测评分的均方误差分别为0.11,0.24,0.10,0.03和0.24。

针对任务三,查阅相关文献,本文分别从内容相关性、内容有用性和内容简单重复三个方面建立了评论有效性评价体系,8个二级指标分别为是否主题词数、是否包含情感词、是否包含广告词、是否包含违禁词、包含文本字符数、语义丰富度、情感是否极端、内容是否重复。随后,分别抽取去重后的景区评论5862条,去重后的酒店评论2014条,进行人工标注,并对标注结果进行一致性检验,两标注者对景区和酒店的标注结果Kappa值分别为0.627、0.912。最后,对由人工和机器共同标注的数据集,共9060条带标签的评论数据,划分训练集和测试集,构建LightGBM模型,进行模型训练和参数调优,最终,得到模型在测试集上的分类准确率为94%,对有效评论的识别精度为94%,F1值84%,对无效评论的识别精度为93%,F1值为96%。

针对任务四,基于任务二中的综合评价结果,分别筛选了高中低三个层次中各三个景区和酒店。首先,基于主题词典,识别用户对不同层级中景区和酒店关注点的分布差异。其次,基于评论的情感分类结果,分别对正负向评论进行主题识别。最终结果中,对景区而言,服务、设施和性价比是正向评论中的热点,门票价格是用户负面评价中普遍关注的问题;对酒店而言,服务、位置和设施是用户正面评价中关注的热点,设施和卫生为用户负面评价中关注的热点。最后,基于不同层级中景区和酒店的特征词频,绘制词云图,分别对各景区和酒店进行特色分析。

关键词:TF-IDF模型;LDA模型;LightGBM;主题识别;有效性评价

点击查看全文