第九届挑战赛C3-基于LDA主题模型和LightGBM分类模型的在线旅游评论挖掘及分析

发布时间：2021-07-28 作者：本站原创浏览量：4276

摘要：

近年来，随着网络技术的快速发展和旅游业信息的高度密集，在线旅游（Online Travel Agent，简称OAT）已经成为用户获取信息、表达观点、相互交流的重要途径，大量以评论和游记等为形式的非结构化数据不断涌现，借助自然语言处理技术来提取旅游者对目的地的真实印象，能够掌握影响游客满意度的重要因素，有针对性地提高游客满意度、提升目的地美誉度，不仅能够保证客源稳定，而且对于旅游企业科学监管、资源优化配置以及市场持续开拓具有长远而积极的作用。

针对任务一，由于原始数据集含有大量噪声，本文首先对原始数据进行预处理，包括文本去重、分词、词性标注和去停用词。由于与景点和酒店相关的印象词语具有一定的特殊性，保留句子中词性为名词、名动词和形容词的词汇。对比了基于词频、TF-IDF和textrank三种算法进行文本关键词提取的结果，最终，保留TF-IDF算法提取的关键词和对应权重，分别制作50个景区和50家酒店的印象词云表。

针对任务二，首先，对评论数据进行文本预处理，保留分词结果中词性标注为名词的词语，基于LDA模型进行主题识别，依据主题聚类结果和相关文献，分别构建不同评价维度下景区及酒店评论的主题词词典。其次，使用哈工大开源LTP分词库，通过将标点符号替换为换行符，实现对评论的分句。再者，基于主题词典，实现分句筛选和分类，并对分句进行情感分析，进行情感得分规范化。采用以好评数比例扩大好评影响力的方法，修正情感得分规范化时，最终得分偏低的情况。最后，基于用户对各评价维度的关注度，计算每个景区或酒店总得分时的权重。最终结果中，对景区在服务、位置、设施、卫生和性价比上预测评分的均方误差分别为0.24，0.37，0.21，0.10和0.10；对酒店在服务、位置、设施、卫生和性价比上预测评分的均方误差分别为0.11，0.24，0.10，0.03和0.24。

针对任务三，查阅相关文献，本文分别从内容相关性、内容有用性和内容简单重复三个方面建立了评论有效性评价体系，8个二级指标分别为是否主题词数、是否包含情感词、是否包含广告词、是否包含违禁词、包含文本字符数、语义丰富度、情感是否极端、内容是否重复。随后，分别抽取去重后的景区评论5862条，去重后的酒店评论2014条，进行人工标注，并对标注结果进行一致性检验，两标注者对景区和酒店的标注结果Kappa值分别为0.627、0.912。最后，对由人工和机器共同标注的数据集，共9060条带标签的评论数据，划分训练集和测试集，构建LightGBM模型，进行模型训练和参数调优，最终，得到模型在测试集上的分类准确率为94%，对有效评论的识别精度为94%，F1值84%，对无效评论的识别精度为93%，F1值为96%。

针对任务四，基于任务二中的综合评价结果，分别筛选了高中低三个层次中各三个景区和酒店。首先，基于主题词典，识别用户对不同层级中景区和酒店关注点的分布差异。其次，基于评论的情感分类结果，分别对正负向评论进行主题识别。最终结果中，对景区而言，服务、设施和性价比是正向评论中的热点，门票价格是用户负面评价中普遍关注的问题；对酒店而言，服务、位置和设施是用户正面评价中关注的热点，设施和卫生为用户负面评价中关注的热点。最后，基于不同层级中景区和酒店的特征词频，绘制词云图，分别对各景区和酒店进行特色分析。

关键词：TF-IDF模型；LDA模型；LightGBM；主题识别；有效性评价

点击查看全文