第九届挑战赛C2-基于文本挖掘的旅游目的地印象分析

发布时间：2021-07-28 作者：本站原创浏览量：6946

摘要：

近来，网络评论在旅游生态中的地位显著提升，很大程度上直接反映了游客的消费体验感受、关注焦点与情感诉求，从而勾勒出游客对旅游目的地的整体印象。本文选取景区和酒店的评论文本，挖掘游客的关注焦点，同时为景区及酒店等相关经营者、文旅部门做出更优决策提供理论支撑和数据支持。

针对任务一，本文首先对50家景区和50家酒店共计84333条评论数据，进行热词挖掘并计算其热度。先对原始数据集进行数据清洗，避免因存在较大的噪声造成研究误差。再利用Text Rank算法对去噪后的评论进行关键词提取，并结合语义网络分析，获取印象热词，并设计了一套科学的热度评价指标体系，计算其热度值。

针对任务二，本文以游客满意度理论为基础，以拆分后的短句为研究对象，设计了两类评价模型。其一是基于情感分析的游客满意度评价模型，选取K-means、GMM、HAC、AP中聚类效果的算法获取游客满意度影响因素。利用NB、SVM、Text CNN算法与情感分析技术获得游客情感分类及极性得分，结合情感分析获取游客满意度总得分及分项得分。其二是构建基于模糊综合评价方法的游客满意度评价模型。以专家打分作为标准，利用均方误差（MSE）评估上述两个模型的合理性，结果显示基于情感分析的游客满意度评价模型更为科学合理。最后依据情感模型得分，将游客目的地划分为高、中、低不同层次。

针对任务三，本文以信息质量理论为基础，从评论内容质量和表达形式质量两个维度，综合时效性、情感性、相关性、完整性、可理解性五个指标，利用随机森林（Random Forest）构建基于信息质量视角的文本有效性评价体系，筛选出景区及酒店的高效评论，以减少信息搜寻成本，提高评论质量，增强评论生态的活力。此外，本文创新性地基于主题建模和词向量相似度，构建高效评论排序模型，精简冗余以减少游客的检索时间。

针对任务四，本文依据前三题的研究结果，将情感分类和LDA主题挖掘进行融合，提取出景区及酒店的积极高效评论文本集。以各家景区及酒店积极且高效的评论数占其总评论数的比重为指标，筛选出高、中、低不同层次的各三家景区及酒店，建立LDA主题挖掘模型，并将其可视化，挖掘各自的特色和亮点，以吸引游客提升竞争优势。

关键词：文本挖掘；情感分析；有效性评价；LDA主题挖掘；竞争优势

点击查看全文