第九届挑战赛C2-基于文本挖掘的旅游目的地印象分析

发布时间:2021-07-28 作者:本站原创 浏览量:6946

摘要:

近来,网络评论在旅游生态中的地位显著提升,很大程度上直接反映了游客的消费体验感受、关注焦点与情感诉求,从而勾勒出游客对旅游目的地的整体印象。本文选取景区和酒店的评论文本,挖掘游客的关注焦点,同时为景区及酒店等相关经营者、文旅部门做出更优决策提供理论支撑和数据支持。

针对任务一,本文首先对50家景区和50家酒店共计84333条评论数据,进行热词挖掘并计算其热度。先对原始数据集进行数据清洗,避免因存在较大的噪声造成研究误差。再利用Text Rank算法对去噪后的评论进行关键词提取,并结合语义网络分析,获取印象热词,并设计了一套科学的热度评价指标体系,计算其热度值。

针对任务二,本文以游客满意度理论为基础,以拆分后的短句为研究对象,设计了两类评价模型。其一是基于情感分析的游客满意度评价模型,选取K-means、GMM、HAC、AP中聚类效果的算法获取游客满意度影响因素。利用NB、SVM、Text CNN算法与情感分析技术获得游客情感分类及极性得分,结合情感分析获取游客满意度总得分及分项得分。其二是构建基于模糊综合评价方法的游客满意度评价模型。以专家打分作为标准,利用均方误差(MSE)评估上述两个模型的合理性,结果显示基于情感分析的游客满意度评价模型更为科学合理。最后依据情感模型得分,将游客目的地划分为高、中、低不同层次。

针对任务三,本文以信息质量理论为基础,从评论内容质量和表达形式质量两个维度,综合时效性、情感性、相关性、完整性、可理解性五个指标,利用随机森林(Random Forest)构建基于信息质量视角的文本有效性评价体系,筛选出景区及酒店的高效评论,以减少信息搜寻成本,提高评论质量,增强评论生态的活力。此外,本文创新性地基于主题建模和词向量相似度,构建高效评论排序模型,精简冗余以减少游客的检索时间。

针对任务四,本文依据前三题的研究结果,将情感分类和LDA主题挖掘进行融合,提取出景区及酒店的积极高效评论文本集。以各家景区及酒店积极且高效的评论数占其总评论数的比重为指标,筛选出高、中、低不同层次的各三家景区及酒店,建立LDA主题挖掘模型,并将其可视化,挖掘各自的特色和亮点,以吸引游客提升竞争优势。

关键词:文本挖掘;情感分析;有效性评价;LDA主题挖掘;竞争优势

点击查看全文