第十届挑战赛C1-疫情背景下的周边游需求图谱分析

发布时间:2022-06-27 作者:本站原创 浏览量:5049

摘 要:

互联网时代下,信息爆炸是我们面临的机遇与挑战,用户生成内容(UGC)和在线旅游(OTA)数据是反映旅游市场发展现状的重要信息来源,尤其是用户评论和游记攻略数据具有一手性,能够最真实地还原用户的旅行体验。但与此同时,相关数据较为零散和碎片化,如何从中获取旅游相关要素并挖掘要素间的关联成为一种迫切的需求。因此,本研究围绕用户生成内容和在线旅游数据,运用自然语言处理技术进行数据分析挖掘,并结合Neo4j 图数据库和知识图谱的概念,对旅游要素间的隐含关联模式进行进一步的挖掘和呈现。主要研究内容和成果包括以下三部分:

一、微信公众号文章分类:首先基于赛题所给的文旅相关主题词筛选并进行近义词扩充,形成主题词库;然后,采用TextRank、TF-IDF 分别提取语料关键词,与主题词库进行匹配,同时建立一定规则对标题和正文进行直接匹配,共得到3个标签,3个标签一致的作为伪标注数据用于训练模型;最后,基于中文Bert 预训练语言模型训练分类器,作为以上三种方法得到结果不一致时的判别依据;达到了较好的公众号文章分类效果。

二、旅游产品提取和热度分析:首先,基于CLUENER 细粒度命名实体识别语料库筛选相关实体,采用BiLSTM-CRF 训练模型,针对游记攻略、景区评论、酒店评论和餐饮评论4 张表进行命名实体识别(NER),并结合LAC 库设计了一套针对旅游产品的命名实体识别筛选和优化方法;其次,基于TextCNN 分类模型、Single-Pass 聚类算法和地理编码进行同义地名合并,共整合提取到631个有效实体,累计1014种表述方式;然后,建立包括参与热度、反响热度和宣传热度三大方面指标的热度评价体系,并进行指标计算;最后,采用AHP-TOPSIS方法进行指标权重计算和排序,得到最终热度评价结果。

三、产品关联挖掘和本地旅游图谱构建:首先,在前一阶段的数据准备和实体抽取后进行关联模式的定义,根据本地经济发展程度、地理位置等因素定义了八种关联模式,其中包含三种隐含关系的模式;然后,对每种关联模式进行量化计算和标准化处理,将旅游产品和关联存入Neo4j 图数据库中,生成疫情前后茂名市旅游产品关联图谱和本地旅游宏观概念图谱;基于产品关联模式、目的地热度和评论热词变化进行对比分析,发现游客的旅游倾向从“久游饱览式”过渡到“深挖全面式”、餐饮业迎来较好发展趋势和营销风口、旅游产品的共现关系愈加明显;最后,基于以上发现撰写信件向茂名市旅游主管部门提出茂名旅游业发展政策建议。

关键词:旅游图谱;命名实体识别;热度评价;关联挖掘

点击查看全文