第十届挑战赛C3-疫情背景下的周边游需求图谱分析

发布时间:2022-06-23 作者:本站原创 浏览量:3293

摘 要:

新冠疫情给旅游业带来了巨大的冲击。后疫情时代,如何在疫情防控常态化的情况下逐步复苏旅游业、使得旅游业经济保持稳中向好的局面,是各级政府、相关企业以及游客群体共同关心的问题,而促进旅游业的复苏,需要能够迅速识别市场需求。本文依托于旅游市场的UGC(用户生成内容)和OTA(在线旅游)的语料数据,采用以深度学习为代表的多种自然语言处理技术,挖掘语料中的有用信息,建立知识图谱并寻找其中的隐含关联。最终给出切实可行的政策建议。

针对问题一,本文首先对2018-2021年间的6286篇微信公众号文章进行人工标注,判断文章是否与文旅相关;之后通过两个机器学习算法SVM与XGBoost以及两个深度学习算法Bi-LSTM与GRU对预处理后的公众号文章语料进行分类。综合考虑准确率、召回率和F1值,选择最优的Bi-LSTM算法对剩余的微信公众号文章进行预测,最后识别出2217篇与文旅相关的微信公众号文章。

针对问题二,为了获取评论、游记攻略以及公众号文章中的相关旅游产品实例,本文采取命名实体识别的方法,构建BERT+Bi-LSTM+CRF模型从上述三类语料中提取旅游产品的实体,经过实体对齐之后,构建以频次为基础的实体热度计算公式计算旅游产品实体每年的热度值。

针对制作茂名旅游产品图谱的问题三。本文的主要工作是利用Apriori算法计算问题二中提取到实体之间的关联度,在此基础上制作知识图谱;此外,本文使用依存句法分析获取了酒店、餐饮、景区三类实体评论中的评价方面-评价二元组,将评价方面作为关系名,评价作为节点名绘入知识图谱当中,制作更细粒度的知识图谱。

针对问题四,是前三部分所得到的结果的分析和针对性的政策建议。为了保证政策建议的科学性、合理性与针对性,我们结合问题二中茂名旅游产品实体热度的结果,使用网络爬虫获取了美食店铺、酒店、旅游景点、旅游景区四类产品实体的经纬度坐标,结合热度值在ArcGIS软件中以年度为单位绘制产品热度分布地图,分析旅游地点热度在疫情前后的变化规律。

关键词:知识图谱;旅游需求识别;自然语言处理;深度学习

点击查看全文