第八届挑战赛C1-基于卷积神经网络及集成学习的网络问政平台留言文本挖掘与分析

发布时间:2020-12-02 作者:本站原创 浏览量:5267

摘要:

互联网的快速发展为政府服务带来了极大的便利,网络问政平台积累了大量反映社情民意的文本数据,对这些数据应用自然语言处理技术与文本挖掘能大大提升政府的管理水平与施政效率。

针对任务一,由于原始数据集含有大量噪声,本文首先对原始数据进行预处理,包括去除特殊字符、文本去重、设计首尾冗余识别算法去除文本冗余信息,以及对文本进行分词并去除停用词。然后,本文通过数据增强方式,用卷积神经网络模型对文本按照一级标签分类,结果显示,本文建立的卷积神经网络模型在测试集上表现较好,得到的准确率为F1值为90.4%。最后,为了验证卷积神经网络模型的优越性,本文对比了多种模型的实验结果,结果证明,本文建立的卷积神经网络模型效果最佳。

针对任务二,对数据进行预处理后,首先用TextRank算法提取每条留言的关键词,依据关键词的词频去除噪声留言。对去噪后的数据集使用Doc2Vec训练句向量, 依据语义相似性进行 K-means聚类,分为7个大类,每类留言具有相同话题。随后,在每类中使用命名实体识别技术、模糊匹配算法以及高频词提取特定地点和特定人群对应的词汇,通过精确匹配得到 16个留言数大于10的热点问题。最后,使用本文提出的异常时间点留言识别算法剔除每个热点问题中时间异常的留言,并定义了问题相关留言数量比、问题相关用户数量比、问题相关留言关注度与问题相关留言集中度四个热度评价指标,利用乘法合成法来 组合熵值法与变异系数法所得的两种权重,再使用TOPSIS法计算热点问题的热度值,取排名前5的热点问题进行事件提取。

针对任务三,对数据进行预处理后,本文首先从相关性、完整性、可解释性和及时性四个方面建立了问答对统计相似度、问答对语义相似度、问答对主题相似度、是否引用法律条文、是否包含联系方式、答复意见句子长度、答复意见分词后词语个数以及问答对时间差 8个指标。随后,以这8个指标为特征,使用K-means算法将答复意见聚为高质量、中等质量以及低质量三类。考虑到数据类别的不均衡性,本文建立基于集成学习的二阶段分类器对答复意见进行分类,即在第一阶段对数据进行“高”和“非高”分类,在第二阶段对“非高”类别的数据进行“中”和“非中”分类,使用两个基于集成学习的模型来共同完成多分类任务。最后,该二阶段分类器在测试集上的准确率达F1值达Kappa值达96.93%。可见本文构建的二阶段分类器分类效果很好,能够对回复意见进行质量分类和有效评价。

关键词:卷积神经网络;TOPSIS;热点问题;K-means;集成学习

阅读原文