第六届挑战赛C3-一种基于潜在语义索引和卷积神经网络的智能阅读模型

发布时间：2018-11-01 作者：BdRaces 浏览量：1130

摘要：

人们在日常生活中也需要阅读各式各样的电子文档，有时候他们希望不用通读文本就能获得自己想要的信息。而近年来，自然语言处理(NLP)作为人工智能的一个重要领域得到了飞速发展，因此，本文通过比较不同的方法，构建基于自然语言处理技术的智能阅读模型，以解决此类问题。

整个解题过程分为以下几个步骤：第一步对智能阅读模型中的阅读材料以及问答训练集进行数据预处理，对训练集中数据的特征有一个清晰的了解，并对训练集进行去噪处理，除去空回答、重复回答等无效回答，防止干扰训练。

第二步选取经典文本“射雕英雄传”进行实验，通过使用词频-逆文件频率 (TF-IDF)模型以及基于奇异值矩阵分解(SVD)的潜在语义索引模型(LSI)进行关键词匹配，得出较佳答案。

第三步根据经典的文本分类卷积神经网络模型，我们设计了一个更深更复杂的卷积神经网络模型。通过词嵌入后，分别对问题和关键词匹配结果中的回答进行两次卷积核大小为 3、4、5 的卷积操作，经过最大池化层后，将池化的向量连接起来。并通过使用 ReLU 激活函数，防止反向传播过程中的梯度问题（梯度消失和梯度爆炸）以及使用 Batch Normalization 批规范化，加速收敛，最终选取置信度前 15 的答案作为候选答案。随后计算得到准确率为 77.0492%， F1- score 为 0.5767，以此来评价模型的优劣，并设计测试用例查看模型运行结果。

实验最后分析并评估了该智能阅读系统的泛化能力，并简要介绍了未来的计划：通过改进损失函数，构建基于 web 开放域的问答系统以及研究基于众包的智能阅读数据服务来完善该智能阅读模型。

关键词： TF-IDF,LSI,智能阅读模型，卷积神经网络，自然语言处理

阅读全文