第六届挑战赛C2-基于知识与语义的深度文本匹配模型-知语

发布时间：2018-11-15 作者：BdRaces 浏览量：1478

摘要：

在大数据时代，智能阅读系统的需求日益增长，人们需要一款智能阅读软件来方便自己的生活，如电子书阅读，说明书阅读，都可以借由该技术简化。另一方面，随着数据的不断增多，以及深度学习在自然语言处理领域的发展，智能阅读模型也有了发展的基础，目前来看，智能阅读模型正处在方兴未艾的发展中。

对于本次赛题给出的智能阅读模型系统，我们重新定义为文本匹配问题，也即给定两段文本，模型要正确判断文本是否匹配。

对于赛题复杂的要求，多变的环境句式，我们采用了以深度学习为基础的，基于知识与语义双重视角匹配的模型。我们首先构建了知识库，然后进行了知识检索，在这里使用了 jieba 分词以及用 Lucene 将知识库构建索引，并且使用 BM25 的匹配方式进行计算；然后我们使用 Embedding 映射后，通过 GRU 进行提取时序特征信息以及使用注意力机制对不同的特征进行加权；最后我们使用了 CNN 进行特征提取以及用 softmax 进行归一化处理。我们的模型在构造的线下测试集上得到了有利的验证，也说明了模型的鲁棒性，实用性。

关键词: 知识库、知识检索、知识过滤、GRU、注意力机制、CNN

阅读全文