第六届挑战赛C1-基于双重注意力机制与Bi-LSTM的智能阅读系统

发布时间:2018-11-15 作者:BdRaces 浏览量:1469

摘要:

深度学习与自然语言处理技术发展日新月异,在生活中的应用也越来越广泛。本文构建了一个基于Bi-LSTM和注意力机制的智能文本阅读模型。对于用户输入的问题与文档,对于用户输入的问题与文档,模型可以定位并给出答案。

在数据预处理阶段,我们从数据源文件中抽取语句后进行分词和去停用词处理。通过word2vec获得初步的词向量表示。为了进一步挖掘答句内与答句间的语义信息,我们将初步词向量放入Bi-LSTM中,得到最终词向量表示。

为了凸显出答句整句的语义信息,我们利用词频对属于同一答句的词向量重要程度进行衡量,并进行加权平均,再通过除去数据中PCA的第一主成分,即可生成答句的句向量。即sentence2vec。多次实验测算证明,转化为句向量后,模型的F1-score提升了19.776%,ACC提升了19.061%,性能显著提高。

对于一个问句答句组,我们将问句词向量矩阵和答句句向量矩阵进行矩阵乘法,得到初步匹配矩阵。然后,与普通模型仅考虑应用简单的启发式方法(如求和或求平均)来将得出注意力不同,我们使用了一种创新的attenton-over-attention机制来衡量问题与候选答案的内容匹配程度。

我们先对矩阵的每一列做softmax归一化,从而得到问题到答案的注意力矩阵;再计算反向注意力,即对匹配矩阵的每一行做softmax归一化,获得答案到问题的注意力矩阵, 并按列求平均,获得一个注意力向量。最后,我们计算正反注意力的点积,这样便得到注意力汇聚向量。利用这种方法,每个问句词组对答案的重要程度可以明确地获知。注意力汇聚向量的分量表达了其对应位置的答句与问句的匹配程度,将分量值作为匹配分数,通过多次实验确定最佳阈值,将匹配分数和阈值进行比较,从而得出结果标签。

实验证明,与应用简单的启发式方法得到注意力相比,我们的方法可以将F1-socre提高22.351%。在实验过程中,我们分别对比了基于传统方法的模型与基于卷积神经网络的模型,我们的模型均优于上述模型。此外,为了测试模型的泛化能力,除题目所给数据集外,我们还在百度的WebQA数据集和机器学习保险行业问答开放数据集上进行了性能测试,及以及参数设置进行了详细的分析。在给出的测试集中,F1-score为0.854,识别正确率为81.201%,验证了本文模型的有效性。


关键字: 智能阅读,word2vec,Bi-LSTM,sentence2vec,attention-over-attention


阅读全文