摘 要: | 机器阅读理解(Machine Reading Comprehension,MRC)一直是自然语言处理(Natural Language Processing,NLP)领域的研究热点和核心问题.近期,百度开源了一款大型中文阅读理解数据集DuReader,旨在处理现实生活中的RC(Reading Comprehension)问题.该数据集包含1000k的文本、200k的问题和420k的答案,是目前最大型的中文机器阅读理解数据集,在此数据集上发布的阅读理解任务比以往更具有实际意义,也更有难度.针对该数据集的阅读理解任务,分析研究了一种结合双向注意力流与自注意力(self-attention)机制实现的神经网络模型.该模型通过双向注意力流机制来获取query-aware上下文信息表征并进行粒度分级,使用自注意力机制捕捉文本和问题句内的词语依赖关系和句法信息,再通过双向长短期记忆(Long Short-Term Memory,LSTM)网络进行语义信息聚合.实验结果最终得到相同词数百分比(BLEU-4)为44.7%,重叠单元百分比(Rouge-L)为49.1%,与人类测试平均水平较为接近,证明了该模型的有效性.
|