首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种采用机器阅读理解模型的中文分词方法
引用本文:周裕林,陈艳平,黄瑞章,秦永彬,林川.一种采用机器阅读理解模型的中文分词方法[J].西安交通大学学报,2022(8):95-103.
作者姓名:周裕林  陈艳平  黄瑞章  秦永彬  林川
作者单位:1. 公共大数据国家重点实验室;2. 贵州大学计算机科学与技术学院
基金项目:国家自然科学基金资助项目(62166007);
摘    要:针对中文分词序列标注模型很难获取句子的长距离语义依赖,导致输入特征使用不充分、边界样本少导致数据不平衡的问题,提出了一种基于机器阅读理解模型的中文分词方法。将序列标注任务转换成机器阅读理解任务,通过构建问题信息、文本内容和词组答案的三元组,以有效利用句子中的输入特征;将三元组信息通过Transformer的双向编码器(BERT)进行预训练捕获上下文信息,结合二进制分类器预测词组答案;通过改进原有的交叉熵损失函数缓解数据不平衡问题。在Bakeoff2005语料库的4个公共数据集PKU、MSRA、CITYU和AS上的实验结果表明:所提方法的F1分别为96.64%、97.8%、97.02%和96.02%,与其他主流的神经网络序列标注模型进行对比,分别提高了0.13%、0.37%、0.4%和0.08%。

关 键 词:中文分词  序列标注  歧义词  机器阅读理解
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号