一种采用机器阅读理解模型的中文分词方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

一种采用机器阅读理解模型的中文分词方法

引用本文：	周裕林,陈艳平,黄瑞章,秦永彬,林川.一种采用机器阅读理解模型的中文分词方法[J].西安交通大学学报,2022(8):95-103.

作者姓名：	周裕林陈艳平黄瑞章秦永彬林川

作者单位：	1. 公共大数据国家重点实验室;2. 贵州大学计算机科学与技术学院

基金项目：	国家自然科学基金资助项目(62166007)；

摘要：	针对中文分词序列标注模型很难获取句子的长距离语义依赖，导致输入特征使用不充分、边界样本少导致数据不平衡的问题，提出了一种基于机器阅读理解模型的中文分词方法。将序列标注任务转换成机器阅读理解任务，通过构建问题信息、文本内容和词组答案的三元组，以有效利用句子中的输入特征；将三元组信息通过Transformer的双向编码器（BERT）进行预训练捕获上下文信息，结合二进制分类器预测词组答案；通过改进原有的交叉熵损失函数缓解数据不平衡问题。在Bakeoff2005语料库的4个公共数据集PKU、MSRA、CITYU和AS上的实验结果表明：所提方法的F₁分别为96.64%、97.8%、97.02%和96.02%,与其他主流的神经网络序列标注模型进行对比，分别提高了0.13%、0.37%、0.4%和0.08%。
关键词：	中文分词序列标注歧义词机器阅读理解