一种采用机器阅读理解模型的中文分词方法 |
| |
引用本文: | 周裕林,陈艳平,黄瑞章,秦永彬,林川.一种采用机器阅读理解模型的中文分词方法[J].西安交通大学学报,2022(8):95-103. |
| |
作者姓名: | 周裕林 陈艳平 黄瑞章 秦永彬 林川 |
| |
作者单位: | 1. 公共大数据国家重点实验室;2. 贵州大学计算机科学与技术学院 |
| |
基金项目: | 国家自然科学基金资助项目(62166007); |
| |
摘 要: | 针对中文分词序列标注模型很难获取句子的长距离语义依赖,导致输入特征使用不充分、边界样本少导致数据不平衡的问题,提出了一种基于机器阅读理解模型的中文分词方法。将序列标注任务转换成机器阅读理解任务,通过构建问题信息、文本内容和词组答案的三元组,以有效利用句子中的输入特征;将三元组信息通过Transformer的双向编码器(BERT)进行预训练捕获上下文信息,结合二进制分类器预测词组答案;通过改进原有的交叉熵损失函数缓解数据不平衡问题。在Bakeoff2005语料库的4个公共数据集PKU、MSRA、CITYU和AS上的实验结果表明:所提方法的F1分别为96.64%、97.8%、97.02%和96.02%,与其他主流的神经网络序列标注模型进行对比,分别提高了0.13%、0.37%、0.4%和0.08%。
|
关 键 词: | 中文分词 序列标注 歧义词 机器阅读理解 |
|
|