结合预训练和自训练的法律信息抽取增强式方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

结合预训练和自训练的法律信息抽取增强式方法

作者姓名：	周裕林陈艳平黄瑞章秦永彬林川

作者单位：	1. 公共大数据国家重点实验室;2. 贵州大学计算机科学与技术学院

基金项目：	国家自然科学基金资助项目(62166007);

摘要：	在“智慧法院”的建设中,法律信息抽取是法律人工智能任务中最基本的任务。目前,法律信息抽取方法主要基于深度神经网络的监督学习模型。由于现有的监督学习模型需要大量的标签数据,而人工标注的方式会提高法律信息抽取任务的成本,存在只有少样本情况下模型学习性能较差的问题。针对上述问题,提出一种结合预训练和自训练的法律信息抽取增强式方法。首先,利用大规模预训练模型和标签数据训练出一个教师模型;然后,利用改进的文本相似度计算公式从法律文书库中寻找出与训练集相似的无标签法律文本数据,再结合训练完成的教师模型对其生成伪标签数据;最后,将有标签数据和伪标签数据混合起来重新训练出一个学生模型用于下游的法律信息抽取任务。本文在2021法研杯提供的信息抽取数据集上进行验证。与基线模型进行对比,本文提出的结合预训练和自训练的法律信息抽取增强式方法取得了较好的抽取效果。
关键词：	预训练法律信息抽取自训练人工智能自然语言处理