期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	2篇
免费	0篇

专业分类

综合类

2篇

出版年

2023年	1篇
2022年	1篇

排序方式： 共有2条查询结果，搜索用时 0 毫秒

结合预训练和自训练的法律信息抽取增强式方法

周裕林陈艳平黄瑞章秦永彬林川《燕山大学学报》2023,(3):255-261

在“智慧法院”的建设中，法律信息抽取是法律人工智能任务中最基本的任务。目前，法律信息抽取方法主要基于深度神经网络的监督学习模型。由于现有的监督学习模型需要大量的标签数据，而人工标注的方式会提高法律信息抽取任务的成本，存在只有少样本情况下模型学习性能较差的问题。针对上述问题，提出一种结合预训练和自训练的法律信息抽取增强式方法。首先，利用大规模预训练模型和标签数据训练出一个教师模型；然后，利用改进的文本相似度计算公式从法律文书库中寻找出与训练集相似的无标签法律文本数据，再结合训练完成的教师模型对其生成伪标签数据；最后，将有标签数据和伪标签数据混合起来重新训练出一个学生模型用于下游的法律信息抽取任务。本文在2021法研杯提供的信息抽取数据集上进行验证。与基线模型进行对比，本文提出的结合预训练和自训练的法律信息抽取增强式方法取得了较好的抽取效果。相似文献

一种采用机器阅读理解模型的中文分词方法

周裕林陈艳平黄瑞章秦永彬林川《西安交通大学学报》2022,(8):95-103

针对中文分词序列标注模型很难获取句子的长距离语义依赖,导致输入特征使用不充分、边界样本少导致数据不平衡的问题,提出了一种基于机器阅读理解模型的中文分词方法。将序列标注任务转换成机器阅读理解任务,通过构建问题信息、文本内容和词组答案的三元组,以有效利用句子中的输入特征;将三元组信息通过Transformer的双向编码器（BERT）进行预训练捕获上下文信息,结合二进制分类器预测词组答案;通过改进原有的交叉熵损失函数缓解数据不平衡问题。在Bakeoff2005语料库的4个公共数据集PKU、MSRA、CITYU和AS上的实验结果表明：所提方法的F₁分别为96.64%、97.8%、97.02%和96.02%,与其他主流的神经网络序列标注模型进行对比,分别提高了0.13%、0.37%、0.4%和0.08%。相似文献