基于带噪预训练的刑期预测方法 |
| |
作者姓名: | 郑洁 黄辉 秦永彬 |
| |
作者单位: | 贵阳职业技术学院信息科学系, 贵州贵阳 550081;贵州大学计算机科学与技术学院, 贵州贵阳 550025 |
| |
基金项目: | 国家自然科学基金项目(62066008)和贵州省科学技术基金重点项目(黔科合基础[2020]1Z055)资助。 |
| |
摘 要: | 刑期预测模型利用自然语言处理技术自动预测当前案件的建议刑期,对提高司法工作效率,维护司法审判的公平与公正,以及实现同案同判具有重要意义。现有的研究通常采用基于预训练语言模型的方法进行刑期预测建模,但由于存在裁判文书文本较长、专业性强及部分案由标注数据不足等问题,刑期预测任务依然具有较强的挑战性。针对上述问题,本文提出了基于带噪预训练的刑期预测方法。首先,根据刑期预测任务的特点,设计了融合罪名信息的刑期预测模型;其次,结合遮蔽语言模型(Masked Language Model,MLM)任务和自蒸馏策略减少刑期预测任务预训练数据中噪声的影响;最后,改进RoBERTa-wwm模型中的位置嵌入,增强模型的长文本建模能力。实验结果表明,本文提出的预训练方法能够极大地提升刑期预测任务的准确率,在小样本条件下也具有很好的表现。
|
关 键 词: | 刑期预测|语言模型|自蒸馏|长文本建模|预训练 |
|
| 点击此处可从《广西科学》浏览原始摘要信息 |
|
点击此处可从《广西科学》下载全文 |
|