基于知识蒸馏的高效生物医学命名实体识别模型期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于知识蒸馏的高效生物医学命名实体识别模型

作者姓名：	胡滨耿天玉邓赓段磊

作者单位：	四川大学计算机学院, 成都 610065

基金项目：	国家自然科学基金;国家自然科学基金;国家自然科学基金

摘要：	在生物医学文献挖掘领域中,已有的BioBert采用预训练的方式在生物医学命名实体识别（BioNER）任务中表现出优秀的实体识别性能,却存在模型规模过大、速度过慢的缺点。针对BioBert网络模型如何高效压缩问题,该文提出了一种高效生物医学名称实体识别模型,命名为FastBioNER模型。该模型采用动态知识蒸馏方式对BioBert模型进行压缩,首先,通过动态权重函数模拟真实的学习行为,即在模型训练过程中动态调整各部分损失函数的重要程度;其次,采用动态知识蒸馏方式将训练后的BioBert作为教师模型,压缩到一个规模较小的学生模型中;最后,对提出的FastBioNER模型在已公开数据集NCBI疾病、BC5CDR-chem和BC4CHEMD上进行了实验验证。实验结果表明：提出的FastBioNER模型在3个数据集中获得除BioBert外最高F1值分别为88.63%、92.82%和92.60%,并分别以损失1.10%、0.86%、0.15%的F1值为代价,将BioBert的模型大小压缩了39.26%,同时推理时间缩短了46.17%。
关键词：	自然语言处理生物医学信息学命名实体识别知识蒸馏
本文献已被 CNKI 万方数据等数据库收录！
	点击此处可从《清华大学学报(自然科学版)》浏览原始摘要信息
	点击此处可从《清华大学学报(自然科学版)》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏