基于深度文本摘要的开源软件缺陷挖掘研究 |
| |
引用本文: | 汶东震,张帆,TADESSE Michael Mesfin,徐博,林鸿飞,杨亮,林原.基于深度文本摘要的开源软件缺陷挖掘研究[J].山西大学学报(自然科学版),2022(4):986-995. |
| |
作者姓名: | 汶东震 张帆 TADESSE Michael Mesfin 徐博 林鸿飞 杨亮 林原 |
| |
作者单位: | 1. 大连理工大学计算机科学与技术系;2. 大连理工大学软件学院;3. 大连理工大学人文与社会科学学部 |
| |
基金项目: | 国家自然科学基金(61772103;61702080;61632011); |
| |
摘 要: | 软件缺陷(Software Defeat/Bug)对于用户体验影响巨大,针对软件缺陷的快速定位与修复是软件工程领域一项重要研究内容。开源软件构建过程中会产生大量软件相关文本,为结合自然语言处理技术进行软件缺陷定位提供了可能。相关研究主要结合信息抽取工具对软件相关文本进行挖掘,对于文本相关的语义信息考虑较少。文章将预训练语言模型引入软件缺陷报告挖掘研究中以增强软件相关文本的语义理解,在分析开源软件文本特点基础上,提出一种基于预训练自然语言模型的深度文本摘要模型。在Summary DataSet(SDS)、Authorship DataSet(ADS)数据集上进行实验,结果表明本文提出的模型可达到约72%(ADS)准确率,与文本摘要常用基线模型相比有10%以上提升。
|
关 键 词: | 文本摘要 软件缺陷报告 开源软件挖掘 |
|
|