融合抽取式和抽象式的藏文摘要算法 |
| |
作者姓名: | 高一鸣 魏志恒 多拉 王文强 左祥建 贾星星 |
| |
作者单位: | 兰州大学 数学与统计学院, 兰州 730000;省部共建藏语智能信息处理及应用国家重点实验室, 西宁 810000;青海省藏文信息处理与机器翻译重点实验室, 西宁 810000;中山大学 网络空间安全学院, 广东 深圳 210000;重庆邮电大学 网络空间安全与信息法学院, 重庆 400065 |
| |
基金项目: | 国家自然科学基金项目(61902164);藏文文本分类关键技术研究项目 (2023-Z-004) |
| |
摘 要: | 为了推动文本摘要技术在藏文领域的发展,采用两阶段微调的方法,构建了一种融合抽取式和抽象式的藏文摘要模型(BERT-ext-abs),保留了摘要的流畅性和语义一致性。训练抽取式藏文摘要模型BERT-ext,在此基础上进行第二次微调,得到抽象式藏文摘要模型BERT-ext-abs。从训练模型结构和数据规模两个角度分别设置对比实验,结果表明,相较于未经过二次微调的抽象式藏文摘要模型BERT-abs, BERT-ext-abs模型在ROUGE-1分数上提高了3.23%,在BERT Score分数上提高了0.95%。此外,与BERT-abs相比,BERT-ext-abs的模型参数量和训练数据量更少,能更高效地生成流畅且语义一致的摘要。
|
关 键 词: | 抽取式摘要 抽象式摘要 预训练模型 双向编码器表征法 藏文 |
收稿时间: | 2023-12-12 |
修稿时间: | 2024-09-20 |
|
| 点击此处可从《重庆邮电大学学报(自然科学版)》浏览原始摘要信息 |
|
点击此处可从《重庆邮电大学学报(自然科学版)》下载免费的PDF全文 |
|