基于子句抽取的文本摘要自动提取算法 |
| |
引用本文: | 朱兵兵,罗飞,罗勇军,丁炜超,黄浩.基于子句抽取的文本摘要自动提取算法[J].华东理工大学学报(自然科学版),2024(1):114-120. |
| |
作者姓名: | 朱兵兵 罗飞 罗勇军 丁炜超 黄浩 |
| |
作者单位: | 华东理工大学信息科学与工程学院 |
| |
基金项目: | 上海市自然科学基金(22ZR1416500);;上海市2021年度“科技创新行动计划”长三角科技创新共同体领域项目(21002411000); |
| |
摘 要: | TextRank算法及SWTextRank等改进算法在抽取式摘要生成中得到了广泛的应用,但它们都没有有效地解决抽取式摘要所存在的冗余性问题。为此,提出一种基于子句抽取的文本摘要自动提取算法(PTextRank)。首先,使用Sinica Treebank(STB)对每个句子进行语法标记,进而基于子句设置抽取单元;接着,使用BERT(Bidirectional Encoder Representation from Transformers)构建标题和每个子句的特征向量,并计算子句特征向量间的相似性,将其存放在相似度矩阵中;最后结合子句位置、子句与标题的相似度等调整子句相似度矩阵,迭代计算直至收敛,进而选取得分最高的子句作为最终摘要。实验分析表明,PTextRank算法有效地避免了多个句子中存在的冗余信息,且相比于TextRank和SWTextRank,PTextRank生成摘要的准确率至少提高6%,同时生成的摘要质量更好。
|
关 键 词: | TextRank 摘要提取 冗余处理 Sinica Treebank 篇章结构 |
|
|