首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于子句抽取的文本摘要自动提取算法
引用本文:朱兵兵,罗飞,罗勇军,丁炜超,黄浩.基于子句抽取的文本摘要自动提取算法[J].华东理工大学学报(自然科学版),2024(1):114-120.
作者姓名:朱兵兵  罗飞  罗勇军  丁炜超  黄浩
作者单位:华东理工大学信息科学与工程学院
基金项目:上海市自然科学基金(22ZR1416500);;上海市2021年度“科技创新行动计划”长三角科技创新共同体领域项目(21002411000);
摘    要:TextRank算法及SWTextRank等改进算法在抽取式摘要生成中得到了广泛的应用,但它们都没有有效地解决抽取式摘要所存在的冗余性问题。为此,提出一种基于子句抽取的文本摘要自动提取算法(PTextRank)。首先,使用Sinica Treebank(STB)对每个句子进行语法标记,进而基于子句设置抽取单元;接着,使用BERT(Bidirectional Encoder Representation from Transformers)构建标题和每个子句的特征向量,并计算子句特征向量间的相似性,将其存放在相似度矩阵中;最后结合子句位置、子句与标题的相似度等调整子句相似度矩阵,迭代计算直至收敛,进而选取得分最高的子句作为最终摘要。实验分析表明,PTextRank算法有效地避免了多个句子中存在的冗余信息,且相比于TextRank和SWTextRank,PTextRank生成摘要的准确率至少提高6%,同时生成的摘要质量更好。

关 键 词:TextRank  摘要提取  冗余处理  Sinica  Treebank  篇章结构
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号