共查询到19条相似文献,搜索用时 57 毫秒
1.
网络舆情中的信息预处理与自动摘要算法 总被引:1,自引:0,他引:1
提出了一套从互联网原始数据中提取有效信息,利用网页模版对这些信息进行格式化整理,并依据网络舆情的特点对正文信息进行自动摘要处理,在自动摘要处理过程中引入倒排索引概念简化了算法复杂度,基于关键词的权重分析保证了算法能够更准确的找到人们关心的信息.测试结果支持了本文提出的算法. 相似文献
2.
TextRank算法及SWTextRank等改进算法在抽取式摘要生成中得到了广泛的应用,但它们都没有有效地解决抽取式摘要所存在的冗余性问题。为此,提出一种基于子句抽取的文本摘要自动提取算法(PTextRank)。首先,使用Sinica Treebank(STB)对每个句子进行语法标记,进而基于子句设置抽取单元;接着,使用BERT(Bidirectional Encoder Representation from Transformers)构建标题和每个子句的特征向量,并计算子句特征向量间的相似性,将其存放在相似度矩阵中;最后结合子句位置、子句与标题的相似度等调整子句相似度矩阵,迭代计算直至收敛,进而选取得分最高的子句作为最终摘要。实验分析表明,PTextRank算法有效地避免了多个句子中存在的冗余信息,且相比于TextRank和SWTextRank,PTextRank生成摘要的准确率至少提高6%,同时生成的摘要质量更好。 相似文献
3.
随着信息分析处理技术的发展,情报的搜集已由过去的主要依靠秘密手段搜集逐步转向主要利用公开途径搜集.据统计,21世纪90年代以来,世界各国所需情报的60%以上来自公开的收集途径.但是,我边防情报部门所需要的重要信息往往会被大篇幅的冗余信息淹没.如何迅速准确地从海量信息中发现对我边防工作有价值的情报信息,是我边防情报收集工作的重要部分,自动摘要技术的发展及应用则会大大提高情报收集的效率. 相似文献
4.
5.
一、开发背景 90年代以来,随着办公自动化和国际互联网(Internet)的迅速发展,人们日常所接触的信息量急剧增长,如何在大量的信息中择其所需已直接关系到人们的工作和生活效率。对于文字信息,通常一方面采用分类的方法,使经分类选择后的文字信息更具有针对性,从而避免无关信息的干扰;另一方 相似文献
6.
自动文本摘要生成(ATS)与计算机科学和认知心理学密切相关.提出了一个自动文本摘要生成系统(EI-ATS).该系统借助句法和词法分析,将认知心理学中的事件-索引(Event-indexing)模型运用到自动文本摘要生成.评价结果表明:该系统在多文件摘要生成方面表现良好,成为整合两个相异但相关领域知识的研究范例. 相似文献
7.
现有的文本自动摘要技术大多是运用向量空间模型将文本作为一个整体进行处理,忽略了段落及段落之间的关联程度,导致提取的摘要不能够全面反映所包含的主题,针对这一问题,文章提出了基于互信息的文本自动摘要方法。该方法利用互信息对文本中词语、句子及段落之间的关联程度进行计算,依据关联程度将整个文本划分成包含不同主题的较小单元,并针对每一单元运用优化的句子权重计算方法进行主题句提取,然后利用主题句生成文本摘要。实验验证了方法的有效性,在自动摘要提取方面取得了良好效果。 相似文献
9.
基于潜在语义索引的文本摘要方法 总被引:11,自引:0,他引:11
因特网上的在线文本自动编制摘要可以帮助用户有选择地阅读。给出了基于潜在语义索引的文本摘要方法。它采用向量空间模型作文本表示方法,利用潜在语义索引来减少词汇间的“斜交”现象,在语义空间进行项、句子、段落与文本之间的相似度计算,而不是单纯地依赖于特征项的频率信息。依据对于文本主题的表现能力来确定摘要的各个组成部分及其组成方式,此外,给出了文本摘要的评估方法。 相似文献
10.
研究了一种基于统计的Web新闻文本自动摘要生成方法.首先,根据Web新闻文本的特点,对词汇和句子赋予不同的权重,然后根据权重大小按给定的比例挑选句子,并进行平滑处理,生成文字流畅的摘要. 相似文献
11.
为解决受限领域统计型文摘对文档中心内容理解不足的缺陷,研究了结合领域知识生成单文档文摘的方法;论述了构建受限领域的语料库和知识库的方法;提出对粗文摘进行文摘句概化和在其中加入领域知识的文摘后处理方法. 在所提出理论基础上开发了文摘系统软件. 通过和MS Word 2003中的文摘工具进行实验对比,表明提出的方法切实可行,可以推广到其它领域. 相似文献
12.
针对自动文摘处理,提出一种新颖的自动文摘句子加权方法.该方法采用基于互增强关系(MRP)的迭代算法模拟句子和词之间的循环加权关系,计算句子权重.实验结果表明,基于MRP的迭代算法收敛速度快;与传统的自动文摘方法和MS Word Summarizer相比,所提出的基于MRP的句子加权方法可以使自动文摘系统具有更好的性能. 相似文献
13.
面向自动文摘的主题划分方法 总被引:1,自引:0,他引:1
对当前主题划分方法进行了分类, 对主题划分算法TextSegFault (TSF)做了相关改进。根据文本的类型, 从TSF算法和改进的TSF算法中选择其一来进行主题划分, 以适应自动文摘任务的需要。实验结果表明, 引入本文的主题划分方法能有效地解决传统自动文摘方法造成的主题确实和主要主题冗余的问题, 使文摘的结构平衡化。 相似文献
14.
基于领域本体的文档自动摘要算法 总被引:1,自引:0,他引:1
介绍了一种以潜语义分析模型为基础,辅之以领域本体的文档自动摘要算法.该方法在传统的基于统计的奇异值分解算法基础上,通过领域本体引入了文档主题识别以及概念相似度计算,更好地用形式化的方式描述了文档的主要内容;在文档主题和概念相似度的指导下,使用统计方法和启发式规则抽取文档中的关键句子作为摘要,并通过实验证明提高了摘要的质量. 相似文献
15.
基于语义的自动文摘研究综述 总被引:1,自引:0,他引:1
基于语义的自动文摘方法能解决自动文摘处理中语言复杂性问题,在克服领域局限性的同时从本质上提高文摘的质量.常用语义模型包括统计主题模型和语义知识模型.基于语义的自动文摘是对传统文摘技术基于语义模型的扩充,在自动文摘的预处理、文档转换、文档候选片段提取和文摘生成4个基本过程中使用各种语义分析方法. 相似文献
16.
17.
基于统计语义和结构特征的自动文摘 总被引:5,自引:4,他引:5
在分析自动文摘现有方法优缺点的基础上,提出了一种基于统计、语义和结构特征的自动文摘方法。用这些特征构成句子向量表示,并用机器学习的方法对其进行训练得到器,从而把自动文摘转换为分类问题。实验表明,该方法具有较好的重合率。同时,为了解决文摘的冗余和不连贯缺点,进行了一系列的后期处理,提高了文摘的质量。 相似文献
18.
提出了一种基于改进混合并行遗传算法的多文档文摘方法.该方法将k-means聚类算法的高效、局部搜索特性,和并行遗传算法的全局优化能力有机结合,解决了k-means算法对初始聚类中心的选择较为敏感,易于陷入局部最优等问题,提高了多文档聚类算法的效率和精确度. 相似文献