首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
陈英芝 《科技信息》2009,(30):I0107-I0108
本文提出了一种新的中方自动文摘的方法,基于hownet提取出词语的语义代替传统的词形频率统计,建立语义向量空间模型,并且通过对抽取出的语句进行句子语义相似度的计算提高文摘精确度。  相似文献   

2.
面向非受限领域的综合式自动中文文摘方法   总被引:7,自引:0,他引:7  
讨论了一种面向非受限领域的综合式中文自动文摘方法。其基本思路是 :采用向量空间模型对篇章结构进行自动分析 ,建立基于语义相似度的段落关系图 ,获取段落的重要度信息 ,并使用标题或聚类的方法划分意义段 ;根据词的频度 ,句子位置、提示语等文本形式特征计算句子的权值 ,分别从各意义段中选取高权值的句子作为文摘句 ;对文摘句进行句法和语义分析 ,消除冗余 ,解决指代词悬挂、文摘不连贯等问题 ,最终组成一篇简洁、通顺、可读性好的文摘  相似文献   

3.
提出一种基于最大树法的生成多文档文摘子主题划分方法。对多文档集合中的句子进行基于语义词典的相似度计算,形成相似度矩阵。提出了将相同或相似的句子通过模糊聚类的方法归并成一类,每一类代表一个子主题,通过抱团结构分析划分出子主题。实验结果表明,生成的多文档文摘覆盖性强,冗余信息少,具有一定实用价值。  相似文献   

4.
提出一种基于最大树法的生成多文档文摘子主题划分方法.对多文档集合中的句子进行基于语义词典的相似度计算,形成相似度矩阵.提出了将相同或相似的句子通过模糊聚类的方法归并成一类,每一类代表一个子主题,通过抱团结构分析划分出子主题.实验结果表明,生成的多文档文摘覆盖性强,冗余信息少,具有一定实用价值.  相似文献   

5.
针对自动文摘处理,提出一种新颖的自动文摘句子加权方法.该方法采用基于互增强关系(MRP)的迭代算法模拟句子和词之间的循环加权关系,计算句子权重.实验结果表明,基于MRP的迭代算法收敛速度快;与传统的自动文摘方法和MS Word Summarizer相比,所提出的基于MRP的句子加权方法可以使自动文摘系统具有更好的性能.  相似文献   

6.
自动文摘的目的是借由计算机技术自动从原始文献中提取文摘,针对这一问题,提出了一种新的基于潜在语义分析(Latent Semantic Analysis,LSA)的中文自动摘要方法,该方法利用奇异值分解(Singular Value Decomposition,SVD)来获得文章的语义结构,以句子和全文的相似度为依据抽取一组句子作为文章的摘要,提升了自动摘要的效率和精度,并重点介绍了该方法的基本思想、特点以及实现方法。实验结果表明,该方法在实践中取得了预期的效果。  相似文献   

7.
基于统计语义和结构特征的自动文摘   总被引:5,自引:4,他引:5  
在分析自动文摘现有方法优缺点的基础上,提出了一种基于统计、语义和结构特征的自动文摘方法。用这些特征构成句子向量表示,并用机器学习的方法对其进行训练得到器,从而把自动文摘转换为分类问题。实验表明,该方法具有较好的重合率。同时,为了解决文摘的冗余和不连贯缺点,进行了一系列的后期处理,提高了文摘的质量。  相似文献   

8.
句子特征提取与相似度计算是自然语言处理中的重要问题.目前汉语句子相似度计算方法不能全面考虑句子语义,因而导致相似度计算结果不够准确.提出了基于深层稀疏自动编码器的句子语义特征提取及相似度计算算法.首先将句子表示为高维、稀疏向量,进一步利用深度无监督学习句子非线性特征,即将高维、稀疏向量变换到低维、本质特征空间,此过程是一种更为纯粹的端到端的学习,避免了建立停用词表、分词等工作,最终得到可直接用于句子相似度计算的低维特征表示.实验结果表明,提取到的句子特征应用于句子相似度计算,与基于关系向量模型的句子相似度计算方法相比,提高了相似度计算准确率,计算的时间复杂度仅为O(n).  相似文献   

9.
面向自动文摘的文本结构划分   总被引:2,自引:1,他引:1  
文本结构划分是自动文摘研究中的一个关键阶段,也是自然语言处理领域的重要课题.本文通过构建段落向量空间模型,提出一种综合考察相邻段落相似度和连续段落平均相似度的意义段划分方法,使文摘内容更加全面,结构更加平衡.实验结果表明,该方法能够较有效地反映文章的内容结构,对有子标题组织和无子标题组织的文章均适用;由于考虑了总起段,使得文本结构划分更加合理,为自动文摘系统的后续工作打下坚实的基础.  相似文献   

10.
阐述了基于统计的机械文摘、基于意义的理解文摘、基于信息抽取的自动文摘、基于篇章结构的自动文摘四种实现方法及其基本原理,在此基础上给出了一种综合的自动文摘方法,并对这五种方法做了较为详尽的分析和比较.  相似文献   

11.
提出了基于知网概念特征的文本综述方法,探讨了语句相似度计算、主题区域发现、新颖度获取和综述生成等关键技术.通过对知网的改造,获取了关键词的概念特征,实现了同义词概念扩充,在文档语义相关性基础上,实现了多文档的自动综述.采用一种基于综合评价理论的文本综述评价方法,从综述的表达质量、表述内容和基于Q8LA的信息性评价三个方面实现了对综述的评价.实验结果表明该方法有效可行.  相似文献   

12.
自动文本摘要生成(ATS)与计算机科学和认知心理学密切相关.提出了一个自动文本摘要生成系统(EI-ATS).该系统借助句法和词法分析,将认知心理学中的事件-索引(Event-indexing)模型运用到自动文本摘要生成.评价结果表明:该系统在多文件摘要生成方面表现良好,成为整合两个相异但相关领域知识的研究范例.  相似文献   

13.
基于语义的自动文摘研究综述   总被引:1,自引:0,他引:1  
基于语义的自动文摘方法能解决自动文摘处理中语言复杂性问题,在克服领域局限性的同时从本质上提高文摘的质量.常用语义模型包括统计主题模型和语义知识模型.基于语义的自动文摘是对传统文摘技术基于语义模型的扩充,在自动文摘的预处理、文档转换、文档候选片段提取和文摘生成4个基本过程中使用各种语义分析方法.  相似文献   

14.
基于主题词权重和句子特征的自动文摘   总被引:1,自引:1,他引:0  
为获得高质量的自动文摘,在组合词识别算法的基础上,充分考虑词的频率、词性、词的位置、词长等因素,构建了一个词语权重计算公式,该公式能使表达主题的词和短语具有较高的权重.对句子权重的计算,则考虑了句子的内容、位置以及线索词的作用和用户偏好等.摘要的生成充分考虑了候选文摘句的相似性,避免了冗余信息的加入.对摘要的评估进行了从句子粒度到词语粒度的改进,提出了一种基于词语粒度的准确率和召回率计算方法.实验证明,该算法生成的自动文摘有着较高的质量,平均准确率达到77.1%.  相似文献   

15.
面向自动文摘的主题划分方法   总被引:1,自引:0,他引:1  
对当前主题划分方法进行了分类, 对主题划分算法TextSegFault (TSF)做了相关改进。根据文本的类型, 从TSF算法和改进的TSF算法中选择其一来进行主题划分, 以适应自动文摘任务的需要。实验结果表明, 引入本文的主题划分方法能有效地解决传统自动文摘方法造成的主题确实和主要主题冗余的问题, 使文摘的结构平衡化。  相似文献   

16.
基于隐主题马尔科夫模型, 消除LDA主题模型的主题独立假设, 使得文摘生成过程中充分利用文章的结构信息, 并结合基于内容的多特征方法提高文摘质量。提出在不破坏文章结构的前提下, 从单文档扩展到多文档的自动文摘策略, 最终搭建完善的自动文摘系统。在DUC2007标准数据集上的实验证明了隐主题马尔科夫模型和文档特征的优越性, 所实现的自动文摘系统ROUGE值有明显提高。  相似文献   

17.
为从海量微博中高效地获取不同话题下的关键信息,微博观点摘要成为自然语言处理领域近期研究的热点之一。基线方法基于TF-IDF算法抽取微博句中的关键词,并据此计算微博的重要性分数,直接筛选出观点摘要;朴素改进方法在基线方法的基础上,增加了情感分类步骤,并利用微博句之间的语义距离,将摘要句候选集中语义重复、重要度较小的句子去除,生成观点摘要;基于语义图优化算法的方法在朴素改进方法的基础上,利用微博句的重要性分数及微博句之间的语义距离构建语义图结构,并通过图优化算法筛选出观点摘要。朴素改进方法在COAE2016评测任务一测试数据集上,10个话题的平均ROUGE-1值达到26.39%,平均ROUGE-2值达到0.68%,平均ROUGE-SU4值达到5.69%,且评测官方公布结果显示,该方法在9项评价指标中获得6项最佳性能。基于语义图优化算法的方法在评测样例数据集上进行了实验,结果显示,该方法比朴素改进方法在ROUGE-1,ROUGE-2,ROUGE-SU4值上分别提升了0.63%, 1.51%, 2.69%。  相似文献   

18.
利用分割技术提高对话文本自动摘要的一致性   总被引:1,自引:0,他引:1  
针对传统的基于抽取的自动摘要方法不能很好地处理对话文本一致性的问题,提出了对话文本自动摘要中的体裁、问题-回答对识别等关键技术.设计了一种类似于TextTiling的文本分割方法对候选的回答段落进行分割,以便提高问题-回答对的关联精度.实验结果表明,利用问题-回答对的关联信息能够提高对话文本自动摘要的整体一致性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号