首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 247 毫秒
1.
基于主题词权重和句子特征的自动文摘   总被引:1,自引:1,他引:0  
为获得高质量的自动文摘,在组合词识别算法的基础上,充分考虑词的频率、词性、词的位置、词长等因素,构建了一个词语权重计算公式,该公式能使表达主题的词和短语具有较高的权重.对句子权重的计算,则考虑了句子的内容、位置以及线索词的作用和用户偏好等.摘要的生成充分考虑了候选文摘句的相似性,避免了冗余信息的加入.对摘要的评估进行了从句子粒度到词语粒度的改进,提出了一种基于词语粒度的准确率和召回率计算方法.实验证明,该算法生成的自动文摘有着较高的质量,平均准确率达到77.1%.  相似文献   

2.
针对话题追踪与检测多停留在二维空间的平面集合操作,忽略了事件主题及其直接相关事件之间可能存在一定的层次关系这一问题,通过改进蚁群聚类算法中的相似度度量方法以及状态转换函数改进现有蚁群聚类算法,并利用改进的蚁群聚类算法实现新闻话题的子话题自动划分。结果表明,改进的算法能够具有较高的子话题划分识别能力。  相似文献   

3.
采用平均特征词频率策略计算特征词权重,用快速n-grims算法对各特征词所处的概念体进行加权,用一种改进的K-means聚类算法进行段落聚类,提出一种基于局部与全局信息的自动文摘算法并给出算法评估.该算法不仅能够自适应获得k值,而且有效防止了初始点的随机选择对聚类结果的影响.评测结果表明该算法对经济类和科技类文章的准确率和召回率都明显高于新闻类和文学类文章,利用机器文摘进行分类的准确率明显高于使用原文本进行分类.该算法所得到的文摘,在各项指标上都优于传统方法生成的文摘.  相似文献   

4.
基于有序聚类的文本结构分析方法   总被引:1,自引:0,他引:1  
讨论了基于关系图的文本结构分析方法,鉴于文章组织的有序性,运用有序聚类的思想建立数学模型,并利用最优K分法构造自动文本结构分析算法,以划分文章意义段.实验结果表明,该文本结构分析方法是有效的.将该方法运用于自动文摘技术,可使文摘获得更好的可读性和完整性.  相似文献   

5.
介绍了时域有限差分(FDTD)方法的基本原理,提出了基于环路法(CP)的三维细孔缝仿真算法(TSF)。用细化网格的FDTD和用亚网格的TSF两种算法,分别对相同的细孔缝模型进行了仿真计算。结果表明亚网格TSF算法与细化网格的FDTD算法无论是在时域还是在频域上的仿真计算结果都吻合得很好,而且应用亚网格TSF沿算法可以极大的缩短计算时间。最后利用TSF算法对屏蔽机箱进行数值仿真,得到了屏蔽机箱开孔3m远处的电场频域曲线。  相似文献   

6.
基于隐主题马尔科夫模型, 消除LDA主题模型的主题独立假设, 使得文摘生成过程中充分利用文章的结构信息, 并结合基于内容的多特征方法提高文摘质量。提出在不破坏文章结构的前提下, 从单文档扩展到多文档的自动文摘策略, 最终搭建完善的自动文摘系统。在DUC2007标准数据集上的实验证明了隐主题马尔科夫模型和文档特征的优越性, 所实现的自动文摘系统ROUGE值有明显提高。  相似文献   

7.
针对当前自动文摘方法的缺陷,提出了基于文本聚类和自然语言理解的自动文摘实现方法.将文本聚类引入自动文摘中,实现多文档的自动文摘.提出了基于标题和段首句的二次自动分词算法.实验结果表明,分词正确率和召回率均在95%以上.实现了面向塑料行业的基于文本聚类和自然语言理解的自动文摘系统,其多文档自动文摘的正确率和召回率都在75%以上.实验表明该方法可行,对自动文摘系统的设计具有借鉴意义和深入研究价值.  相似文献   

8.
基于分块的网页主题信息自动提取算法   总被引:3,自引:0,他引:3  
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.  相似文献   

9.
针对目前基于主题相似性生成多文档文摘的系统存在语义不精确、只能传达多篇具有同一主题的文档所携带的主要信息(横向文摘)的问题.本文基于HNC理论,提出的面向事件的多文档自动文摘模型,旨在用很短的文本来传达多篇具有同一事件的文档所携带的后续报道信息(纵向文摘).实验结果表明,本方法在信息覆盖率、信息冗余度和文摘流利度方面比TF×IDF方法有很大的改进.  相似文献   

10.
提出一种基于最大树法的生成多文档文摘子主题划分方法。对多文档集合中的句子进行基于语义词典的相似度计算,形成相似度矩阵。提出了将相同或相似的句子通过模糊聚类的方法归并成一类,每一类代表一个子主题,通过抱团结构分析划分出子主题。实验结果表明,生成的多文档文摘覆盖性强,冗余信息少,具有一定实用价值。  相似文献   

11.
基于语义的自动文摘研究综述   总被引:1,自引:0,他引:1  
基于语义的自动文摘方法能解决自动文摘处理中语言复杂性问题,在克服领域局限性的同时从本质上提高文摘的质量.常用语义模型包括统计主题模型和语义知识模型.基于语义的自动文摘是对传统文摘技术基于语义模型的扩充,在自动文摘的预处理、文档转换、文档候选片段提取和文摘生成4个基本过程中使用各种语义分析方法.  相似文献   

12.
提出了基于知网概念特征的文本综述方法,探讨了语句相似度计算、主题区域发现、新颖度获取和综述生成等关键技术.通过对知网的改造,获取了关键词的概念特征,实现了同义词概念扩充,在文档语义相关性基础上,实现了多文档的自动综述.采用一种基于综合评价理论的文本综述评价方法,从综述的表达质量、表述内容和基于Q8LA的信息性评价三个方面实现了对综述的评价.实验结果表明该方法有效可行.  相似文献   

13.
由于文本中事件之间的时序关系可以帮助人们更好地理解文本内容,故针对新闻报道类文本,将事件作为其基本语义单元,并根据时序关系建立事件有向网络文本表示模型;利用PageRank算法结合主题相关度对时序网络进行节点重要度计算及调整;最后,按照重要度以及事件发生的顺序进行排序,并按照一定的压缩比提取摘要句,删除冗余的句子,将事件对应的原语句作为摘要。实验结果表明,基于事件时序关系的自动摘要方法效果较好。  相似文献   

14.
基于句子相似度的自动文摘评价方法   总被引:1,自引:0,他引:1  
评价是自动文摘研究领域中非常重要的一个环节。针对目前自动文摘内部评价方法存在主观性强,无法体现深层语义的缺陷,提出了一种基于句子相似度的自动文摘评价方法。该方法是利用机器摘要和理想文摘中的句子相似度衡量文摘系统的性能,而不是单纯地利用词频或语句包含关系。实验表明,基于句子相似度的评价方法是一种更接近自然模型的评价方法。  相似文献   

15.
数据挖掘是一种新兴的信息处理技术,模糊聚类是数据挖掘领域中的一个重要研究课题。论文从数据挖掘的概念出发,研究分析了模糊聚类的主要算法,并从多个方面对这些算法性能进行比较,同时还对模糊聚类分析在数据挖掘中的应用进行了阐述,最后对模糊聚类的研究领域进行了总结和展望。  相似文献   

16.
文本自动摘要提取算法   总被引:1,自引:0,他引:1  
摘要是对文本内容的概括,在信息检索中起着重要的作用,提出一种文本自动摘要提取算法:按照词语权重提取出能表征文本主要内容的特征词,根据句子的物理信息以及句子中包含的特征词情况计算出句子的权重,按照句子权重大小等提取出候选摘要句.  相似文献   

17.
自动文本摘要生成(ATS)与计算机科学和认知心理学密切相关.提出了一个自动文本摘要生成系统(EI-ATS).该系统借助句法和词法分析,将认知心理学中的事件-索引(Event-indexing)模型运用到自动文本摘要生成.评价结果表明:该系统在多文件摘要生成方面表现良好,成为整合两个相异但相关领域知识的研究范例.  相似文献   

18.
在P2P网络结构中,提出一种基于主题划分的搜索策略(TONS),该策略基于主题将网络中的节点层次化、形成叠加网络.具体查询算法包括基于DHT的非结构化P2P网络和基于主题划分的叠加网络搜索索引结构.实验结果表明:包含相似主题的节点联系在一起,这样就能够确保将搜索局限在仅与查询主题相关的节点子集中.该策略为基于分布式哈希表的P2P系统提供了一种可满足复杂查询条件、部分匹配搜索数据要求的有效途径.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号