首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
提出一种基于最大树法的生成多文档文摘子主题划分方法.对多文档集合中的句子进行基于语义词典的相似度计算,形成相似度矩阵.提出了将相同或相似的句子通过模糊聚类的方法归并成一类,每一类代表一个子主题,通过抱团结构分析划分出子主题.实验结果表明,生成的多文档文摘覆盖性强,冗余信息少,具有一定实用价值.  相似文献   

2.
提出一种基于最大树法的生成多文档文摘子主题划分方法。对多文档集合中的句子进行基于语义词典的相似度计算,形成相似度矩阵。提出了将相同或相似的句子通过模糊聚类的方法归并成一类,每一类代表一个子主题,通过抱团结构分析划分出子主题。实验结果表明,生成的多文档文摘覆盖性强,冗余信息少,具有一定实用价值。  相似文献   

3.
基于隐主题马尔科夫模型, 消除LDA主题模型的主题独立假设, 使得文摘生成过程中充分利用文章的结构信息, 并结合基于内容的多特征方法提高文摘质量。提出在不破坏文章结构的前提下, 从单文档扩展到多文档的自动文摘策略, 最终搭建完善的自动文摘系统。在DUC2007标准数据集上的实验证明了隐主题马尔科夫模型和文档特征的优越性, 所实现的自动文摘系统ROUGE值有明显提高。  相似文献   

4.
多文档文摘提取方法的研究   总被引:1,自引:0,他引:1  
在深入分析当前流行的自动文摘技术和方法的基础上,将语义方法融入统计算法,提出了一种基于统计的多文档文摘提取方法,描述了它的实现过程.该方法利用文档内和文档之间段落的语义相关性,实现了多文档文摘的自动生成.首先对文档进行分段实现信息分割,再利用聚类技术对文本段进行聚类实现信息合并,最后从类中抽取代表段产生摘要文本.实验结果表明,该方法是一个有效、实用的方法.  相似文献   

5.
针对云存储中加密数据的搜索问题,提出了一种基于主题模型的多关键词排序搜索方法.首先,利用主题模型进行建模,在不同的主题下分别使用TextRank算法来提取文档关键词并为关键词赋予不同的权重值,并根据文档主题分布将不同主题下的关键词进行整合,然后利用平衡二叉树建立文档索引结构.此外,采用词干算法将同一词根的不同关键词转化为同一关键词,解决了同形关键词的问题.最后,通过真实数据进行实验分析.实验结果表明,所提出的方案具有更高的搜索效率和准确性.  相似文献   

6.
基于语义的自动文摘研究综述   总被引:1,自引:0,他引:1  
基于语义的自动文摘方法能解决自动文摘处理中语言复杂性问题,在克服领域局限性的同时从本质上提高文摘的质量.常用语义模型包括统计主题模型和语义知识模型.基于语义的自动文摘是对传统文摘技术基于语义模型的扩充,在自动文摘的预处理、文档转换、文档候选片段提取和文摘生成4个基本过程中使用各种语义分析方法.  相似文献   

7.
针对现存的语义主题爬虫没有考虑主题意义的延伸、页面与主题的相似度计算模型存在的缺陷及主题词项细化过于苛刻导致返回结果较少等不足,采用LDA(Latent Dirichlet Allocation)模型,对主题词项描述文档进行降维,改进语义相似度计算模型.引入语义信息的相似度计算模型(SVSM),用SVSM计算文档和主题模型的相似度.从本体中获取该主题词项的上位词,构建主题上位词的主题模型,爬虫依据现有网络中的主题重新获取主题相关信息,提出语义聚焦爬虫(ESVSM),通过不同主题下多个爬虫进行实验对比,发现所提出的基于主题建模和上位词替换的ESVSM算法在收获率、相关网页数量和网页平均相关度中均优于其他算法,平均抓取精度达到85%.  相似文献   

8.
针对当前自动文摘方法的缺陷,提出了基于文本聚类和自然语言理解的自动文摘实现方法.将文本聚类引入自动文摘中,实现多文档的自动文摘.提出了基于标题和段首句的二次自动分词算法.实验结果表明,分词正确率和召回率均在95%以上.实现了面向塑料行业的基于文本聚类和自然语言理解的自动文摘系统,其多文档自动文摘的正确率和召回率都在75%以上.实验表明该方法可行,对自动文摘系统的设计具有借鉴意义和深入研究价值.  相似文献   

9.
多文档文摘作为自然语言处理领域的重要技术之一,能从不同角度辅助用户实现高效的信息获取.由于文档集合内的内容往往来自不同的信息源,文本之间通常存在丰富而复杂的语义关系.常用的基于词的文档表示法,难以为文摘的语义分析过程提供充足而准确的数据信息.为此,我们提出使用维基百科——当今世界最大的在线概念语料库——为多文档文摘的提取提供语义支持.一方面,我们通过提取文档中的维基概念,生成准确一致的句子表示形式.另一方面,在计算句子特征时,我们利用维基词条的首段指导机器文摘的提取.我们首先通过计算概念在维基中的全局相关性和当前文档集内的局部相关性,获取概念的权重.然后在维基概念表示的基础上,为文档中的句子提取多种基于维基的特征,并最后用于文摘生成.在实验中,我们依次用各个维基特征独立生成文摘,并使用ROUGE(Recall-Oriented Understudy for Gisting Evaluation,面向召回率的要点评估)指标评价文摘质量.通过比较,实验验证了维基词条首段能较好的提升文摘质量.  相似文献   

10.
提出一种定性地理信息检索方法, 用于地理信息的定性表达、语义匹配、推理和结果排序, 可以避免目前定量地理信息检索中语义信息丢失问题。采用命题逻辑方法综合表达查询和文档中的主题信息和地理语义信息, 将文档与查询的相关性度量分为主题相似度和地理相似度。前者通过命题关键词间加权本体距离获得。后者可进一步分为概念相似度和位置相似度, 分别基于地理本体和空间语义度量。由于信息的表达形式为命题和信息单元, 采用证据理论和模糊逻辑对上述子相关性度量进行统一建模。所提方法可以基于语义检索网页中的定性地理信息, 并对相关文档进行排序。这种检索和排序方法符合人类空间认知, 因此可以有效提高地理信息检索的效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号