首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
提出一种基于改进后缀树与交互聚类思想相结合的算法ISTC算法, 通过改造传统后缀树结构实现了对文档标题和摘要的层次化聚类, 同时用交互聚类的方式替代了传统的递归算法. ISTC算法具有语言无关性, 不仅适用于基于单词的西方文字, 而且可以在不引入词典分词技术的情况下有效地处理基于单字的中文字符. 在此算法基础上, 设计并实现了基于改进后缀树算法的交互聚类引擎, 在不同的网络环境下对其 进行了系统测试, 并与其他元搜索引擎进行了对比. 实验结果表明, 使用改进后缀树算法进 行实时交互式聚类是可行的.  相似文献   

2.
网页聚类技术是快速定位搜索引擎返回结果中用户最需要资料的方法。基于后缀树聚类算法是利用网页集中共享的短语来对网页集进行聚类。本文研究怎样充分利用后缀中的共享短语之间的关系提高后缀树性能的方法。  相似文献   

3.
为提高Web 搜索精度和检准率, 在后缀树聚类算法基本模型的基础上, 提出了一种改进的基于后缀树的搜索结果聚类算法。将向量空间模型与后缀树聚类相结合, 改善了基类合并的效果, 综合基类节点对应文本数、短语包含词语长度、短语权重及是否包含查询词作为聚类标签的筛选条件, 改进了聚类标签的合理性和可读性。以搜狗语料库中的文本分类语料库为数据源进行的实验结果表明, 该方法在一定程度上提高了聚类结果的准确率。  相似文献   

4.
提出了一种文档聚类方法,对用户的检索结果中类似的文档进行聚类,提供目录结构,辅助用户浏览检索结果.首先分析了现有的文本聚类方法,讨论了它们的优势和不足,然后提出了基于后缀树的中文文本聚类算法,并详细描述了该算法的原理和构造使用过程,及在算法实现的过程中遇到的关键问题及解决方案.  相似文献   

5.
针对当前自动文摘方法的缺陷,提出了基于文本聚类和自然语言理解的自动文摘实现方法.将文本聚类引入自动文摘中,实现多文档的自动文摘.提出了基于标题和段首句的二次自动分词算法.实验结果表明,分词正确率和召回率均在95%以上.实现了面向塑料行业的基于文本聚类和自然语言理解的自动文摘系统,其多文档自动文摘的正确率和召回率都在75%以上.实验表明该方法可行,对自动文摘系统的设计具有借鉴意义和深入研究价值.  相似文献   

6.
多文档文摘提取方法的研究   总被引:1,自引:0,他引:1  
在深入分析当前流行的自动文摘技术和方法的基础上,将语义方法融入统计算法,提出了一种基于统计的多文档文摘提取方法,描述了它的实现过程.该方法利用文档内和文档之间段落的语义相关性,实现了多文档文摘的自动生成.首先对文档进行分段实现信息分割,再利用聚类技术对文本段进行聚类实现信息合并,最后从类中抽取代表段产生摘要文本.实验结果表明,该方法是一个有效、实用的方法.  相似文献   

7.
一种基于关联规则的搜索引擎结果聚类算法   总被引:4,自引:0,他引:4  
提出一种搜索引擎结果的聚类方法,采用关联规则方法确定网页文档中的显著短语,并把这些显著短语作为对相应聚类的描述,聚类中包含的文档就是显著短语所关联的文档,然后对形成的聚类按照相关度分数进行排队,最终把结果展现给用户.  相似文献   

8.
随着自然语言处理技术的不断创新,自动文摘的质量得到显著提高.面向科技成果文档的中文自动文摘成为研究热点,具有一定的应用价值.把聚类算法应用到自动文摘中,选取聚类中心的思想对文摘去冗余具有一定意义.结合密度峰值算法,设计实现了面向科技成果文档的中文自动文摘系统.实验结果表明:应用密度峰值算法有利于文摘的冗余处理,具有借鉴意义.  相似文献   

9.
基于词间语义相关度的搜索结果聚类算法   总被引:1,自引:1,他引:0  
将查询结果根据内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词间语义相关度的搜索结果聚类算法,该算法以词为聚类的核心,词所出现的文档为词的属性,根据词在搜索结果文档中共现的情况来划分类别.该方法可以充分利用词间的语义相关性,类别划分后即可确定类名.实验结果表明,对搜索结果聚类时与K-Means和STC算法相比,质量上有所提高.  相似文献   

10.
基于聚类分析的串并案研究   总被引:1,自引:0,他引:1  
随着社会经济的快速发展,刑事案件发案数迅猛增长,其中系列案件占有相当大的比例。利用计算机技术、网络技术和信息技术,能够在短时间内将传统人力难以获得或者需要很大成本才能获得的线索集中起来,利用FCM的聚类算法可以实现自动串并案分析模型,从而实现系列案件的自动聚类。对聚类结果分析发现,聚类算法可以大幅提高分析效率,不但可以...  相似文献   

11.
一种基于后缀树的中文网页层次聚类方法   总被引:1,自引:3,他引:1  
为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比。聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。  相似文献   

12.
提出一种新的基于用户访问路径分析的页面推荐模型.该模型采用在线处理方式,利用增量图划分方法形成页面聚类,依此生成动态页面推荐.模型以Apache模型的形式实现,可适用于大型商业网站以及内容更新频繁的网站.试验结果表明,该模型具有较好的整体性能.  相似文献   

13.
A new common phrase scoring method is proposed according to term frequency-inverse document frequency (TFIDF) and independence of the phrase. Combining the two properties can help identify more reasonable common phrases, which improve the accuracy of clustering. Also, the equation to measure the in-dependence of a phrase is proposed in this paper. The new algorithm which improves suffix tree clustering algorithm (STC) is named as improved suffix tree clustering (ISTC). To validate the proposed algorithm, a prototype system is implemented and used to cluster several groups of web search results obtained from Google search engine. Experimental results show that the improved algorithm offers higher accuracy than traditional suffix tree clustering.  相似文献   

14.
Optimal clustering for the web documents is known to complicated combinatorial Optimization problem and it is hard to develop a generally applicable oplimal algorithm. An accelerated simuIated arlneaIing aIgorithm is developed for automatic web document classification. The web document classification problem is addressed as the problem of best describing a match between a web query and a hypothesized web object. The normalized term frequency and inverse document frequency coetficient is used as a measure of the match. Test beds are generated on - line during the search by transforming model web sites. As a result,web sites can be clustered optimally in terms of keyword vectors of corresponding web documents.  相似文献   

15.
 因特网上的数据越来越多、越来越复杂,这些异构、动态、分布的信息使得传统数据挖掘方式已经不能达到实际要求。本文提出了一种面向web 数据挖掘的改进型迭代算法,将迭代方法与多服务器并行算法进行结合,并采用该算法建立了一个支持并行关联规则的web 数据挖掘模型,融合存储节点本地计算的思想。实验证明,该模型能够提高web 数据挖掘的效率,并有随着数据量增加执行率升高的特点。  相似文献   

16.
用有向图法解决网页爬行中循环链接问题   总被引:4,自引:0,他引:4  
提出网页构成的有向回路问题, 描述了由网页构成有向图的形式定义, 并给出了用有向图法发现网页构成的有向回路算法. 所给定的算法能使网页爬行器避免掉入由已爬行过的网页构成的有向回路陷阱.  相似文献   

17.
随着Internet和Intranet的飞速发展和普遍应用,静态网页已远远不能满足人们实际需求,客户更多地希望看到根据各自要求而生成的网页并能方便地实现访问和查询。目前,采用运行在WEB服务器端的CGI、ISAPI和NSAPI应用程序还是一种主要的动态生成网页的方式。就这个问题深入地探讨客户端浏览器与服务器间网络信息交互过程,并给出相应程序的部分源码。  相似文献   

18.
一种基于对象模型的DTD生成方法   总被引:2,自引:0,他引:2  
随着Web应用的发展,XML已成为Internet上数据表示和交换的标准,如何设计出结构良好的XML文档成为当前迫切需要研究的问题。本文由数据库设计角度出发,将XML文档类型定义(DTD)看作逻辑模型,提出了一种由对象概念模型到DTD的转换方法。  相似文献   

19.
随着互联网的普及和Web资源的日益丰富,从网上获取基于药品本体的信息成为人们常用的方式,但用户在检索信息时经常会出现找不到或者查不准的情况。针对这样的问题,提出了一种基于本体的信息检索系统,并将相似度等算法融合其中,从而大大提高了查询的效果。  相似文献   

20.
如何发挥高职院校图书馆员在创新教育中的作用   总被引:1,自引:1,他引:0  
高职院校图书馆员要发挥在创新教育中的作用,必须转变观念,强化创新教育的意识;重视馆藏文献资源建设,为创新教育提供物质保障;重视网络建设,为创新教育提供更多的网络资源;改革服务模式,更好地服务于创新教育.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号