首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 637 毫秒
1.
为提高Web 搜索精度和检准率, 在后缀树聚类算法基本模型的基础上, 提出了一种改进的基于后缀树的搜索结果聚类算法。将向量空间模型与后缀树聚类相结合, 改善了基类合并的效果, 综合基类节点对应文本数、短语包含词语长度、短语权重及是否包含查询词作为聚类标签的筛选条件, 改进了聚类标签的合理性和可读性。以搜狗语料库中的文本分类语料库为数据源进行的实验结果表明, 该方法在一定程度上提高了聚类结果的准确率。  相似文献   

2.
Web序列模式挖掘是将数据挖掘技术应用于Web访问序列,通过对Web访问序列的模式挖掘可以发现用户与网站交互的频繁模式,利用这些模式可以建模并分析用户与网站交互的模型,进而预测未来的访问模式,这对于构建智能化Web站点和开展电子商务活动有非常重要的意义.介绍了传统的PLWAP(position coded preorder linked WAPtree)算法,并在此基础上提出了一种对PLWAP算法中Header table的新的构建方法的改进算法(NPLWAP).在NPL-WAP算法中Header table的构建过程中每一步都只基于当前处理的节点的后缀树集,且Header table并不存储所有的后缀树集节点,而是只存储后缀树集根节点,从而减少挖掘过程的相关判断.通过对真实数据的实验对比可以看出NPLWAP算法在运行时间上比传统的PLWAP算法有了很大的改进.  相似文献   

3.
网页聚类技术是快速定位搜索引擎返回结果中用户最需要资料的方法。基于后缀树聚类算法是利用网页集中共享的短语来对网页集进行聚类。本文研究怎样充分利用后缀中的共享短语之间的关系提高后缀树性能的方法。  相似文献   

4.
针对网络舆情分析的需求背景,研究了通过后缀树算法发现文本文档之间的公共短语串,按公共短语串实现文档聚类。网页文档的标题和摘要能代表文档的主要思想,应用后缀树算法实现对标题和摘要自动聚类,从而实现舆情信息自动聚类。  相似文献   

5.
提出了一种文档聚类方法,对用户的检索结果中类似的文档进行聚类,提供目录结构,辅助用户浏览检索结果.首先分析了现有的文本聚类方法,讨论了它们的优势和不足,然后提出了基于后缀树的中文文本聚类算法,并详细描述了该算法的原理和构造使用过程,及在算法实现的过程中遇到的关键问题及解决方案.  相似文献   

6.
针对高维时序数据中局部相关模式的聚类问题,建立了一种基于相关子模式的spCluster模型,讨论了该模型与平均平方残值的关系.并以此模型为基础,提出了适用于时序数据的确定性双聚类算法sp-TSC,该算法首先利用spCluster模型将局部相关的数据对象符号化,然后将字符序列插入到泛化后缀树中,利用后缀树的性质避免了穷举局部相关子模式的各种组合,有效减小了搜索空间,从而可以在数据矩阵尺寸的线性时间内发现全部最大δ-spCluster.理论分析和实验表明,该算法是高效可行的.  相似文献   

7.
对基于空间聚类的R-树的空间数据库索引技术进行研究,提出了面向R-树的空间混合聚类算法的改进算法,而将改进后的算法与其他算法的性能进行对比,可以发现:改进后的算法比其他空间聚类算法具有更大的优势.  相似文献   

8.
在传统的协同过滤推荐算法的基础上,设计了一个基于改进的协同过滤算法的练习测试推荐系统。首先,根据学科、试题和学生的特点,有效的解决了矩阵稀疏和"冷启动"的问题;其次,使用机器学习中的K-means聚类算法对用户进行聚类,且初始聚类中心由Prim最小生成树算法确定,增加了聚类的稳定性;然后在每个聚类中搜索用户的最近邻居,缩小了计算用户之间相似度问题的规模;最后,通过实验将改进的算法与传统的算法进行了比较。实验结果表明,改进的算法提高了推荐系统的质量和准确度。  相似文献   

9.
后缀树和后缀数组广泛用于生物信息学领域中,特别是通过启发式算法在对DNA基因片段进行匹配的阶段.本文提出了在GPU的平台下,利用多核和超多核体系构成的后缀树以及后缀数组并行匹配大规模基因片段,从而加速基因搜索匹配过程.相对于后缀树,后缀数组二分搜素算法具有内存占用少,缓存使用率高等优点.在GPU的性能评估中,后缀数组执行效率明显超过后缀树,后缀数组占用的空间仅为后缀树的20%~30%.相对于CPU的串行实现,后缀树组达到了约99倍的加速比.实验结果表明在基因片段匹配的过程中,基于GPU的后缀数组二分搜索是一种高效且实用的方法.  相似文献   

10.
一种面向GIS的静态R-树数据组织方法   总被引:2,自引:0,他引:2  
针对GIS空间数据提出了一种基于空间聚类的静态R-树生成方法.该方法用典型点法进行静态R-树数据组织,用空间对象的最小约束矩形代替空间对象本身进行空间聚类计算,形成若干聚类,并以R-树的构建规则进行适当调整,同时通过改进R-树的一些性能指标如覆盖区域、重叠面积和边界周长等提高其查询性能.通过将该算法与其他静态R-树算法如Low x算法、Hilbert R-树算法进行比较,论证了该算法的可行性.  相似文献   

11.
A new common phrase scoring method is proposed according to term frequency-inverse document frequency (TFIDF) and independence of the phrase. Combining the two properties can help identify more reasonable common phrases, which improve the accuracy of clustering. Also, the equation to measure the in-dependence of a phrase is proposed in this paper. The new algorithm which improves suffix tree clustering algorithm (STC) is named as improved suffix tree clustering (ISTC). To validate the proposed algorithm, a prototype system is implemented and used to cluster several groups of web search results obtained from Google search engine. Experimental results show that the improved algorithm offers higher accuracy than traditional suffix tree clustering.  相似文献   

12.
In this paper, an improved algorithm, named STC-I. is proposed for Chinese Web page clustering based on Chinese language characteristics, which adopts a new unit choice principle and a novel suffix tree construction policy. The experimental results show that the new algorithm keeps advantages of STC, and is better than STC in precision and speed when they are used to cluster Chinese Web page.  相似文献   

13.
并行后缀树的构造及查询算法   总被引:2,自引:0,他引:2  
针对生物信息领域中传统后缀树构造算法在时间和空间上的限制,从结构并行的角度提出了一种新颖的、适用于生物信息学应用的并行后缀树结构和相应的构造算法·该算法首先将给定字符串分成若干连续的片段,并在各个处理机上分别构造这些片段的后缀树,形成了一种分布于多个处理机上的并行后缀树结构·该并行算法不仅大大缩短了后缀树的构造时间,而且避免了主存大小的限制·经分析,其性能优于现有的任何一种并行算法·在此基础上,提出了一种高效的基于这种并行后缀树的字符串匹配算法,解决了传统后缀树的基本查询问题·  相似文献   

14.
分析了后缀树在一维和二维字符串处理方面的优势.以后缀树为索引,将后缀树和最低公共祖先问题相结合,提出了一个在仅考虑平移变换操作的条件下.进行图像精确识别的算法,并从时间复杂度上证明了其优于传统的二:维精确模式匹配算法。  相似文献   

15.
基于LEACH的簇树路由协议是目前无线传感器网络研究的热点之一,由于传统的构造最小生成树的算法不能适应网络中节点密度的变化,制约其更广泛的应用。在对LEACH簇树路由和传统的连通网络中构造最小生成树算法的分析基础上,结合动态优化的思想,提出了一种新的基于Prim算法的构造最小生成树算法,并将其应用到簇树路由中,使得网络寿命延长,同时增强了对网络节点密度的适应性。仿真结果说明了该算法的可行性和有效性。  相似文献   

16.
传统K-means 算法对于聚类初始点的选取和距离度量的计算异常敏感,因而很可能导致K-means 算法只能收敛得到局部最优解。为此,提出一种改进的K-means 算法,即K-means 聚类算法最优匹配算法,并进行了相关的算法实验分析。该改进算法首先对传统的K-means 聚类算法进行初始点的选取,并分析聚类结果。然后,分别从初始聚类中心的选择和距离算法的确定进行实验测试,引入轮廓系数评价聚类效果,分析实验结果可知,K-means 聚类算法最优匹配算法具有较好的稳定性和较高的聚类准确率。  相似文献   

17.
针对传统Mashup服务推荐在网络构建方式的成本和计算复杂性过高问题, 提出一种基于半监督层次聚类描述的Mashup服务推荐算法. 首先, 利用网爬工具收集ProgrammableWeb上的Mashup服务信息, 并采用后缀剥离算法把Mashup服务的标签信息修改为名词形式, 以此作为研究分析的数据集; 其次, 为提高聚类精度, 提出一种半监督层次描述聚类算法, 通过植入层次聚类算法顶层核心集方式, 有效解决了传统层次描述聚类因顶层分类集构造失败而影响Mashup服务推荐算法的准确度. 通过在聚类数据集和网爬Mashup服务数据库上的实验表明, 该算法的Mashup服务推荐准确率优于对比算法.  相似文献   

18.
基于信息熵改进的 K-means 动态聚类算法   总被引:3,自引:2,他引:1  
初始聚类中心及聚类过程产生的冗余信息是影响K-means算法聚类性能的主要因素,也是阻碍该算法性能提升的主要问题.因此,提出一个改进的K-means算法.改进算法通过采用信息熵对聚类对象进行赋权来修正聚类对象间的距离函数,并利用初始聚类的赋权函数选出质量较高的初始聚类中心点;然后,为算法的终止条件设定标准阈值来减少算法迭代次数,从而减少学习时间;最后,通过删除由信息动态变化而产生的冗余信息来减少动态聚类过程中的干扰,以使算法达到更准确更高效的聚类效果.实验结果表明,当数据样本数量较多时,相比于传统的K-means算法和其他改进的K-means算法,提出的算法在准确率和执行效率上都有较大提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号