首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
基于混合聚类算法的动态R-树   总被引:1,自引:0,他引:1  
针对动态R-树是通过动态插入算法建立起来的, 其节点分裂算法的性能直接影响到R-树的性能和查询效率的问题, 为了使动态R-树适应多维复杂空间数据的要求, 提出一种用于实现R-树节点分裂的混合聚类算法(HCR), 它建立在普通聚类算法的基础上, 并进行了一系列扩充. 针对空间对象的均匀分布与不均匀分布, HCR算法在实现R-树节点分裂时分别采用不同的聚类准则以提高其聚类效果和查询效率. 此外, 还将HCR算法与其他算法进行对比实验, 结果表明该算法具有较高的查询效率.  相似文献   

2.
构建倒排文本空间索引树(IR)分裂聚类多目标模型,对非支配排序遗传算法(NSGA-Ⅲ)的求解过程进行改进,提出一种基于先验初始种群策略的非支配排序遗传算法(PIPS-NSGA-Ⅲ),使其更适应于倒排文本空间对象分裂聚类问题的求解.通过PIPS-NSGA-Ⅲ算法寻求对象最小包围矩形(MBR)之间的重叠与覆盖面积、对象群间平均距离以及语义相似度等目标的最优前端解.通过对比PIPS-NSGA-Ⅲ,NSGA-Ⅱ,NSGA-Ⅲ和SPEA-Ⅱ进化多目标算法,从对象分类时间、效率、查询时间和准确度等多个方面来评估算法的优劣.实验结果表明:PIPS-NSGA-Ⅲ算法对文本空间对象聚类分裂具有较高的效率;相对于简化传统R树(STR树)与R树空间索引结构,基于改进NSGA-Ⅲ文本空间索引的平均查询时间减少24.8%,平均准确度提高3.75%.  相似文献   

3.
聚类金字塔树:一种新的高维空间数据索引方法   总被引:6,自引:0,他引:6  
提出了一种新的有效的高维空间数据索引方法-聚类金字塔树,它先对不均匀分布数据进行聚类处理,然后对聚类的结果实施金字塔分割和存储,由此建立一种有效的索引结构。文中给出聚类金字塔树的几种查询算法。实验证明:处理不均匀分布数据时,聚类金字塔树无论在页面访问次数,还是在CPU总占时间上都优于金字塔树。  相似文献   

4.
讨论纺织品CAD/CAM系统中的色彩预处理问题.提出了一种包括真彩色索引和伪彩色归并的两级色彩聚类算法,介绍了算法的实现流程.采用这种算法能够从源图像中获得“纯净”的工艺图像.  相似文献   

5.
逆向Skyline查询能够应用到诸如决策支持、用户偏好支持以及市场行为分析等方面。由于参考对象q的存在,在执行逆向Skyline查询的过程中数据空间被划分成许多分区。然而,存在的算法都没有考虑这个问题的影响,直接使用原始数据集建立索引结构。本文提出了一种新的逆向Skyline查询方法CRSQ,它考虑了这个问题。CRSQ首先根据查询对象q对数据进行聚类,然后建立R-tree索引,最后利用高效修剪策略修剪索引搜索空间。实验结果表明CRSQ算法是有效的,它相对于没有聚类技术的算法获得了50%以上的性能提高。  相似文献   

6.
针对QCR-树聚类个数需事先确定和处理高维空间数据时面临着"维数灾难"的问题,通过自动确定K-means算法的聚类个数和初始聚类中心,来提高聚类质量,并对原始高维空间数据进行近似压缩来减少磁盘读写代价,提高查询效率,提出一种QAAR-树空间索引结构,同时给出QAAR-树的插入、删除和查询算法。实验结果表明,QAAR-树的查询性能优于QCR-树,能够有效地处理海量高维空间数据。  相似文献   

7.
为提高中文密文数据库查询的灵活性、便捷性、高效性,设计了一种新的密文索引结构。它通过登记汉字所在记录的记录标识以及汉字在属性值中的位置,来提供对中文正则查询的支持。在这种索引的基础上,提出了一系列正则查询处理算法,这些算法利用索引登记的汉字位置信息来筛选符合查询条件的记录。仿真实验证明,利用这种索引和算法,能够在中文密文数据库上实现正则查询,且算法的查询性能良好。  相似文献   

8.
中文密文数据库正则查询的研究与实现   总被引:1,自引:1,他引:0  
为提高中文密文数据库查询的灵活性、便捷性、高效性,设计了一种新的密文索引结构.它通过登记汉字所在记录的记录标识以及汉字在属性值中的位置,来提供对中文正则查询的支持.在这种索引的基础上,提出了一系列正则查询处理算法,这些算法利用索引登记的汉字位置信息来筛选符合查询条件的记录.仿真实验证明,利用这种索引和算法,能够在中文密...  相似文献   

9.
一种新的用于三维检索的快速邻域搜索方法   总被引:1,自引:0,他引:1  
在传统的层次聚类算法上,对孤立聚类进行特殊处理,并在此基础上提出了与传统内容检索方法不同的三维模型索引检索技术.首先提取三维模型的深度图像特征并将特征值存入数据库;其次利用改进的层次聚类算法对特征值进行聚类并计算聚类中心值;之后计算每个三维模型内容特征与其所在聚类中心的距离并保存到数据库中,查询时计算待查询模型特征与各个聚类中心的距离并排序;最后在每个聚类里面进行检索,与聚类中心的距离位于待检索模型与该聚类中心距离的邻域就是查询结果.在该方法中,将每个模型特征与其所在聚类中心的距离作为其索引.实验结果表明,该方法在保证检索质量的基础上大大提高了检索速度.  相似文献   

10.
通过对模糊C均值聚类算法进行分析评价,提出了一种高效的自适应图像数据聚类方法,该方法采用曲线的多项式拟合技术自动获取随数据分布动态变化的阈值,改进后的算法克服了模糊C-均值聚类对聚类中心的敏感性以及聚类的局部性,并在此基础上建立了相应的索引机制.仿真实验表明,自适应模糊聚类索引大大提高了检索性能.  相似文献   

11.
随着无线通讯及连续移动对象寻轨技术的高速发展,迫切需要提出解决大量移动对象查询的有效方法。本文提出了一个解决连续移动点反向最近邻查询的算法,同时也提出了解决连续移动点的最近邻查询算法。  相似文献   

12.
针对具有约束需求的空间数据库查询应用,定义了一种新查询——约束组最近组查询,并根据其约束特点深入研究了该查询的处理技术.首先,为了使组最近组查询结果的查询点数量满足约束条件,设计了一种约束聚簇算法,用来在查询初始阶段对查询点进行约束聚簇;其次,采用MBM和SHR方法在这些初始簇中计算初始查询结果;最后,通过迭代更新聚簇获得查询最优解,并提出一种剪枝策略来减少更新代价.实验结果证明了所提算法的有效性和实用性.  相似文献   

13.
基于k-means算法的DNS查询模式分析   总被引:1,自引:0,他引:1  
为了研究互联网用户对网站的访问模式,借助中国互联网络信息中心负责管理的国家域名系统资源,选取了一整天CN域名权威服务器的日志。提出了域名规约的方法,将日志中的域名合并为二级域名或者CN下41个类别和行政区的三级域名。该方法不仅保留了用户对网站的访问信息,而且能够达到压缩数据的目的。采用k-means算法对所提取的IP和域名的时间行为特征矢量进行聚类。结果表明:根据时间行为模式的不同,IP地址有3个主要类别,即攻击者、主要ISP的递归服务器和非主流递归服务器;域名有4个主要类别,对其中大量访问的域名进一步分类,找到了真正体现绝大多数用户网络访问需求的域名集合。  相似文献   

14.
考虑为移动中的查询对象连续返回k个距离近并且满足空间多样化约束的对象,提出了空间多样化约束下的移动k近邻(SDC-MkNN)查询.在此,满足空间多样化约束代表对象之间的相互距离大于距离阈值.为了高效处理SDC-MkNN查询问题,提出了两种基于安全区域技术的算法.算法均通过减少重新计算查询结果的次数来提高查询效率.其中一种为精确算法EA,可连续返回精确的查询结果;另一种为近似算法ρAA,可连续返回具有近似率保障的近似查询结果.采用真实数据集验证了所提出算法的有效性.  相似文献   

15.
高性能网页索引器JU_Indexer的实现   总被引:4,自引:1,他引:3  
高性能网页索引器JU_Indexer用倒排索引表存储网页索引数据, 以多线程并行的方式对网页建立索引数据, 采用经过优化的检索算法实现用户的查询. 首先给出了JU_Indexer的系统框架, 然后描述了索引数据在JU_Indexer中的存储结构、 建立网页索引的算法、 以及实现用户查询的检索算法. 实验结果表明, JU_Indexer能在毫秒级的时间内完成用户的查询, 它采用的经过优化的词组检索算法缩短了词组的检索时间.  相似文献   

16.
提出一种用于哼唱识别精确匹配的线性伸缩动态规划算法。该算法将哼唱旋律切割成句子,对每一句子进行线性伸缩匹配,同时在句子层次进行动态规划获得最优路径。该算法更有效地利用了哼唱语音的分段特性并克服了动态规划在长路径搜索时可能丢失全局最优路径的缺点。在含5 223首M ID I的数据库上同等条件下该算法正确率分别比线性伸缩、动态规划及递归匹配方法提高10.5%、6.0%和2.8%。该算法具有更高的准确率和更小的时间复杂度,是一种更有效的精确匹配算法。  相似文献   

17.
一种基于图像内容的自适应色彩量化算法   总被引:1,自引:0,他引:1  
色彩量化是数字图像分析与处理领域的基本问题之一.笔者以K-均值聚类为基础,提出了一种新的自适应色彩量化算法,该算法首先依据图像内容确定初始聚类中心,并对所有像素进行归类处理;再结合图像局部区域平滑度,修改聚类中心颜色;最后对所有聚类进行分裂和合并运算,并生成量化图像.实验结果表明,该算法具有较好的色彩量化效果(即色彩量化误差较小),整体性能优于K-均值聚类色彩量化方案.  相似文献   

18.
We propose a new clustering algorithm that assists the researchers to quickly and accurately analyze data. We call this algorithm Combined Density-based and Constraint-based Algorithm (CDC). CDC consists of two phases. In the first phase, CDC employs the idea of density-based clustering algorithm to split the original data into a number of fragmented clusters. At the same time, CDC cuts off the noises and outliers. In the second phase, CDC employs the concept of K-means clustering algorithm to select a greater cluster to be the center. Then, the greater cluster merges some smaller clusters which satisfy some constraint rules.Due to the merged clusters around the center cluster, the clustering results show high accu racy. Moreover, CDC reduces the calculations and speeds up the clustering process. In this paper, the accuracy of CDC is evaluated and compared with those of K-means, hierarchical clustering, and the genetic clustering algorithm (GCA)proposed in 2004. Experimental results show that CDC has better performance.  相似文献   

19.
提出一种将关键词查询转换为SPARQL查询的方法来进行RDF数据的搜索.首先,根据RDF本身的关联特点,构建一个压缩实体摘要图;然后,借助关键词与所在实体的索引,将所查询的关键词在该摘要图上进行定位,通过图双向搜索算法找出包含关键词实体的前k子图,获得查询实体之间的关系,再联合最初的关键词及他们的属性,构建SPARQL查询;最后使用SPARQL搜索引擎执行查询.实验结果表明,所提方法较其他方法有更快的响应时间及更高的准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号