共查询到19条相似文献,搜索用时 78 毫秒
1.
基于递归聚类索引树的剪枝相似检索算法 总被引:2,自引:0,他引:2
文章提出了一种新的适用于高维特征矢量相似检索动态聚类索引树结构。针对由于类区域相互重叠而导致相似检索费用增加的问题 ,提出了基于该索引树的“剪枝”相似检索算法 ,应用该算法进行相似检索 ,其检索效益比耗尽搜索法和基于 SS树的相似检索法都要高。 相似文献
2.
地理信息数据库的查询效率作为GIS系统效率的关键,传统的查询和索引技术不能有效地实现地理信息数据库的高速查找和信息提取.提出了GIS中高效信息查询和提取的一种优化方法——一种基于R 树的空间索引技术的方法,介绍通过该方法建立记录地图信息的shape文件对应的索引文件的基本思路和方法并提出了基于此方法的GIS最邻近查询算法. 通过实验表明,该方法能有效提高GIS系统的响应速度和数据提取效率. 相似文献
3.
余冬梅 《科技导报(北京)》2012,30(11):76-79
空间聚类和空间索引的结合是当前空间数据库中提高数据检索效率的技术之一。本文从空间聚类和空间索引的存储原理入手,阐述了K-Means聚类算法及其改进算法的技术思路,研究了K-Means算法在空间数据库中与空间索引方法结合的技术问题;分析了当前基于K-Means算法的R-树系列空间索引技术的研究成果,阐述了它们提高空间检索效率的技术路线及实验结果,研究显示这些技术都能在一定程度上提高数据检索的效率。最后给出了聚类与空间索引结合技术未来的研究方向。 相似文献
4.
对基于空间聚类的R-树的空间数据库索引技术进行研究,提出了面向R-树的空间混合聚类算法的改进算法,而将改进后的算法与其他算法的性能进行对比,可以发现:改进后的算法比其他空间聚类算法具有更大的优势. 相似文献
5.
一种基于聚类树的增量式数据清洗算法 总被引:2,自引:0,他引:2
研究了在数据模式与匹配规则不变的前提下 ,数据集动态增加时近似重复记录的识别问题 ,提出了一种基于聚类树的增量式数据清洗算法IACT .该算法通过构建聚类树先对记录进行分区 ,然后在划分的区域内进行相似度的计算识别出近似重复记录 ,从而完成了增量式相似重复记录的检测 .实验结果证明了IACT算法在无损精度的情况下 ,在效率上优于多趟邻近排序 (MPN)算法 . 相似文献
6.
目的:更好地揭示高维数据的子空间结构,提高子空间聚类性能。方法:对系数矩阵施加Frobenius范数约束,并使其与稀疏矩阵充分接近,建立新的子空间表示模型,利用系数矩阵构造相似度矩阵,最后利用谱聚类算法得到聚类结果。结果与结论:新模型能得到类间稀疏和类内聚集的系数矩阵,提高了聚类性能,且能快速实现。 相似文献
7.
针对LSH技术的固有缺点提出了一种根据数据自动调整LSH索引结构关键参数的方法,该方法面向数据集,使得索引结构可以针对不同数据集的统计特征选取适当的散列函数,而不用手工调整LSH索引结构中的关键参数,提高了LSH算法的准确性,且在进行查询时不增加额外的时间空间开销.模拟实验表明,和使用原始LSH算法相比较,使用该方法进行最近邻查询得到结果集的相似性可以提高10%左右,相似偏差可以减小8%左右;并且由于参数调整过程在查询过程之前,因此改进LSH算法和原始LSH算法在进行查询时有相同的时间空间性能. 相似文献
8.
基于混合聚类算法的动态R-树 总被引:1,自引:0,他引:1
针对动态R-树是通过动态插入算法建立起来的, 其节点分裂算法的性能直接影响到R-树的性能和查询效率的问题, 为了使动态R-树适应多维复杂空间数据的要求, 提出一种用于实现R-树节点分裂的混合聚类算法(HCR), 它建立在普通聚类算法的基础上, 并进行了一系列扩充. 针对空间对象的均匀分布与不均匀分布, HCR算法在实现R-树节点分裂时分别采用不同的聚类准则以提高其聚类效果和查询效率. 此外, 还将HCR算法与其他算法进行对比实验, 结果表明该算法具有较高的查询效率. 相似文献
9.
吉珊珊 《南京师大学报(自然科学版)》2021,44(1):119-127
针对高维数据引起的"维数灾难"问题,设计了一种基于神经网络树和人工蜂群优化的高维数据聚类算法.首先,设计了改进的二元人工蜂群优化算法,以封装式方法最大化径向基函数网络的准确率,以过滤式方法最小化特征的冗余度;然后,基于每个特征子集的样本集训练径向基函数网络,构建以径向基函数网络为节点的神经树;最终,采用门网络将连接的类... 相似文献
10.
子空间聚类是一种将搜索局部化在相关维上进行的聚类算法,它能有效地克服数据因维度过高引起的在全空间上聚类的困难.针对高维分类型数据,本文提出了一种自底向上的子空间层次聚类算法,该算法在全局范围内建立一个最相似线性表用来记录每个簇类与其最相似的簇类的相似度,在聚类过程中,选取最相似的簇类合并,并通过维护此线性表产生最相似的簇类.此算法在基于信息熵的意义上能够较准确地搜索簇类的子空间.通过Zoo和Soybean两个典型的分类型数据实验发现,相对于其它相关聚类算法,该算法在聚类的准确率和稳定性方面表现出较高的优越性. 相似文献
11.
张俊 《安徽师范大学学报(自然科学版)》2015,38(1):36-39
提出了一种数据流概率密度估计方法,在此基础上,经计算得到整个数据集在低维空间投影的信息熵,基于该信息熵实现了一种新的高维数据流的子空间聚类算法EPStream.实验表明,与传统的算法相比,该算法在聚类精度和时间方面都有所提高. 相似文献
12.
基于SS/OSF实现高维稀疏数据对象的聚类 总被引:4,自引:0,他引:4
为了解决传统聚类方法处理高维稀疏数据对象时聚类结果不理想的问题,提出了SS/OSF聚类方法.该方法基于对象组相似度(SS)和对象组特征向量(OSF),并借助对象组特征向量的可加性实现. 采用本方法得到高维稀疏数据对象的聚类结果后,可以根据聚类结果中各个对象集合的上确界和下确界为新对象进行对象组分类. 实验表明,与传统K-means聚类方法相比,随着数据对象数目的增加,该方法无论是在运行时间上,还是在聚类结果的准确度方面都有明显的改进. 相似文献
13.
以高维分类为目标,从分类的准确率与模型解释性角度探讨了降维的必要性,分析了特征选择与抽取2类方法特点,并对常用的特征抽取方法,包括主成分分析(PCA)、偏最小二乘(PLS)和非负矩阵分解(NMF)进行了阐述.考虑到约减后的数据缺乏稀疏性与可解释性,提出了基于稀疏正则化的特征抽取模型,为高维特征降维提供了一种新思路. 相似文献
14.
范围查询是对数据立方体进行数据分析的有效方法,预计算技术可以提高数据立方体范围查询的速度,实现快速的用户响应.近年来研究人员基于多维联机分析处理(MOLAP)预计算的研究主要以prefix sum及分块技术为基础,本文对分块方案及如何组织块内单元实施prefix sum方法进行探索,提出了前缀区域数据立方体结构(Prefix Region Cube,PRC),采用基于前缀区域的不规则的分块方案,这种分块方法利于从起始单元开始的前缀区域范围查询的实现.另外PRC在分块及对划分后的块内单元实施prefix sum时都采用回归分割技术,在不增加额外立方体空间的前提下,实现范围查询和数据更新的代价都为O(logdn). 相似文献
15.
为提高空间移动对象数据更新效率和查询准确率,提出了一种空间移动对象并行索引结构.利用主索引和辅助索引支持对空间对象进行基于范围的查询和基于对象标识的查询,还通过查询索引将更新操作和可能受其影响的查询操作相连接,在满足并行操作时间片语义的同时,避免了传统方法进行范围查询时对查询范围内相关对象及相关索引结构全部进行锁定的需求.实验结果表明:高负载环境下,该索引结构不但能保证查询准确率,其处理能力也明显优于传统索引结构.该索引通过提高系统并行度,使同一范围内的更新和查询操作可以并行执行,提升了系统整体运行效率. 相似文献
16.
基于高维数据的特征选择性, 运用功能扰动集成方法, 对4种不同特征选择器的结果进行集成, 得到了分类精度高且稳定性较好的特征子集. 在基因数据集上与原有算法进行性能对比实验, 结果表明, 多特征选择混合算法可使特征选择的结果间具有互补性, 从而有效提高特征选择的稳定性和分类精度. 相似文献
17.
数据挖掘中基于密度的聚类结构及算法设计 总被引:1,自引:0,他引:1
聚类分析是数据挖掘的主要技术之一。其中基于密度的聚类可以得到任意形状的聚类结果,从而可以观察到一个并发的、完整的聚类结构。对聚类、数据对象、簇的密度、基于密度的方法和OP TICS中的基本概念进行了描述,在此基础上,明确定义了簇的密度,建立了关于ζ的基于密度的簇、密度度量函数等概念,并设计了获得聚类结构的相应算法且对其进行了复杂性分析。 相似文献
18.
针对基于聚类的离群点检测算法在处理高维数据流时效率和精确度低的问题,提出一种高维数据流的聚类离群点检测(CODHD-Stream)算法。该算法首先采用滑动窗口技术对数据流划分,然后通过属性约简算法对高维数据集降维;其次运用基于距离的信息熵过滤机制的 K-means 聚类算法将数据集划分成微聚类,并检测微聚类的离群点。通过实验结果分析表明:该算法可以有效提高高维数据流中离群点检测的效率和准确度。 相似文献
19.
朱利娜 《信阳师范学院学报(自然科学版)》2007,20(3):364-367
分布式数据库系统的数据在逻辑上是统一的,而在物理上却是分散的.分布式查询可以访问来自多种异类数据源的数据,而这些数据可存储在相同的或不同的计算机上,与集中式数据库相比它有诸多优点,但也有很多新问题,如:数据一致性问题、数据远程传递的实现、通信开销的降低等.本文具体分析解决了远程对象的发布与获取、数据库的访问、分布式查询等方面的关键问题,对实现分布式数据查询的技术进行初步探讨和分析. 相似文献