首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 312 毫秒
1.
为解决有限区域内分布的稀疏不均的、具有一定分布结构数据集的聚类分析难题,在近邻思想、网格化空间划分及万有引力叠加原理的启发下,提出了一种基于单元网格近邻势的聚类方法。该方法是基于近邻势的聚类方法在单元网格层次上的一种可以提高聚类速度的扩展。为有效实现并在时空效率上对这种聚类方法进行尽可能的改进,使用了单元网格、网格密度、多维网格划分法、多维索引树等一些比较重要的概念和方法。仿真实验中, 先使用多个不同类型的人工数据集将提出的算法与几个经典聚类算法在聚类精度、聚类速度等方面进行适当的比 较,采用两副图片在RGB(red, green,blue)色彩空间的像素点集来验证该算法的聚类压缩效果。仿真实验说明了这种方法比一些经典的聚类算法在聚类建设、聚类质量方面具有一定的有效性和优越性  相似文献   

2.
变电站数据存在空间拓扑结构,传统方法采用二维调度,导致维度空间信息消失,调度结果不可靠,影响调度人员对整个变电站状态的掌控。为此,提出一种新的20kV变电站多层数据智能三维调度方法。通过四叉树方法建立变电站多层数据空间索引,把最小外包矩形置于能够将其全部保存的最小矩形节点内,给出四叉树形成过程。按照不同层次与粒度,通过空间划分方法对20kV变电站多层次数据进行划分,得到连续分层层次细节模型,从下往上遍历四叉树,求出每层误差,将求出的误差作为多细节层LOD选取的参考值。给出保持区域更新与数据调度间动态平衡的方法。分析了视点区域,利用当前视点参数对LOD分布进行管理。利用索引表获取二维空间和三维空间的映射关系,在三维空间中确定三维多层数据。依据模型与视点的距离动态智能调度不同层次变电站数据,给出详细三维调度过程。实验结果表明,所提方法适于实际应用,可行性强。  相似文献   

3.
基于位置的服务(LBS)进行数据发布时,数据拥有者委派第三方服务商来发布数据,服务提供商代表数据拥有者向用户提供服务。但是LBS中的服务提供商可能是不可信的,这样会在LBS大数据的查询中形成由于商业目的而篡改的不准确的结果。LBS大数据中移动对象的位置随时间而变化,因此数据的动态性导致了索引结构大量的更新操作。该文提出了一种基于固定网格划分四叉树索引机制的空间范围查询验证技术,该技术采用网格划分的方法对空间数据进行划分,并采用四叉树对划分后的网格进行索引。该空间索引结构更新代价低,方便了数据的管理,缩短了检索的时间,四叉树索引对于范围查询具有较高的查询验证效率。该方法确保了用户查询结果的真实性、完整性和正确性。通过实验验证了该方法是有效的。  相似文献   

4.
图像聚类是当前的研究热点,非负矩阵分解(non-negative matrix factorization, NMF)算法在图像聚类领域得到了广泛应用。但是单一的NMF算法无法应用于所有数据集,并且NMF算法直接在数据的原始空间进行处理,抗噪能力较差。集成聚类可以解决上述问题,集成聚类将若干个基础聚类结果合成一个一致性结果,不仅可以提高聚类的求解质量,还可以增强算法的鲁棒性。因此本文提出一种层次预处理的NMF加权集成聚类算法。该算法将层次划分、集成聚类和二部图的思想引入到NMF算法中。在预处理阶段,利用层次划分得到聚类数目。之后采用局部加权的方法得到协关联矩阵。最后利用基于二部图的一致性函数进行划分得到最终的聚类结果。在5个数据集上进行实验,验证了本文算法相对于传统算法和其他集成算法的有效性。  相似文献   

5.
变电站数据存在空间拓扑结构,传统方法采用二维调度,导致维度空间信息消失,调度结果不可靠,影响调度人员对整个变电站状态的掌控。为此,提出一种新的20 kV变电站多层数据智能三维调度方法。通过四叉树方法建立变电站多层数据空间索引,把最小外包矩形置于能够将其全部保存的最小矩形节点内,给出四叉树形成过程。按照不同层次与粒度,通过空间划分方法对20 kV变电站多层次数据进行划分,得到连续分层层次细节模型,从下往上遍历四叉树,求出每层误差,将求出的误差作为多细节层LOD选取的参考值。给出保持区域更新与数据调度间动态平衡的方法。分析了视点区域,利用当前视点参数对LOD分布进行管理。利用索引表获取二维空间和三维空间的映射关系,在三维空间中确定三维多层数据。依据模型与视点的距离动态智能调度不同层次变电站数据,给出详细三维调度过程。实验结果表明,所提方法适于实际应用,可行性强。  相似文献   

6.
提出了一种基于神经网络的工艺实例推理索引模型,与现存大多数实例推理系统不同,该方法用神经网络实现实例的动态分类和索引,实例层次分类的3层结构和基于特征的聚类模板概念,为实现基于符号处理的实例推理求解模式向基于向神经计算模式识别求解模式映射提供了条件。  相似文献   

7.
针对网格聚类方法在高维子空间聚类中网格规模随着维度急剧升高的问题,以及差别阈值方法引入干扰小聚簇的问题,提出一种具有两个网格划分阶段的密度意识子空间聚类模型。该模型第一阶段采用粗网格找出可能存在聚类的子空间区域,第二阶段在这些区域中进行等效精度更高的网格划分并找出所有致密单元。该模型在两个阶段处理的网格规模均远低于密度意识子空间聚类模型在相同划分精度下的网格规模,同时利用第一阶段对网格空间的筛选作用降低小聚簇干扰,提高聚类质量。合成数据集实验表明:该模型聚类精准率和查全率性能明显优于原模型;基于真实数据集实验,相比一次划分模型,该模型以损失0.4%数据点的代价提高输出聚类密度19.4%,聚类质量大幅提升。  相似文献   

8.
针对现有大数据空间查询处理方法存在执行时间长和查询结果不够准确的问题,提出一种基于动态分布式聚类算法的大数据查询处理方法,该方法分为数据预处理、数据聚类和查询处理3个部分.首先将输入数据划分为多个子集,以RRD格式存储在一组机器节点中;其次采用划分和层次混合动态聚类算法,在Apache Spark平台上对数据进行分布式聚类;最后通过K近邻查询方式获得高精度和高效率查询结果.实验结果表明,本文提出的方法具有可扩展性,可为空间查询处理提供高质量的结果,比其他查询方法更具优势.  相似文献   

9.
聚类作为数据分析的工具之一,已在模式识别、文献计量及故障诊断等领域中发挥了重要作用。该文基于邻域关系、局部密度和空间网格划分提出了一种聚类方法。该方法主要利用空间网格降低计算复杂度,利用邻域关系在网格空间中以密度为依据搜索聚类元素,并根据最大相对距离和最大相对密度原则自动寻找聚类中心。基于人工数据的实验结果表明,所提邻域密度网格聚类方法可有效处理任意形状数据并自主完成聚类。基于区域识别的对比实验表明,所提方法更适用于处理奇异形状且分布复杂的数据。  相似文献   

10.
基于多尺度空间聚类的经济区域划分研究
  总被引:1,自引:0,他引:1  
传统的聚类方法能够自动实现类型的划分,但其只考虑空间对象的属性特征,忽略了空间对象之间位置的邻近性。在尺度空间理论基础上,利用多尺度空间聚类方法,同时兼顾空间对象间的空间相邻和属性相似这两个特征,使得在空间尺度由小变大的过程中,具有高度空间相互依赖关系的空间对象相互融合,得到不同空间尺度下的区域划分结果。并以福建省67个县市1990—2004年历年的人均GDP数据分析为例,进行了全省的经济区域划分应用试验。结果表明与实际的区域经济发展情况相符。该方法能够综合考虑空间位置邻近性和属性特征相似性的聚类要求,使得聚类结果更加合理,为制定区域经济持续发展战略提供依据。  相似文献   

11.
 空间聚类和空间索引的结合是当前空间数据库中提高数据检索效率的技术之一。本文从空间聚类和空间索引的存储原理入手,阐述了K-Means聚类算法及其改进算法的技术思路,研究了K-Means算法在空间数据库中与空间索引方法结合的技术问题;分析了当前基于K-Means算法的R-树系列空间索引技术的研究成果,阐述了它们提高空间检索效率的技术路线及实验结果,研究显示这些技术都能在一定程度上提高数据检索的效率。最后给出了聚类与空间索引结合技术未来的研究方向。  相似文献   

12.
-多样性(I-diversity)模型采用传统基于概念层次结构的数据概化策略,在对敏感属性进行匿名保护时往往会造成不必要的信息损失。针对这一问题,将聚类技术引入数据匿名中,提出一种基于聚类的I-diversity匿名保护方法。该方法在满足I-diversity模型的约束条件下,采用基于距离的层次化聚类算法划分元组,对不同类型的准标识符使用不同的概化策略,并依据数据概化前后属性值不确定性程度的变化描述数据概化带来的信息损失。同现有的I-diversity模型相比,该方法能较好地保护用户的敏感属性,并且在一定程度上降低了概化处理带来的信息损失。  相似文献   

13.
为了快速挖掘大规模空间数据的聚集特性,在cluster_dp密度聚类算法基础上,提出了一种基于弹性分布数据集的并行密度聚类方法 PClusterdp.首先,设计一种能平衡工作负载弹性分布数据集分区方法,根据数据在空间的分布情况,自动划分网格并分配数据,使得网格内数据量相对均衡,达到平衡运算节点负载的目的;接着,提出一种适用于并行计算的局部密度定义,并改进聚类中心的计算方式,解决了原始算法需要通过绘制决策图判断聚类中心对象的缺陷;最后,通过网格内及网格间聚簇合并等优化策略,实现了大规模空间数据的快速聚类处理.实验结果表明,借助Spark数据处理平台编程实现算法,本方法可以有效实现大规模空间数据的快速聚类,与传统的密度聚类方法相比具有较高的精确度与更好的系统处理性能.  相似文献   

14.
Current literature on parallel bulk-loading of R-tree index has the disadvantage that the quality of produced spatial index decrease considerably as the parallelism increases.To solve this problem,a novel method of bulk-loading spatial data using the popular MapReduce framework is proposed.MapReduce combines Hilbert curve and random sampling method to parallel partition and sort spatial data,thus it balances the number of spatial data in each partition.Then the bottom-up method is introduced to simplify and accelerate the sub-index construction in each partition.Three area metrics are used to test the quality of generated index under different partitions.The extensive experiments show that the generated R-trees have the similar quality with the generated R-tree using sequential bulk-loading method,while the execution time is reduced considerably by exploiting parallelism.  相似文献   

15.
基于承灾体的中国森林火灾危险性评价   总被引:6,自引:0,他引:6  
利用森林植物种类组成及林地面积资料,采用面积权重及统计聚类分析的方法,将中国省域森林火险划分为五级,即:轻度危险、中度危险、高度危险、重度危险和极度危险,县域森林火险划分为四级,即:轻度危险、中度危险、高度危险和重度危险.结果表明:黑龙江、内蒙古、陕西3省区为我国森林火灾重点防火区,其中黑龙江最重;我国12.2%的县域处在重度危险等级中,61.5%的县域处在中、高度危险等级中.  相似文献   

16.
在国土空间大数据环境下,基于传统串行叠加分析计算的国土空间开发适宜性评价性能已达极限,需研究并行化方法,以利用更多的计算资源提升国土空间开发适宜性评价的效率.在分析基于多空间对象叠加综合评价原理的基础上,通过引入空间数据预处理方法、空间数据划分方法及并行空间索引,提出并实现了以并行叠加分析为核心的国土空间开发适宜性评价方法.西南四省的国土空间建设用地适宜性评价应用实验表明:本文方法相比传统方法性能提升了至少30倍,且节约了大量的人力物力资源,解决了传统架构下国土空间开发适宜性评价计算效率低或无法胜任的难题.  相似文献   

17.
针对图谱划分方法在划分社区结构不是很明显的网络时,不能得到好的划分效果,该文提出了基于边聚类系数的谱聚类社区划分方法.由于社区内部节点之间的连接比各个社区间节点的连接稠密,边聚类系数的大小反映了节点的聚集程度,因而通过网络中的边所构三角形的数量定义了聚类系数矩阵,矩阵中的元素即处于网络中的边实际构成三角形的数量.在增益函数最大化的过程中,使用了矩阵的特征值和特征向量,以此来进行社区划分.通过在真实网络数据中进行实验,结果表明该算法可行.  相似文献   

18.
To the problem that it is hard to determine the clustering number and the abnormal points by using the clustering validity function, an effective clustering partition model based on the genetic algorithm is built in this paper. The solution to the problem is formed by the combination of the clustering partition and the encoding samples, and the fitness function is defined by the distances among and within clusters. The clustering number and the samples in each cluster are determined and the abnormal points are distinguished by implementing the triple random crossover operator and the mutation. Based on the known sample data, the results of the novel method and the clustering validity function are compared. Numerical experiments are given and the results show that the novel method is more effective.  相似文献   

19.
模糊熵描述了一个模糊集的模糊性程度.本文将模糊熵应用于聚类有效性的分析.指出用于聚类有效性判决的划分系数是一个基于模糊熵的聚类有效性判决准则.最后通过几组数据对不同模糊熵公式的判决功能进行了比较实验.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号