首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 843 毫秒
1.
聚类算法常需处理海量和高维的大数据集,为了提高算法的效率,设计并行的聚类算法,以提供更好的计算能力是十分必要的。集群系统是目前流行的高效并行计算环境,针对大数据集聚类问题,集群系统的运用是一种很好的选择。由于RSOM(recursive self-organizing mapping,RSOM)模型具有内在的层次化及分布式结构特点,本文研究了基于集群的集中调度式RSOM树并行算法,并通过视频图像特征集实例证实了算法的可行性。  相似文献   

2.
基于邻域优化的局部线性嵌入   总被引:1,自引:0,他引:1  
文贵华  江丽君  文军 《系统仿真学报》2007,19(13):3119-3122
利用图代数计算数据之间的相关性,进而优化数据的局部邻域,并应用于改进局部线性嵌入.LLE算法。优化后的LLE算法考虑了数据集的聚类结构,但不需要分类信息或聚类算法做预处理,因而算法是无监督的,有通用性,简单易于实现。邻域优化后的局部线性嵌入算法克服了经典LLE不能很好地处理稀疏或含有噪音数据的缺陷。同时继承了经典LLE时间复杂度低的优点,可用于解决大规模数据问题。标准数据集上的实验结果证明了所提方法的有效性。  相似文献   

3.
对并行图聚类算法进行了研究。基于Spark 提出了一个新的并行图聚类算法;由于Spark 中的top 操作需要耗费大量的内存,提出了一个新算法来替代top 操作,有效减少了所消耗的内存;通过对自底向上的层次聚类算法进行改进提高了聚类的速度;基于图数据的特征提出了一种图数据过滤的方法来减少算法运行的时间以及所占用的空间并对其有效性进行了说明。仿真结果表明,运行效果优于进行比较的其他并行化图聚类算法。  相似文献   

4.
针对基于安全多方计算聚类算法的低效问题,提出了基于聚类特征树结构的隐私保护的层次k-means聚类算法.算法基于半诚信模型,在第三方内存中保留对各记录的索引信息及聚类特征树的当前层信息,减少了I/O次数和通信量,克服了难以适应多数据方和因过于信赖第三方导致隐私泄漏等缺陷.算法通过基于安全多方计算的标准化协议、距离计算协议和聚类中心计算协议,实现了数据的有效保护,综合层次和k-means聚类算法的优点,提高了计算精度和算法的可伸缩性.理论证明了算法的安全性和高效性,实验结果表明所提算法优于同类算法.  相似文献   

5.
一种基于网格密度与空间划分树的聚类算法   总被引:1,自引:0,他引:1  
基于密度的聚类是聚类分析中的一种,其主要优点是发现任意形状的聚类和对噪音数据不敏感.文章提出了一种新的基于网格密度和空间划分树的CGDSFF(Clustering based on Grid - Density andSpatial Partition Tree)聚类算法.其创新点在于,将数据空间划分成多个体积相等的单元格,然后基于单元格定义了密度、簇等概念,对单元格建立了一种基于空间划分的空间索引结构(空间划分树)来对数据进行聚类.CGDSPT算法保持了基于密度的聚类算法的上述优点,而且CGDSFF算法具有线性的时间复杂性,因此CGDSPT算法适合对大规模数据的挖掘.理论分析和实验结果也证明了CGDSPT算法的优点.  相似文献   

6.
基于最优划分的K-Means初如聚类中心选取算法   总被引:1,自引:0,他引:1  
针对传统K-Means算法聚类过程中,聚类数目k值难以准确预设和随机选取初始聚类中心造成聚类精度及效率降低等问题,提出一种基于最优划分的K-Means初始聚类中心选取算法,该算法利用直方图方法将数据样本空间进行最优划分,依据数据样本自身分布特点确定K-Means算法的初始聚类中心,无需预设k值,减少了算法结果对参数的依赖,提高算法运算效率及准确率.实验结果表明,利用该算法改进的K-Means算法,运算时间明显减少,其聚类结果准确率以及算法效率均得到显著提高.  相似文献   

7.
高维数据聚类是数据挖掘领域的重要研究课题,大规模高维数据聚类研究非常具有挑战性.针对高效的CABOSFV高维数据聚类算法,采用并行计算模式提高其大规模数据的处理能力,提出基于稀疏指数排序的高维数据并行聚类算法P-CABOSFV.该算法根据高维数据稀疏指数排序进行分割点选择实现数据划分,将数据分配到多个计算节点同时处理聚类任务,再基于集合稀疏特征差异度聚类结果合并策略将各计算节点的聚类结果合并得到最终聚类结果.UCI数据集和计算机合成数据集实验表明:高维数据并行聚类算法P-CABOSFV聚类质量良好,具有很强的数据规模和数据维度可扩展性,是有效可行的.  相似文献   

8.
为了解决局部线性嵌入(locally linear embedding, LLE)流形学习算法无法自适应确定重构区间和不能进行增量学习等问题,提出了一种自适应聚类增量LLE(clustering adaptively incremental LLE,C-LLE)目标识别算法。该算法通过建立高维非线性样本集的局部线性结构聚类模型,对聚类后的类内样本采用线性重构,解决了LLE算法样本重构邻域无法自适应确定的问题;通过构建降维矩阵,解决了LLE算法无法单独对增量进行降维和无法利用增量对目标进行识别的问题。实验表明,本文算法能够准确提取高维样本集的低维流形结构,具有较小的增量降维误差和良好的目标识别性能。  相似文献   

9.
针对模糊C均值(fuzzy C means, FCM)聚类算法没有考虑噪声样本点和样本数据的分布特征对聚类结果影响的不足,利用数据加权策略对FCM聚类算法进行改进。改进后的算法通过计算各样本点的密度值,将初始聚类中心限制在高密度样本点区域,并把样本点的密度值作为该点的权值,对聚类中心进行调整,突出高密度样本点在聚类中心调整中的影响力,从而达到提高聚类效果的目的。人造数据集和加州大学欧文分校(University of California Irvine, UCI)真实数据集的实验结果表明,在不提高时间复杂度的同时,与FCM算法相比,基于数据加权策略的FCM算法聚类的准确率更高。  相似文献   

10.
特征加权是聚类算法中的常用方法,决定权值对产生一个有效划分非常关键。基于模糊集、粗糙集和阴影集的粒计算框架,本文提出计算不同簇特征权重的聚类新方法,特征权值随着每次迭代自动地计算。每个簇采用不同的特征权重可以更有效地实现聚类目标,并使用聚类有效性指标包括戴维斯-Bouldin指标(Davies-Bouldin,DB)、邓恩指标(Dunn, Dunn)和Xie-Beni指标(Xie-Beni, XB)分析基于划分的聚类有效性。真实数据集上的实验表明这些算法总是收敛的,而且对交叠的簇划分更有效,同时在噪声和异常数据存在时具有鲁棒性。  相似文献   

11.
本文在粒度空间理论的基础上,进行了基于粒度空间的最优聚类模型研究.具体包含以下三个内容:首先提出了基于类内偏差和类间偏差获取数据分层结构的优化聚类指标,进一步建立最优聚类模型,证明了该模型解的存在性,并给出了相应的算法;其次将发生在1902-2015年间同时含有HA与NA蛋白的甲型H1N1流感病毒序列作为实验数据库,应用本文提出的优化模型和算法构建了流感病毒蛋白系统的第一级结构和第二级结构,基于距离中心最近原理建立了签名病毒选取的优化模型,挑选签名病毒蛋白,并构建H1N1流感病毒的核心进化树;最后基于距离中心最近原则构建分类器以验证本文方法的有效性.实验结果表明:应用本文方法处理甲型H1N1流感病毒可得到非常好的分类结果,且正确率达到93.25%.这些为基于大数据的信息处理提供一整套全新的处理方法.  相似文献   

12.
一种基于三角模糊数多指标信息的聚类方法   总被引:1,自引:0,他引:1  
针对一类特征指标值及指标权重均为三角模糊数的多指标信息聚类问题,提出了一种新的最大树聚类分析方法。首先对三角模糊数多指标信息聚类问题进行了描述;然后依据传统的基于数值信息的最大树模糊聚类分析方法的基本思路,给出了解决三角模糊数多指标信息聚类问题的计算步骤。最后,通过算例说明了本文给出的聚类方法。  相似文献   

13.
针对多传感器多目标航迹关联的特点,提出了将基于聚类分析的ISODATA算法应用于航迹关联的解决方法。将表征航迹特征的参量构成待分类的样本空间,利用ISODATA算法对来自不同传感器的航迹进行关联。构建了基于ISODATA算法的有限记忆关联模型,利用有限步的历史航迹状态数据,有效地解决了目标密集环境下的误关联问题。通过仿真研究说明了算法的有效性。  相似文献   

14.
在多目标优化问题中,随着决策变量数目增多,算法的寻优能力会显著下降,针对这种“维数灾难”的问题,提出基于LLE降维思想和K-means聚类策略的大规模多目标自然计算方法。首先通过LLE降维思想对决策变量进行优化,得到高维变量在低维空间中的表示,再通过K-means策略对个体分组,为种群选择合适的引导个体,提高算法的收敛性和多样性。为验证算法有效性,将该方法应用于多目标粒子群优化算法和非支配排序遗传算法中,对收敛性进行了分析,证明该算法以概率1收敛。通过ZDT、DTLZ系列8个测试问题进行仿真试验,与6个代表性算法进行对比,通过PF、IGD指标、HV指标的评价结果验证其综合性能,并将其应用于水泵调度问题中。综合实验结果表明,所提方法具有较好性能。  相似文献   

15.
Finding frequent itemsets is the key problem in association rules mining. A new algorithm based on the lattice theory and bitmap index for mining frequent itemsets is proposed. The algorithm converts the original transaction database to an itemset-lattice in the pre-processing, where each itemset vertex has a label to save its support, and the complicated task of mining frequent itemsets in the database is thus changed to the simpler one that searches vertexes in the lattice. The efficiency of the mining process is enhanced greatly. Since the support counting in the association rules mining incurs a high cost regarding the I/O, a bitmap index technique is used to speed up the counting process. To address the issue that the intact bitmap usually needs a big memory space for storage, the bit vector is partitioned into blocks, which can be encoded as a symbol. This makes the original bitmap more compact in storage and improve the support counting efficiency as well. Finally, experimental and analytical results are presented.  相似文献   

16.
在线挖掘数据流滑动窗口中频繁闭项集   总被引:2,自引:0,他引:2  
在线挖掘滑动窗口中的频繁闭项集是一类重要的数据流挖掘问题.提出了一种新的频繁闭项集挖掘算法FPCFI-DS.该算法能够在有限的存储空间中高速挖掘数据流滑动窗口中的频繁闭项集,并且能够在任意时刻维护当前窗口中精确的频繁闭项集.对于第一个窗口中的数据,FPCFI-DS算法采用单遍过程FPCFI进行挖掘,挖掘结果被保存于一棵全局闭项集树GCT中.当窗口向前滑动时,FPCFI-DS算法采用更新挖掘方式快速挖掘出当前窗口中的频繁闭项集.实验结果表明,FPCFI-DS算法的空间效率和时间效率都显著优于同类经典算法Moment.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号