首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 734 毫秒
1.
近邻传播(Affinity Propagation,AP)聚类是基于数据点间消息传递的算法,主要通过数据间的相似度实现聚类.与传统的聚类方法相比,AP聚类无需事先给定聚类数目就可实现聚类,因此具有快速高效的优点,然而在处理高维复杂数据集时存在随着聚类效率提升而准确度不高的问题.为改善AP聚类算法的效率和精度,提出基于类内和类间距离的粗粒度并行AP聚类算法——IOCAP.首先引入粒度思想将初始数据集划分成多个子集;其次对各子集结合类内和类间距离进行相似度矩阵的改进计算,最后基于MapReduce模型实现改进后的并行AP聚类.在真实数据集上的实验表明,IOCAP算法在大数据集上有较好的适应性,能在保持AP聚类效果的同时有效地提升算法精度.  相似文献   

2.
近邻传播算法(AP)不需要事先指定聚类数目,在程序运行过程中,能够自动识别聚类中心及聚类数目。在同一批数据集上,AP算法聚类结果稳定,鲁棒性好。除此之外,AP聚类算法可以采用多种距离度量方式,聚类结果精确。针对近邻传播算法(AP)不能对异构数据进行聚类的问题,提出一种基于张量距离的高阶AP聚类算法。该算法首先利用张量表示异构数据对象,然后将张量距离引入AP聚类算法,用来度量异构数据对象在张量空间的相似度。张量距离的引入,不但能够度量异构数据对象在数值上的差异,同时能够度量异构数据对象在高阶空间中位置的差异性,有效的捕捉异构数据对象的分布特征。实验结果表示,提出的高阶AP算法能够有效的对异构数据对象进行聚类。  相似文献   

3.
提出基于KNN(K-Nearest Neighbor)的船舶轨迹分类算法:对轨迹间平均距离、航速距离及航向距离进行融合,构成船舶轨迹间综合距离;通过船舶轨迹初步聚类,得到KNN分类样本轨迹;将综合距离作为KNN分类中轨迹间的距离,最终实现船舶轨迹分类.以长江航道武汉段2017年5月的船舶AIS数据为基础,开展基于轨迹间平均距离、豪斯托夫(Hausdorff)距离以及综合距离的船舶轨迹分类验证.结果表明:轨迹点较多时,轨迹间平均距离较Hausdorff距离具有更好的适用性,且基于KNN的分类方法具有较好的实验结果,可有效应用于实际船舶轨迹分类中.  相似文献   

4.
传统近邻传播聚类算法(affinity propagation,AP)的偏向参数与数据集相关,若不根据数据集作优化,将导致算法聚类精度低。为此提出一种量子近邻传播聚类算法,首先用量子叠加态编码偏向参数,再用量子旋转门搜索量子叠加态,找出近优的偏向参数供AP算法聚类,达到自适应优化AP偏向参数的目的。在UCI数据集上的实验结果表明,本文提出的算法聚类精度比同类算法更优,计算时间和迭代次数亦优于传统AP算法,引入量子计算优化近邻传播聚类算法的思路是可行的。  相似文献   

5.
一种基于网格的层次聚类算法   总被引:1,自引:0,他引:1  
传统的凝聚层次聚类算法的时间复杂度为O(n3),由于时间复杂度太高而无法应用到大的数据集.针对这一问题,提出了一种新的基于网格的层次聚类算法,先用基于网格的方法进行一次微聚类,然后再用凝聚的层次聚类算法进行聚类.在进行凝聚的层次聚类时,提出了一种新的簇间距离度量方法,该方法采用簇中权值最高的代表点的最小距离作为簇间的距离.理论分析和实验结果表明,基于网格的层次聚类算法比传统的凝聚层次算法具有更高的效率和正确性.  相似文献   

6.
提出了一种基于多层次聚类的算法,此算法相对传统算法降低了空间和时间复杂度,并减少了对参数的敏感度,适合处理大规模数据集.该算法包括粗分、代表点聚类和细分三个阶段.首先,利用亲和传播聚类(AP)算法对所有数据进行粗分,为了节省空间和时间,仅考虑每个点和离自己最近的t个近邻之间的相似度,所以构造的相似度矩阵远远小于原始AP算法所构造的相似度矩阵;其次,为了进一步提高效率和性能,在第二阶段采用密度峰值算法(FDP)对上一阶段所得结果进行再划分;最后,结合两个阶段划分的结果得到所有数据的划分.实验表明:所提算法可以快速准确地进行图像分割,和经典聚类算法FCM(模糊C均值)、Kmeans以及SOM(自组织映射)的对比实验也证明了所提算法的有效性.  相似文献   

7.
面向室内空间的移动轨迹聚类有利于发现室内热点和用户移动模式.针对室内环境在定位技术、距离度量等方面的特殊性,充分考虑室内移动轨迹的空间和语义特征,提出一种基于无线射频识别(radio frequency identi-fication,RFID)位置语义的室内移动轨迹聚类方法.该方法对原始轨迹提取特征点,可简化轨迹以降低算法时间复杂度;从空间形状和位置语义2个方面加权计算轨迹相似度,其中,空间相似度通过定义适用于室内三维空间的距离函数来计算,语义相似度计算基于最长公共子序列思想,并引入移动对象在轨迹点的到达时间和停留时间;利用线性表存储轨迹相似度,采用改进的层次聚类方法对移动轨迹进行聚类.实验结果表明,该方法能够有效地进行室内轨迹聚类并具有较高的效率.  相似文献   

8.
在借鉴空间数据挖掘技术的基础上,定义了移动对象轨迹之间的时态距离和平均距离,提出了标准差法和置信区间法两种轨迹聚类算法。两种方法能够找出所有具有相似轨迹的对象对,在不同距离采样点数的基础上配合使用两种方法能够明显降低轨迹聚类算法的时间复杂度。基于标准差法和置信区间法的轨迹聚类算法在仿真数据集和真实数据集进行了验证。表明两种方法能够为其他轨迹聚类算法进行数据筛选,筛选后的数据量将大大减少,从而可提高算法效率。  相似文献   

9.
梁卓灵  元昌安  覃晓 《广西科学》2020,27(6):616-621
为改善交通拥堵的情况,本文利用聚类分析方法对移动轨迹数据进行挖掘,识别居民出行的热点区域。传统的Ng-Jordan-Weiss (NJW)谱聚类算法常使用K-means聚类算法来实现最后的聚类操作,然而K-means聚类算法存在对初始值敏感、容易陷入局部最优的缺陷,影响对热点区域的挖掘结果。因此,本研究将方差优化初始中心的K-medoids聚类算法运用到谱聚类算法最后聚类阶段,提出基于方差优化谱聚类的热点区域挖掘算法(Hot Region Mining algorithm based on improved K-medoids Spectral Clustering,HRM-KSC),然后在真实的轨迹数据集上进行试验。试验结果发现,HRM-KSC算法聚类结果的轮廓系数更高,表明HRM-KSC算法改善了NJW谱聚类算法,提高了聚类质量。  相似文献   

10.
提出一种新的稀疏谱聚类算法——基于PAM算法的HSSPAM聚类(high-dimensional sparse spectral clustering based on partitioning around medoids).该算法先用高相关系数过滤及主成分分析降维方法以有效减小甚至消除维度灾难对高维数据处理的影响,再采用Minkowski距离指数变换函数及稀疏化算法来构建分块对角矩阵以重新解释样本之间的相似度;然后构造新颖的拉普拉斯矩阵以实现进一步压缩数据矩阵,进而结合partitioning around medoids(PAM)算法取代传统谱聚类中的K-means算法对特征向量聚类以提高算法的聚类稳定性;最后引入高维基因数据设计了实验,并以不同的聚类评价指标来衡量该研究算法的聚类质量,实验结果表明,新算法能够更精确、更稳定地对基因数据聚类.  相似文献   

11.
针对传统的基于距离/相关系数的相似性度量方法无法有效度量基因间的时延表达特性,为了更加准确地刻画基因间的共调控关系,提出一种基于动态时间弯曲距离(DTW)的相似性度量方法,并结合可指定类数的仿射传播聚类算法进行聚类.将该算法用于人工合成数据和真实的酵母基因数据集,实验结果表明,相对于其它经典聚类算法,本文所提算法能得到更好的聚类结果.  相似文献   

12.
针对近邻传播(Affinity Propagation,简称AP)算法在对非团状数据集聚类过程中出现的局部聚类较多、精准度不高等问题,提出了一种基于改进AP算法的聚类质量评价模型.首先,在AP算法初步聚类的基础上,通过合并相似度较大的簇,减小聚类上限值k_(max),进一步压缩聚类区间范围;其次,给出一个新的内部评价指标,用分属不同簇的样本对的平均距离代表簇间距离,削弱噪声数据的影响,平衡簇间分离度与簇内紧致度的关系.在UCI和KDD CUP99数据集上的实验结果表明,新模型可以给出精准的最优聚类数(范围),能够在保持较低漏报率的同时,有效提高样本的检测率和分类正确率.  相似文献   

13.
为解决传统模糊聚类迭代算法对初始化敏感,易陷入局部最优及处理高维数据时精度下降的问题,对基于马氏距离的模糊聚类算法(fuzzy c-means algorithm based on Mahalanobis distance,M-FCM)进行优化。将马氏距离代替欧氏距离,通过构造类内紧致度、类间分离度与类间清晰度结合的适应度函数,利用粒子群优化算法(particle swarm optimization,PSO)对马氏距离模糊聚类进行研究,提出了基于粒子群优化的马氏距离模糊聚类算法(Mahalanobis distance fuzzy clustering algorithm based on particle swarm optimization,DPSOM-FCM),并将此新算法与FCM(fuzzy c-means algorithm),M-FCM,PSO-FCM,IFPSOFCM(importance for fuzzy clustering algorithm based on particle swarm optimization)算法,在UCI(university of californiairvine)数据库的6个标准数据集上进行实验对比分析。结果表明,DPSOM-FCM算法具有算法收敛性和聚类有效性,并且聚类精确度优于其他算法,对高维数据的聚类识别能力强,即该算法具有全局优化作用。  相似文献   

14.
本文面向出行GPS轨迹中停驻点的识别问题,提出一种基于最小覆盖圆的时空聚类方法。使用停驻范围阈值对轨迹点进行聚类,使用停驻时间阈值对聚类类簇进行初步过滤,使用类簇近邻距离与类簇近邻时间两个阈值对预过滤类簇进行合并,继而使用停驻时间阈值进行最终过滤得到停驻时段与停驻点。该算法改进了已有时空聚类算法中初始类簇的确定方法,提高了计算效率。由于现有的查全率与查准率无法准确衡量停驻点识别结果的精度,基于停驻时段精确度对查全率与查准率计算计算方法进行修改。使用包含9 923个轨迹点的轨迹进行算法有效性检验,轨迹中包含的三个停驻时段均得到有效识别,查准率与查全率均为0.82,实验结果表明,该算法在轨迹重合度高以及轨迹漂移等情形下具有较高的准确性。  相似文献   

15.
为了解决大多数的轨迹简化算法缺乏对轨迹多个特征的综合衡量的问题,提出了一种融合位置、方向、速度与时序等多个轨迹特征,基于阈值引导采样的船舶轨迹简化算法。该算法以角度阈值法思想为基础,计算轨迹点的前后多个特征差,与设置的阈值进行对比,进而实现对轨迹的简化。利用船舶AIS轨迹数据对该算法进行轨迹简化和轨迹聚类实验。实验结果表明,该轨迹简化算法在简化率、简化误差率上均优于角度阈值算法,能保留原始轨迹的形状,并且简化后的轨迹数据能运用于轨迹聚类,聚类效果良好。  相似文献   

16.
谱聚类是一种基于图谱划分理论的聚类算法,本质上是将聚类问题转化为图的最优划分问题;量子聚类可以充分挖掘数据样本的内在信息,是一种基于划分的无监督聚类算法.为了充分发挥谱聚类算法和量子聚类算法的优势,本文提出了一种基于流形距离核的谱聚类和量子聚类融合算法(MFD-NJW-QC).首先,计算数据集的流形距离核矩阵,构造相应的拉普拉斯矩阵;其次,根据拉普拉斯矩阵的若干最大特征值对应的特征向量构造新数据集,并使用量子聚类算法对新构造的数据集进行聚类,从而得到原始数据的类标签;最后,基于7个人工数据集和5个UCI数据集验证MFD-NJW-QC算法的聚类性能.结果显示,MFD-NJW-QC算法能够明显提高聚类性能,尤其对于具有流形结构,且类簇大小不平衡、密度分布不均匀的数据集优势更为突出.  相似文献   

17.
谱聚类算法建立在谱图划分理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。然而,谱聚类算法涉及如何选取合适的尺度参数σ构造相似度矩阵的问题。并且,在处理大规模数据集时,聚类的过程需要较大的时间和内存开销。研究从构造相似度矩阵入手,以传统NJW算法为基础,提出一种基于K近邻的自适应谱聚类快速算法FA-SC。该算法能自动确定尺度参数σ;同时,对输入数据集分块处理,并用基于K近邻的稀疏相似度矩阵保存样本信息,减少计算的内存开销,提高了运行速度。通过实验,与传统谱聚类算法比较,FA-SC算法在人工数据集和UCI数据集上能够取得更好的聚类效果。  相似文献   

18.
图之间的距离度量一直是研究的难点之一。文中提出了一种基于图谱归一化编辑距离的聚类方法。首先利用图的谱方法实现图中点的排序,再用串编辑距离进行两图之间的相似性度量,以此距离构成的不相似矩阵,应用基于矩阵理论的聚类算法实现序列图的聚类研究。考虑到图中点的多少差异,给出归一化串编辑距离的方法解决长短谱序列间距离差异误差问题。实验表明,基于图谱归一化编辑距离的聚类方法是有效的。  相似文献   

19.
针对一致聚类算法中聚类数目判断不准确、聚类速度慢等问题,通过集成复杂网络中的Newman贪婪算法与谱聚类算法,提出了一种新的基于Minkowski距离的一致聚类算法.该算法利用Minkowski距离刻画样本间的相似度,根据随机游走策略,结合不同数据的特征值分布分析方法进行聚类,实现聚类数目的自动识别.实验仿真说明算法具有较少的运算时间及较高的聚类精度.结合实际铜矿泡沫浮选过程特点,将该算法应用于浮选工况分类,进一步验证了算法的有效性.  相似文献   

20.
传统K-means 算法对于聚类初始点的选取和距离度量的计算异常敏感,因而很可能导致K-means 算法只能收敛得到局部最优解。为此,提出一种改进的K-means 算法,即K-means 聚类算法最优匹配算法,并进行了相关的算法实验分析。该改进算法首先对传统的K-means 聚类算法进行初始点的选取,并分析聚类结果。然后,分别从初始聚类中心的选择和距离算法的确定进行实验测试,引入轮廓系数评价聚类效果,分析实验结果可知,K-means 聚类算法最优匹配算法具有较好的稳定性和较高的聚类准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号