首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 640 毫秒
1.
近邻传播算法(AP)不需要事先指定聚类数目,在程序运行过程中,能够自动识别聚类中心及聚类数目。在同一批数据集上,AP算法聚类结果稳定,鲁棒性好。除此之外,AP聚类算法可以采用多种距离度量方式,聚类结果精确。针对近邻传播算法(AP)不能对异构数据进行聚类的问题,提出一种基于张量距离的高阶AP聚类算法。该算法首先利用张量表示异构数据对象,然后将张量距离引入AP聚类算法,用来度量异构数据对象在张量空间的相似度。张量距离的引入,不但能够度量异构数据对象在数值上的差异,同时能够度量异构数据对象在高阶空间中位置的差异性,有效的捕捉异构数据对象的分布特征。实验结果表示,提出的高阶AP算法能够有效的对异构数据对象进行聚类。  相似文献   

2.
针对现有轨迹聚类算法中对轨迹之间的时空关联性考虑不足以及全局唯一距离阈值带来的算法的时空复杂度高以及聚类精度低的问题,提出了一种基于轨迹间时空关联性的数据聚类算法(The Data Clustering Algorithm Based on Spatio-temporal Correlation between Trajectories,DSCBT)。该方法主要包含两个阶段,在第一阶段中,首先根据最短停留时间限制和半径r确定初始中心代表点,然后将所在簇的最大距离作为该初始中心代表点对应的半径R,最后根据最短移动时间约束合并相邻的初始中心代表点并调整半径R,得到中心代表点集。第二阶段主要处理新增轨迹数据,首先将轨迹点与中心代表点集进行匹配,删除匹配成功的点产生新轨迹,然后对有聚类价值的新增轨迹执行第一阶段的操作,最后更新中心点集并完成聚类。实验结果表明,该算法能够有效降低算法的时间复杂度并提高聚类精度。  相似文献   

3.
在研究零售户聚类分析中,传统的k中心聚类方法,计算成本过大,无法有效应用子大数据集.提出了零售户聚类方法,继承CLARANS算法迭代思想,采用全局随机抽样技术,将算法应用于大型空间数据集,通过多次迭代尽量寻求最优聚类结果.聚类结果的评价标准为基于最短主干道距离(SARD)的总距离.该聚类算法是在CLARANS算法的基础上进行改进,使其能够处理带地理信息的数据对象,且聚类结果满足需求约束条件限制.  相似文献   

4.
针对待聚类的数据对象的对称性,提出了一种基于对称点距离的蚂蚁聚类算法.该算法不再采用Euclidean距离来计算类内对象的相似性,而是使用新的对称点距离来计算相似性.实验结果表明:与标准的蚂蚁聚类算法相比,该算法在处理带有对称性质的数据集时,可以更好的识别数据集的聚类数目和划分.  相似文献   

5.
轨迹数据的发布能够为政府部门进行城市规划或商业机构进行决策制定提供有力支持,但存在着严重的隐私泄露风险。在现有的基于差分隐私机制的轨迹发布技术基础上,提出以TFIDF统计值作为参考指标的AC_TFIDF算法。该算法符合差分隐私的定义并能够动态确定轨迹中不同时刻的泛化程度;在泛化过程中,用距离聚类中心最近的有效点替换聚类中心,进一步提高发布数据的可用性。通过在真实数据集上的验证与分析,表明了该算法具有较好的效用性。  相似文献   

6.
为了提高数据挖掘的聚类准确度,提出了一种基于菌群优化的K均值(K-means)聚类算法。采用K均值算法建立数据聚类模型。根据聚类类别数设定多个聚类中心坐标。设定所属类别距离阈值,然后计算待聚类点和所有中心点距离来划分该聚类点的类别。根据参与聚类各节点和各自中心点的距离值建立适应度函数。引入菌群优化算法对K均值聚类过程进行优化。通过细菌的多次驱散、复制和趋化操作,不断提高数据聚类的适应度,直到达到最大操作次数或者最低聚类精确度阈值,获得稳定的数据聚类挖掘算法。实验证明,通过合理设置驱散和趋化次数,微调菌群算法的引力和斥力参数,能够获得较好的聚类性能。分别采用K均值和该文基于菌群优化的K均值聚类算法对6个不同数据集进行聚类仿真。该文算法对所有数据集的平均聚类准确率都高于92%。针对UCI混合数据集,当聚类达到稳定时,该文算法的聚类标准差明显优于K均值聚类算法;而且该文算法对5 000个混合样本完成聚类消耗的时间约70 s,K均值聚类算法约需93 s。  相似文献   

7.
一种基于密度的聚类算法实现   总被引:1,自引:0,他引:1  
基于密度的聚类算法OPTICS是一种大规模数据库的聚类算法,它是基于核心对象和可达距离来实现的.对于每一个核心对象将其邻域内的所有对象按到该核心对象的可达距离进行排序,每次都选择1个到该核心对象具有最小的可达距离的对象进行信息更新.算法实现采用优先队列保存候选对象以加快处理速度,最后用UCI数据集对算法进行聚类效果测试,结果表明OPTICS算法对数据集产生一个基于密度的簇排序结构.  相似文献   

8.
谱聚类是一种基于图谱划分理论的聚类算法,本质上是将聚类问题转化为图的最优划分问题;量子聚类可以充分挖掘数据样本的内在信息,是一种基于划分的无监督聚类算法.为了充分发挥谱聚类算法和量子聚类算法的优势,本文提出了一种基于流形距离核的谱聚类和量子聚类融合算法(MFD-NJW-QC).首先,计算数据集的流形距离核矩阵,构造相应的拉普拉斯矩阵;其次,根据拉普拉斯矩阵的若干最大特征值对应的特征向量构造新数据集,并使用量子聚类算法对新构造的数据集进行聚类,从而得到原始数据的类标签;最后,基于7个人工数据集和5个UCI数据集验证MFD-NJW-QC算法的聚类性能.结果显示,MFD-NJW-QC算法能够明显提高聚类性能,尤其对于具有流形结构,且类簇大小不平衡、密度分布不均匀的数据集优势更为突出.  相似文献   

9.
K-prototypes算法是处理混合数据的主要聚类算法,大部分针对混合型数据的聚类算法都是选择数据集中的一部分数据作为聚类对象,而忽略了这类数据的特殊性与整体性,为了改进了数据的距离衡量,文中提出了一种新的聚类方法,该方法采用信息熵作为属性的权值,进行高精度和更加稳定的聚类,最后通过Matlab编程实现,采用uci数据集中credit等数据集进行仿真实验,证明改进算法是正确和有效的.  相似文献   

10.
一种基于距离的聚类和孤立点检测算法   总被引:2,自引:0,他引:2  
提出了一种基于距离的聚类和孤立点检测算法(DBCOD),根据距离阈值对数据点进行聚类,在聚类过程中记录每个数据点的密度,并根据密度阈值确定数据点是否为孤立点.实验结果表明,该算法不仅能够对数据集进行正确的聚类,可以发现任意形状的聚类,算法执行效率优于DBSCAN,具有对噪音数据、数据输入顺序不敏感等优点,同时还能有效地进行孤立点检测.  相似文献   

11.
传统K-means聚类算法通过欧式距离计算样本的相似度,将数据所有的属性特征均平等对待,忽略每个属性特征的不同贡献,导致样本相似度计算的准确率不高。针对这个不足,提出一种特征加权的K-means算法进行优化。首先,运用Softmax和Sigmoid逻辑回归函数计算特征权重,使得加权的欧式距离更能准确地表示样本相似度;其次,优化初始聚类中心选择策略,选择距离较大的K个样本作为初始聚类中心,可有效避免样本的错误聚类及空簇问题。实验结果表明,在UCI标准数据集中采用加权K-means聚类算法可以有效减少迭代次数,提高聚类的准确率、精确率和召回率。  相似文献   

12.
 为了解决申贷信用等级评价问题,介绍了解决银行申请贷款信用等级评价中聚类分析采用的基本概念及术语,提出了2种聚类算法包括基于信贷数据的聚类算法δ-kmeans;基于高维信贷数据的聚类算法ASC,并通过实验对其性能进行比较分析,实验表明:①δ-kmeans算法在信贷风险的控制上取得较好效果;②相比传统k-means和Coweb算法,ASC算法在聚类高维信贷数据上更加有效.利用k-means算法对银行信贷数据的聚类动力学关系进行分析.最后,给出了聚类分析算法在银行信贷领域应用的的难点.  相似文献   

13.
为了在多维聚类分析中运用有效距离度量方法表征数据对象的邻近度,提出一种协方差测距(covariance distance measure analysis,CDM)算法,首先,采用模糊C均值(fuzzy c-means,FCM)方法对数据对象赋予权值,得到每个样本点相对类别特征的隶属度,再依据隶属度计算每个样本的差异度;其次,为了使类别分离最大化,用样本点同关联类别的协方差距离度量代替模糊聚类中欧式距离度量作为优化问题的第一个标准,使相似数据对象更为接近;最后,用样本点间的协方差距离度量作为第二个优化标准,使相异数据相互隔开,交替固定变量迭代计算最优解,使聚类指标和距离度量学习参数同时得到优化,获得更好的聚类结果。在不同数据集上的实验结果表明,与FCM-Sig和UNCA算法相比,CDM算法在聚类准确性和算法收敛性方面均有更好表现。  相似文献   

14.
为了解决大多数的轨迹简化算法缺乏对轨迹多个特征的综合衡量的问题,提出了一种融合位置、方向、速度与时序等多个轨迹特征,基于阈值引导采样的船舶轨迹简化算法。该算法以角度阈值法思想为基础,计算轨迹点的前后多个特征差,与设置的阈值进行对比,进而实现对轨迹的简化。利用船舶AIS轨迹数据对该算法进行轨迹简化和轨迹聚类实验。实验结果表明,该轨迹简化算法在简化率、简化误差率上均优于角度阈值算法,能保留原始轨迹的形状,并且简化后的轨迹数据能运用于轨迹聚类,聚类效果良好。  相似文献   

15.
一种基于层次聚类的流数据挖掘方法   总被引:1,自引:0,他引:1  
流数据的特点在于数据流快速、有序地到达,并且数据海量,许多应用领域中生成的数据都可以归结为此类型.数据挖掘技术可以从海量的数据中发现有意义的知识模型,传统的数据挖掘算法通常是针对静态数据集,对流数据却无法有效地处理.文章试图从层次聚类角度处理流数据,并探讨了一种基于最小代价函数的层次聚类算法.  相似文献   

16.
作为大数据的重要组成,产生于传感器、移动电话设备、社交网络等的不确定流数据因其具有流速可变、规模宏大、单遍扫描及不确定性等特点,传统聚类算法不能满足用户高效实时的查询要求.首先利用MBR(minimum bounding rectangle)描述不确定元组的分布特性,并提出一种基于期望距离的不确定数据流聚类算法,计算期望距离范围的上下界剪枝距离较远的簇以减少计算量;其次针对簇内元组的分布特征提出了簇MBR的概念,提出一种基于空间位置关系的聚类算法,根据不确定元组MBR和簇MBR的空间位置关系排除距离不确定元组较远的簇,从而提高聚类算法效率;最后在合成数据集和真实数据集进行实验,结果验证了所提出算法的有效性和高效性.  相似文献   

17.
The k-means clustering algorithm is one of the most commonly used algorithms for clustering analysis. The traditional k-means algorithm is, however, inefficient while working on large numbers of data sets and improving the algorithm efficiency remains a problem. This paper focuses on the efficiency issues of cluster algorithms. A refined initial cluster centers method is designed to reduce the number of iterative procedures in the algorithm. A parallel k-means algorithm is also studied for the problem of the operation limitation of a single processor machine when given huge data sets. The analytical results demonstrate that these improvements can greatly enhance the efficiency of the k-means algorithm, i.e., allow the grouping of a large number of data sets more accurately and more quickly. The analysis has theoretical and practical importance for work on the improvement and parallelism of cluster algorithms.  相似文献   

18.
谱聚类算法建立在谱图划分理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。然而,谱聚类算法涉及如何选取合适的尺度参数σ构造相似度矩阵的问题。并且,在处理大规模数据集时,聚类的过程需要较大的时间和内存开销。研究从构造相似度矩阵入手,以传统NJW算法为基础,提出一种基于K近邻的自适应谱聚类快速算法FA-SC。该算法能自动确定尺度参数σ;同时,对输入数据集分块处理,并用基于K近邻的稀疏相似度矩阵保存样本信息,减少计算的内存开销,提高了运行速度。通过实验,与传统谱聚类算法比较,FA-SC算法在人工数据集和UCI数据集上能够取得更好的聚类效果。  相似文献   

19.
Clustering categorical data, an integral part of data mining, has attracted much attention recently. In this paper, the authors formally define the categorical data clustering problem as an optimization problem from the viewpoint of cluster ensemble, and apply cluster ensemble approach for clustering categorical data. Experimental results on real datasets show that better clustering accuracy can be obtained by comparing with existing categorical data clustering algorithms.  相似文献   

20.
面向室内空间的移动轨迹聚类有利于发现室内热点和用户移动模式.针对室内环境在定位技术、距离度量等方面的特殊性,充分考虑室内移动轨迹的空间和语义特征,提出一种基于无线射频识别(radio frequency identi-fication,RFID)位置语义的室内移动轨迹聚类方法.该方法对原始轨迹提取特征点,可简化轨迹以降低算法时间复杂度;从空间形状和位置语义2个方面加权计算轨迹相似度,其中,空间相似度通过定义适用于室内三维空间的距离函数来计算,语义相似度计算基于最长公共子序列思想,并引入移动对象在轨迹点的到达时间和停留时间;利用线性表存储轨迹相似度,采用改进的层次聚类方法对移动轨迹进行聚类.实验结果表明,该方法能够有效地进行室内轨迹聚类并具有较高的效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号