首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
提出了一种基于多层次聚类的算法,此算法相对传统算法降低了空间和时间复杂度,并减少了对参数的敏感度,适合处理大规模数据集.该算法包括粗分、代表点聚类和细分三个阶段.首先,利用亲和传播聚类(AP)算法对所有数据进行粗分,为了节省空间和时间,仅考虑每个点和离自己最近的t个近邻之间的相似度,所以构造的相似度矩阵远远小于原始AP算法所构造的相似度矩阵;其次,为了进一步提高效率和性能,在第二阶段采用密度峰值算法(FDP)对上一阶段所得结果进行再划分;最后,结合两个阶段划分的结果得到所有数据的划分.实验表明:所提算法可以快速准确地进行图像分割,和经典聚类算法FCM(模糊C均值)、Kmeans以及SOM(自组织映射)的对比实验也证明了所提算法的有效性.  相似文献   

2.
谱聚类算法建立在谱图划分理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。然而,谱聚类算法涉及如何选取合适的尺度参数σ构造相似度矩阵的问题。并且,在处理大规模数据集时,聚类的过程需要较大的时间和内存开销。研究从构造相似度矩阵入手,以传统NJW算法为基础,提出一种基于K近邻的自适应谱聚类快速算法FA-SC。该算法能自动确定尺度参数σ;同时,对输入数据集分块处理,并用基于K近邻的稀疏相似度矩阵保存样本信息,减少计算的内存开销,提高了运行速度。通过实验,与传统谱聚类算法比较,FA-SC算法在人工数据集和UCI数据集上能够取得更好的聚类效果。  相似文献   

3.
为了提高文本聚类的性能,采用近邻传播(Affinity propagation, AP)算法进行文本聚类,并采用知识图谱进行样本预分析,以提高AP的文本聚类适用度。采用知识图谱进行样本预处理,对待聚类的文本进行知识图谱三元分析,并生成对应概念、实体和关系的样本集合;建立AP文本聚类模型,并通过差分进化(Differential evolution, DE)算法优化偏向参数;利用DE算法求解的最优个体的偏向参数进行AP聚类运算,不断更新AP算法的决策和潜力阵,从而获得稳定的聚类结果。试验结果表明,经过知识图谱分析之后,通过合理设置DE算法的差分缩放因子和交叉速率,DE-AP算法能够获得更优的聚类准确度,且聚类准确度的均方根误差(Root mean squared error, RMSE)值更低;和常用文本聚类算法相比,该文算法获得了更高的聚类准确度。  相似文献   

4.
近邻传播(Affinity Propagation,AP)聚类是基于数据点间消息传递的算法,主要通过数据间的相似度实现聚类.与传统的聚类方法相比,AP聚类无需事先给定聚类数目就可实现聚类,因此具有快速高效的优点,然而在处理高维复杂数据集时存在随着聚类效率提升而准确度不高的问题.为改善AP聚类算法的效率和精度,提出基于类内和类间距离的粗粒度并行AP聚类算法——IOCAP.首先引入粒度思想将初始数据集划分成多个子集;其次对各子集结合类内和类间距离进行相似度矩阵的改进计算,最后基于MapReduce模型实现改进后的并行AP聚类.在真实数据集上的实验表明,IOCAP算法在大数据集上有较好的适应性,能在保持AP聚类效果的同时有效地提升算法精度.  相似文献   

5.
传统近邻传播聚类算法(affinity propagation,AP)的偏向参数与数据集相关,若不根据数据集作优化,将导致算法聚类精度低。为此提出一种量子近邻传播聚类算法,首先用量子叠加态编码偏向参数,再用量子旋转门搜索量子叠加态,找出近优的偏向参数供AP算法聚类,达到自适应优化AP偏向参数的目的。在UCI数据集上的实验结果表明,本文提出的算法聚类精度比同类算法更优,计算时间和迭代次数亦优于传统AP算法,引入量子计算优化近邻传播聚类算法的思路是可行的。  相似文献   

6.
根据竞争情报分析需要,会产生不同竞争情报分析模型,这些分析模型的构造大多建立在竞争情报数据的聚类统计之上。提出采用改进的近邻传播(Affinity propagation, AP)聚类算法实现大规模竞争情报数据聚类统计。根据竞争情报数据样本建立相似矩阵,初始化偏向参数;通过布谷鸟搜索优化偏向参数,将偏向参数作为布谷鸟巢进行训练,设置轮廓指标值作为布谷鸟算法适应度函数;通过鸟巢位置更新优化后的偏向参数进行AP聚类运算,不断更新AP算法的决策和潜力阵;最终获得稳定的聚类结果。试验证明,通过合理设置布谷鸟宿主发现概率、移动步长和AP算法阻尼因子等参数,能够获得较好的聚类效果。相比常用竞争情报聚类算法,所提改进AP聚类算法能够获得更高的轮廓指标值和最短的欧式距离性能,在竞争情报数据分析统计中的适用度高。  相似文献   

7.
基于改进ROCK算法的个性化推荐系统研究   总被引:1,自引:1,他引:0  
王荣  王飞戈  吴坤芳 《河南科学》2011,29(11):1346-1349
分析了ROCK算法的优点和缺点,ROCK算法优点是容易聚类Mushroom等分类属性数据集;缺点是这种算法的相似度函式sim是基于领域专家的直觉.改进的ROCK算法采用Jaccard系数计算相似度,根据相似度的值越大表示对象越相似进行聚类,得到聚类结果,从而实现用户的个性化推荐.  相似文献   

8.
提出了一种基于流形分析与近邻传播(AP)算法的径向基函数(RBF)神经网络分类算法.通过流形分析算法对数据集进行初步处理,然后通过指数函数调整相似度矩阵,再重新进行AP聚类,在此基础上构造RBF神经网络分类器,通过拟合正确率来判断算法是否收敛,并对分类结果运用FMI指标进行评价.实验结果表明:改进算法中RBF网络隐节点数普遍得到增加,使得RBF神经网络拟合精度得以提高;从分类结果可以看出该算法对训练数据集都获得了很好的拟合正确率,对测试数据集也获得了较高的测试正确率.  相似文献   

9.
分析了输入参数对算法聚类效果的影响,针对传统的蚁群聚类算法中参数设置依赖于经验的指导以及蚂蚁移动随机性大等问题,提出了一种改进的自适应蚁群聚类算法,算法中引入了自适应策略函数,通过设置相似度阈值,动态调整蚂蚁的运动状态,降低蚂蚁移动的随机性.将改进算法应用于客户细分,并将结果与K均值聚类算法进行了比较,实验结果表明:改进后的算法在迭代次数上更少,算法的收敛速度更快,识别客户的正确率更高.  相似文献   

10.
针对传统吸引子传播算法(AP)聚类性能受偏向参数影响较大的问题, 提出一种改进的吸引子传播算法, 即基于稳定阈值的吸引子传播聚类算法(STAP). 该算法通过稳定阈值, 衡量获得真实类数时的收敛状态, 然后捕捉该状态下的偏向参数; 为加快算法的收敛速度, 采用S型函数作为收敛因子调节阻尼系数. 仿真模拟实验结果表明, 与传统吸引子传播聚类算法相比, 基于稳定阈值的吸引子传播聚类算法聚类精度更高, 收敛速度更快.  相似文献   

11.
为了克服谱聚类算法SDcut在计算相似度矩阵和拉普拉斯矩阵的特征值和特征向量时,比较耗时的缺点,提出了融合Nystrm方法的SDcut算法NSDcut,并应用于图像分割.该算法采用Nystrm方法构建相似度矩阵和计算相似度矩阵的特征向量,并用这些特征向量通过矩阵运算降低了SDcut算法中的相似度矩阵和拉普拉斯矩阵的阶,从而降低SDcut算法的时间复杂度.实验结果表明:NSDcut算法提高了SDcut算法的运行速度,同时也具有SDcut算法的聚类性能.  相似文献   

12.
为了克服谱聚类算法SDcut在计算相似度矩阵和拉普拉斯矩阵的特征值和特征向量时,比较耗时的缺点,提出了融合Nystr(o)m方法的SDcut算法NSDcut,并应用于图像分割.该算法采用Nystr(o)m方法构建相似度矩阵和计算相似度矩阵的特征向量,并用这些特征向量通过矩阵运算降低了SDcut算法中的相似度矩阵和拉普拉斯矩阵的阶,从而降低SDcut算法的时间复杂度.实验结果表明:NSDcut算法提高了SDcut算法的运行速度,同时也具有SDcut算法的聚类性能.  相似文献   

13.
【目的】研究评价问题中评价对象因个体差异性的聚类问题。【方法】首先引入夹角余弦刻画评价对象个体间倾向性上的差异大小,其次利用余弦相似度与欧式距离刻画评价对象的总体相似度,对Tzortzis和Likas提出的min-max K-means聚类算法进行改进。【结果】利用某高校参与评价教师的指标数据集进行初步的数值实验,证明了改进K-means算法的有效性。【结论】余弦相似度刻画考核对象的偏向性差异,很好的克服了欧式距离只考虑数值绝对值上的差异,具有重要的现实意义。  相似文献   

14.
基于局部线性嵌入的半监督仿射传播聚类算法   总被引:1,自引:0,他引:1  
针对运用半监督仿射传播聚类算法处理高维数据时聚类精度低和计算量大的问题,提出一种基于局部线性嵌入的半监督仿射传播聚类算法.该算法首先通过LLE算法将高维输入数据集映射到低维空间得到低维数据集,计算低维数据集的相似度矩阵,再用半监督算法调整相似度矩阵,最后用仿射传播聚类算法对低维数据进行聚类分析.仿真结果表明,本文提出的算法与半监督仿射传播聚类算法相比,在处理高维数据时聚类效果更好,精度更高,迭代次数更少.  相似文献   

15.
针对传统模糊聚类算法需要预先确定初始隶属度矩阵的问题,该文提出了基于增量式模糊聚类算法(Incremental fuzzy clustering algorithm, FCLDA)的文本挖掘方法。首先根据文本集中关键词出现次数进行排序,优先选择出现次数多的关键词作为文本集的主题,然后利用隐含狄利克雷分布(Latent Dirichlet allocation, LDA)主题模型构建文档-主题概率分布组成矩阵,将该矩阵作模糊C均值聚类(FCM)算法的隶属度矩阵,并对隶属度矩阵的隶属度值增加一个权值,在FCLDA算法迭代过程中,采用模糊信息熵作为聚类数确定的标准,增加主题词,当模糊信息熵达到最小值时,聚类数确定下来,最后将FCLDA算法应用到网页的文本挖掘中,结果试验表明,相对于FCM算法和K最近邻(K-nearest neighbor)算法,FCLDA算法的运行聚类结果准确率更高,运行速度加快,更适合处理具有模糊性的文本。  相似文献   

16.
为解决群智采集的指纹数据量较大且分布状况复杂的问题,提出了一种基于AP聚类算法的指纹库建立及优化算法.通过AP聚类算法将位置接近且相似度较高的指纹聚成一类,相较于其他聚类算法,使用AP聚类可以更好地反映当前指纹的分布状况.对聚类生成的每一类指纹建立莱斯分布模型,以莱斯分布模型的参数作为指纹.仿真结果表明基于AP聚类的方法与传统指纹法在具有相似的定位效果的前提下,前者所占用的存储量只有后者的50%.  相似文献   

17.
针对文本在聚类或分类时,由于数据高维稀疏导致相似度值低的问题,提出一种基于改进文本相似度计算的聚类方法.首先,利用向量空间模型VSM表示文本,采用余弦函数计算文本之间的相似度;然后,基于网络中节点的相似性传播原理,通过设置阈值找到与各个文本相似度较大的文本集合,进而使用Jaccard系数将两个文本之间相似度计算转化为两个文本集合之间的相似度计算;最后根据得到的文本相似度矩阵,利用谱聚类算法对文本进行聚类.在WebKB上的实验结果表明,与传统的K-means、谱聚类方法相比,该方法提高了聚类的准确度,召回率与F值.  相似文献   

18.
近邻传播算法(AP)不需要事先指定聚类数目,在程序运行过程中,能够自动识别聚类中心及聚类数目。在同一批数据集上,AP算法聚类结果稳定,鲁棒性好。除此之外,AP聚类算法可以采用多种距离度量方式,聚类结果精确。针对近邻传播算法(AP)不能对异构数据进行聚类的问题,提出一种基于张量距离的高阶AP聚类算法。该算法首先利用张量表示异构数据对象,然后将张量距离引入AP聚类算法,用来度量异构数据对象在张量空间的相似度。张量距离的引入,不但能够度量异构数据对象在数值上的差异,同时能够度量异构数据对象在高阶空间中位置的差异性,有效的捕捉异构数据对象的分布特征。实验结果表示,提出的高阶AP算法能够有效的对异构数据对象进行聚类。  相似文献   

19.
针对K均值聚类随机初始聚类中心导致的聚类结果不稳定问题,提出一种基于仿射传播的聚类集成算法.该算法把每个聚类集成的成员个体结果看成是原始数据的一个属性,然后在其基础上对聚类成员个体的聚类结果进行加权集成,集成算法采用简单高效的仿射传播聚类,并且提出了直接集成、利用平均规范化互信息(NMI)和聚类有效性Silhouette指标进行加权集成.最后,运用Hungarian算法对仿射传播聚类集成的结果进行类别标签的统一和匹配.在加州大学尔湾分校数据集上进行了实验,结果表明,与集成前的K均值聚类及其他聚类集成算法相比,该算法能有效地提高聚类结果的准确性、鲁棒性和稳定性,建立起来的聚类集成算法具有良好的扩展性和灵活性,而且简单有效.  相似文献   

20.
基于K-medoids项目聚类的协同过滤推荐算法   总被引:1,自引:1,他引:0  
针对传统协同过滤推荐算法通常针对整个评分矩阵进行计算,存在效率不高的问题,提出一种基于K-medoids项目聚类的协同过滤推荐算法.该算法根据项目的类别属性对项目进行聚类,构建用户的偏好领域,使用用户偏好领域内的评分矩阵进行用户间相似度的计算,得到目标用户的最近邻居集,并生成推荐结果.与常用的K-means聚类方法相比,采用K-medoids方法对项目类别属性进行聚类,不仅克服了评分聚类可靠性不高的问题,而且算法还具有更好的鲁棒性.实验结果表明,该算法能有效提高推荐质量.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号