共查询到20条相似文献,搜索用时 70 毫秒
1.
一种基于广度优先搜索邻居的聚类算法 总被引:8,自引:0,他引:8
聚类算法BFSN广度优先搜索某对象的直接邻居和间接邻居,对符合条件的所有找到的邻居合并,从而完成一类聚类.接着重复该步骤完成所有对象的聚类.与同类算法相比,该算法具有实现简单、复杂度低和容易设定最佳参数等优点.实验证明,在聚类正确率相近的情况下,该算法的效率比较高,而且能揭示同类对象之间的相异程度. 相似文献
2.
3.
针对当前海量信息存储对等网络系统中资源搜索技术效率较低的问题,提出了一种采用k-均值聚类分析的高效搜索模型.该模型利用资源描述框架(RDF)描述的元数据进行聚类分析,使得资源的搜索由全局变为局部,从而有效地提高了资源搜索效率;采用动态优化排序技术显著提高了查询的速度.通过子网分裂算法和节点备用算法增强了模型的可扩展性、安全性和可靠性.仿真结果表明,所提模型在查找时延和平均路径方面均比传统搜索模型更加高效、便捷. 相似文献
4.
研究了联机数据挖掘系统中的并行和增量聚类算法,并给出了算法伪码。实验表明,联机增量聚类算法相对于传统的Apriori算法具有较大优势,同时证明了增量聚类算法及其联机数据挖掘系统的实用性。 相似文献
5.
针对DBSCAN算法I/O开销和内存消耗大的缺点,提出了基于层次合并的密度算法.该算法减少了DBSCAN算法中需要查询的点的数量,从而克服了DBSCAN算法I/O开销和内存消耗大的缺点.算法分析表明该算法对DBSCAN的改进是有效的. 相似文献
6.
K—means聚类算法的研究 总被引:5,自引:0,他引:5
为解决原始K-means算法随机选取初始聚类中心对聚类结果的影响较大的不足,提出了改进算法.采取基于采样选取聚类中心距离的规则,进行多次选择决定最终的初始聚类中心,使得改进后的算法受初始聚类中心选择的影响达到最小;同时,在选取初始聚类中心后,对初值进行数据标准化处理.将改进的K-means算法应用于销售行业,结果显示,改进后的算法比原始的算法在效率上得到了提高. 相似文献
7.
一种新的最近邻聚类算法 总被引:1,自引:0,他引:1
在分析现有最近邻聚类算法所存在问题的基础上,提出了一种先利用均值规格化的思想来确定算法的初始半径,然后根据启发式规则修改聚类半径的新的最近邻聚类算法.同时,给出了聚类有效性函数对得到的聚类结果进行合理性判断. 相似文献
8.
《中国科学技术大学学报》2016,(9)
随着推荐系统用户数量和服务项目增多,可扩展性问题成为推荐算法应用的瓶颈.目前,大部分推荐算法以及基于这些算法的改进主要集中在推荐质量上,随着系统规模扩大,暴露出实时推荐效率降低和运行耗时的缺点.针对这些问题,提出了一种基于最近邻聚类的协同过滤推荐算法.首先,该算法采用二分k-means算法把评分相似的用户划分到相同的类中,以此建立用户聚类模型.然后,从聚类模型中挑选出目标用户的最近邻居类作为检索空间.最后,从检索空间中搜索目标用户的最近邻居,由最近邻居的信息产生最终的推荐列表.实验结果表明,该算法在保持较高的推荐质量的同时可以显著提高推荐系统的效率,比传统的协同过滤算法可扩展性强. 相似文献
9.
孙军华 《广西师范学院学报(自然科学版)》2005,22(3):80-84
聚类分析是数据挖掘的一个重要研究方向,而PAM算法是聚类算法中一个重要的方法.本文针对PAM算法不适应大数据集的缺点,给出一个近似的线性时间聚类算法(ALCM),并且从理论上证明了该算法复杂度为关于数据集个数的线性时间复杂度.通过比较实验表明:1)随着数据个数的增大,PAM所花费的时间将激剧增大,而ALCM花费时间与数据集个数呈近似线性增长的关系,即ALCM是适应大数据集的.2)PAM算法和AL-CM算法随数据个数增大,二者的代价函数并无明显差异. 相似文献
10.
作者在前人工作成果的基础上,提出并实现了一种基于最优投影和动态阈值调整的最近邻搜索算法DTA(Dynamic Threshold Algorithm);证明了最优投影线定理和投影邻域定理;并分析了DTA算法与SNN算法相比在算法性能上的优势.实验结果表明,当数据规模增大时,DTA算法的运行时间增加相对缓慢,在大规模数据集上DTA算法的运行时间可达传统算法的10%以下;DTA算法对阈值的变化不敏感,能适应不同分布的数据集合. 相似文献
11.
同时使用标号点和成对约束信息,设计了半监督的最近邻分类算法。为了解决可能无法为某些数据点分配类标号的问题,提出了ratio排序方法以降低冲突点的个数,并采用基于Citation-kNN评分的主动式学习策略,通过获取一些与周围数据点不一致的点的标号来改善半监督学习的效果,以寻找有价值的监督信息。实验结果表明,本文的学习策略可以提高算法的聚类效果,其CRI指标好于COP-kmeans和CCL算法。 相似文献
12.
现有的基于密度的数据流聚类算法难于发现密度不同的簇,难于区分由若干数据对象桥接的簇和离群点.本文提出了一种基于共享最近邻密度的演化数据流聚类算法.在此算法中,基于共享最近邻图定义了共享最近邻密度,结合数据对象被类似的最近邻对象包围的程度和被其周围对象需要的程度这两个环境因素,使聚类结果不受密度变化的影响.定义了数据对象的平均距离和簇密度,以识别离群点和簇间的桥接.设计了滑动窗口模型下数据流更新算法,维护共享最近邻图中簇的更新.理论分析和实验结果验证了算法的聚类效果和聚类质量. 相似文献
13.
Problems existin similarity measurement and index tree construction which affect the perform-ance of nearest neighbor search of high-dimensional data .The equidistance problem is solved using NPsim function to calculate similarity .And a sequential NPsim matrix is built to improve indexing performance .To sum up the above innovations , a nearest neighbor search algorithm of high-dimen-sional data based on sequential NPsim matrix is proposed in comparison with the nearest neighbor search algorithms based on KD-tree or SR-tree on Munsell spectral data set .Experimental results show that the proposed algorithm similarity is better than that of other algorithms and searching speed is more than thousands times of others .In addition , the slow construction speed of sequential NPsim matrix can be increased by using parallel computing . 相似文献
14.
原始的k-means算法是从样本点的集合中随机选取K个中心,这种选取具有盲目性和随意性,它在很大程度上决定了算法的有效性.为消除选取初始中心的盲目性,应充分利用已有数据样本点的信息.采取对数据进行预处理的方式来选取初始中心.实验证明新的初始点的选取不仅提高了算法的计算效率,也提高了算法最终确定的聚类的精度. 相似文献
15.
提出了一种基于扫描线种子填充的二值图像快速聚类算法 .该算法步骤为 :对二值图像进行扫描 ,如果检测到了目标点 ,则将该点作为新的聚类的种子 ,将该种子扩展到整个目标区域 ,形成一个包含目标区域的聚类 .该算法的特点为 :只需一次扫描即可动态生成所有聚类 ,聚类总数动态生成 ,每一时刻只有一个聚类被处理 ,可提前进行一些后续处理 ,算法描述简单 ,易于编程实现 . 相似文献
16.
针对传统K-medoids聚类算法初始聚类中心随机选择、聚类精度不高、全局搜索能力较差以及禁忌搜索算法对初始值随机选取等问题,提出了一种粒计算与最大距离积法相结合的初始化禁忌搜索初始值算法,将改进后的禁忌搜索算法用来优化K-medoids,以提高聚类算法的性能。通过仿真试验论证了该算法具有较高的效率和准确率以及较强的稳定性。 相似文献
17.
针对当前数据挖掘中对数值型数据聚类方法的不足,提出了基于特征点选择的聚类算法(clustering algorithm based on Feature Point Selection,CFPS)。CFPS算法可以克服需要输入聚类数量的缺陷, 算法本身可以找到簇的最佳数量,使聚类的精度和效率得到大大提高。实验结果表明该方法对数值型数据聚类方法具有借鉴意义和深入研究的价值。 相似文献
18.
基于图分割的蚁群聚类算法 总被引:2,自引:0,他引:2
提出了采用两种策略更新信息素来控制蚂蚁行进路径的方法.根据信息素的浓度确定图边的权值,运用了图分割算法断裂所得图的边,从而达到对数据进行聚类的目的.实验结果证明算法是有效的. 相似文献
19.
给出一种将网格技术、密度技术与分形理论的自相似性结合起来的一种有效聚类算法,利用分形维度变化最小同时是相似程度最大的特点来划分数据集从而得出聚类结果.实验表明该算法可以快速有效的处理多维大型数据集,识别出任意形状簇的个数,而且可以从数据集中挖掘出一些有用的分布信息. 相似文献
20.
考虑对象方向关系的密度聚类算法 总被引:2,自引:0,他引:2
聚类分析是数据挖掘的一个重要研究方向.为了在大规模空间数据库中发现任意形状的聚类,Martin Ester等提出基于密度的聚类算法DBSCAN.针对DBSCAN处理聚类边界对象的不足,提出了聚类时考虑对象方向关系的改进算法,实验表明,改进算法在不改变时间、空间复杂度的情况下能得到更好的聚类结果. 相似文献