共查询到19条相似文献,搜索用时 515 毫秒
1.
一种基于广度优先搜索邻居的聚类算法 总被引:8,自引:0,他引:8
聚类算法BFSN广度优先搜索某对象的直接邻居和间接邻居,对符合条件的所有找到的邻居合并,从而完成一类聚类.接着重复该步骤完成所有对象的聚类.与同类算法相比,该算法具有实现简单、复杂度低和容易设定最佳参数等优点.实验证明,在聚类正确率相近的情况下,该算法的效率比较高,而且能揭示同类对象之间的相异程度. 相似文献
2.
3.
针对当前海量信息存储对等网络系统中资源搜索技术效率较低的问题,提出了一种采用k-均值聚类分析的高效搜索模型.该模型利用资源描述框架(RDF)描述的元数据进行聚类分析,使得资源的搜索由全局变为局部,从而有效地提高了资源搜索效率;采用动态优化排序技术显著提高了查询的速度.通过子网分裂算法和节点备用算法增强了模型的可扩展性、安全性和可靠性.仿真结果表明,所提模型在查找时延和平均路径方面均比传统搜索模型更加高效、便捷. 相似文献
4.
研究了联机数据挖掘系统中的并行和增量聚类算法,并给出了算法伪码。实验表明,联机增量聚类算法相对于传统的Apriori算法具有较大优势,同时证明了增量聚类算法及其联机数据挖掘系统的实用性。 相似文献
5.
针对DBSCAN算法I/O开销和内存消耗大的缺点,提出了基于层次合并的密度算法.该算法减少了DBSCAN算法中需要查询的点的数量,从而克服了DBSCAN算法I/O开销和内存消耗大的缺点.算法分析表明该算法对DBSCAN的改进是有效的. 相似文献
6.
K—means聚类算法的研究 总被引:5,自引:0,他引:5
为解决原始K-means算法随机选取初始聚类中心对聚类结果的影响较大的不足,提出了改进算法.采取基于采样选取聚类中心距离的规则,进行多次选择决定最终的初始聚类中心,使得改进后的算法受初始聚类中心选择的影响达到最小;同时,在选取初始聚类中心后,对初值进行数据标准化处理.将改进的K-means算法应用于销售行业,结果显示,改进后的算法比原始的算法在效率上得到了提高. 相似文献
7.
一种新的最近邻聚类算法 总被引:1,自引:0,他引:1
在分析现有最近邻聚类算法所存在问题的基础上,提出了一种先利用均值规格化的思想来确定算法的初始半径,然后根据启发式规则修改聚类半径的新的最近邻聚类算法.同时,给出了聚类有效性函数对得到的聚类结果进行合理性判断. 相似文献
8.
《中国科学技术大学学报》2016,(9)
随着推荐系统用户数量和服务项目增多,可扩展性问题成为推荐算法应用的瓶颈.目前,大部分推荐算法以及基于这些算法的改进主要集中在推荐质量上,随着系统规模扩大,暴露出实时推荐效率降低和运行耗时的缺点.针对这些问题,提出了一种基于最近邻聚类的协同过滤推荐算法.首先,该算法采用二分k-means算法把评分相似的用户划分到相同的类中,以此建立用户聚类模型.然后,从聚类模型中挑选出目标用户的最近邻居类作为检索空间.最后,从检索空间中搜索目标用户的最近邻居,由最近邻居的信息产生最终的推荐列表.实验结果表明,该算法在保持较高的推荐质量的同时可以显著提高推荐系统的效率,比传统的协同过滤算法可扩展性强. 相似文献
9.
孙军华 《广西师范学院学报(自然科学版)》2005,22(3):80-84
聚类分析是数据挖掘的一个重要研究方向,而PAM算法是聚类算法中一个重要的方法.本文针对PAM算法不适应大数据集的缺点,给出一个近似的线性时间聚类算法(ALCM),并且从理论上证明了该算法复杂度为关于数据集个数的线性时间复杂度.通过比较实验表明:1)随着数据个数的增大,PAM所花费的时间将激剧增大,而ALCM花费时间与数据集个数呈近似线性增长的关系,即ALCM是适应大数据集的.2)PAM算法和AL-CM算法随数据个数增大,二者的代价函数并无明显差异. 相似文献
10.
作者在前人工作成果的基础上,提出并实现了一种基于最优投影和动态阈值调整的最近邻搜索算法DTA(Dynamic Threshold Algorithm);证明了最优投影线定理和投影邻域定理;并分析了DTA算法与SNN算法相比在算法性能上的优势.实验结果表明,当数据规模增大时,DTA算法的运行时间增加相对缓慢,在大规模数据集上DTA算法的运行时间可达传统算法的10%以下;DTA算法对阈值的变化不敏感,能适应不同分布的数据集合. 相似文献
11.
现有的基于密度的数据流聚类算法难于发现密度不同的簇,难于区分由若干数据对象桥接的簇和离群点.本文提出了一种基于共享最近邻密度的演化数据流聚类算法.在此算法中,基于共享最近邻图定义了共享最近邻密度,结合数据对象被类似的最近邻对象包围的程度和被其周围对象需要的程度这两个环境因素,使聚类结果不受密度变化的影响.定义了数据对象的平均距离和簇密度,以识别离群点和簇间的桥接.设计了滑动窗口模型下数据流更新算法,维护共享最近邻图中簇的更新.理论分析和实验结果验证了算法的聚类效果和聚类质量. 相似文献
12.
同时使用标号点和成对约束信息,设计了半监督的最近邻分类算法。为了解决可能无法为某些数据点分配类标号的问题,提出了ratio排序方法以降低冲突点的个数,并采用基于Citation-kNN评分的主动式学习策略,通过获取一些与周围数据点不一致的点的标号来改善半监督学习的效果,以寻找有价值的监督信息。实验结果表明,本文的学习策略可以提高算法的聚类效果,其CRI指标好于COP-kmeans和CCL算法。 相似文献
13.
针对传统单一启发式方法解决VRP(Vehicle Routing Problem)问题解质量不高的问题,提出一种新的混合算法。该混合算法以随机近邻启发算法作为初始解,结合嵌入"退火机制"的变邻域VNS(Variable Neighbour Search)搜索算法解决车辆路径问题。实验结果表明,改进算法收敛速度较快,且解决了变邻域搜索易陷入局部最优的问题。 相似文献
14.
三种典型聚类算法在职员评定中的应用 总被引:1,自引:0,他引:1
通过利用三种典型算法:Q-型模糊聚类算法、K-means算法及K-medians算法,对公司职员的年终评定进行应用分析,得到了不同的聚类结果,通过对结果的分析比较、探讨,得出结论:针对不同问题,应结合实际,有针对性地用不同算法更适合.并在此基础上,对聚类算法的聚类过程、本文后续工作进行了探讨总结. 相似文献
15.
一种基于密度的引力聚类算法 总被引:1,自引:0,他引:1
针对传统基于距离的聚类算法所存在的缺点,将万有引力和牛顿第二运动定律思想引入到聚类过程中,提出了一种改进的基于密度的引力聚类算法GCABD.该算法可以自动决定目标数据集中的簇的个数,并且能发现任意形状的簇且可以过滤"噪声"数据.实验结果表明,所提出的GCABD算法的聚类效果和精度均比典型的K-means算法好,提高了聚类质量. 相似文献
16.
基于数据挖掘平台的模糊聚类算法及应用研究 总被引:3,自引:0,他引:3
研究基于目标函数的模糊聚类算法,并对聚类效果的有效性和参数选择进行了详细分析,在数据挖掘平台中实现该算法,通过设置聚类误差和实时误差两项动态指标来确定最佳的判别方法和参数设置.最后将该算法应用于模型生命表制作的前期分析工作中。 相似文献
17.
针对LSH技术的固有缺点提出了一种根据数据自动调整LSH索引结构关键参数的方法,该方法面向数据集,使得索引结构可以针对不同数据集的统计特征选取适当的散列函数,而不用手工调整LSH索引结构中的关键参数,提高了LSH算法的准确性,且在进行查询时不增加额外的时间空间开销.模拟实验表明,和使用原始LSH算法相比较,使用该方法进行最近邻查询得到结果集的相似性可以提高10%左右,相似偏差可以减小8%左右;并且由于参数调整过程在查询过程之前,因此改进LSH算法和原始LSH算法在进行查询时有相同的时间空间性能. 相似文献
18.
随着电子信息技术的发展,图书馆作为知识信息传播和服务的机构,其信息化数据化的功能也在不断增强.为了能够高效地运用图书馆的信息和数据,为图书馆的采购工作提供有效信息,本文从数据挖掘技术着手,探讨其在图书馆采购管理中的应用. 相似文献
19.
企业家在进行投资前考虑的一个重要方面是企业未来的盈利能力,而最终是否盈利则取决于收入和支出。员工的工资总额(劳动力成本的主要部分)作为企业的一项重要支出自然纳入企业家投资决策的考虑范围,对我国不同地区不同行业劳动力成本的合理估计对决策的制定有着重要意义。通过基于聚类分析的数据挖掘技术,结合实证分析对19个主要行业和31个省市自治区(中国大陆)的薪资水平进行了分析和对比,以更直观的方式揭示内在含义,为企业投资决策提供支撑。 相似文献