首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 656 毫秒
1.
一种确定最佳聚类数的新算法   总被引:1,自引:0,他引:1  
针对K-均值聚类算法需要事先确定聚类数K的问题,将粒度计算引入样本相似度函数,定义了新的样本相似度,用模糊等价聚类确定数据集可能的最大类簇数Kmax.以Kmax为搜索上界,利用改进全局K-均值聚类算法,以BWP(Between-Within Proportion)为聚类有效性度量指标,提出确定最佳聚类数的一种新方法.通过UCI机器学习数据库数据集以及随机生成的人工模拟数据集实验测试,证明该算法不仅能有效确定数据集的最佳聚类数,而且适用于大规模数据集,但是会受到噪音点影响.  相似文献   

2.
K-均值算法是文档聚类中常用的一种划分方法.近年来,为提高聚类质量,出现了不少优化初始中心的改进算法.该文在基于密度选择中心点算法的基础上,建立了相似度概率模型辅助密度参数的确定,有效减少了参数选择的盲目性.同时,该文提出一种二分快速确定K值最优解的方法.大量实验结果表明,该方法具有理想的效果.  相似文献   

3.
动态迭代聚类算法分析基因序列数据   总被引:1,自引:0,他引:1  
聚类技术在知识发现方面发挥了很重要的作用,K—均值算法是聚类分析中最常用的算法,但K—均值算法必须预先选择类的数目作为先验值,即研究者需要确定数据空间内有意义类的数目.针对这个问题,本文提出一种新的聚类算法—动态迭代聚类算法,动态选取K个边缘相似度的数据对象作为最初的初始聚类点,并根据类内或类间的相似度离差程度不断地精练(合并或分割)初始类群.模拟实验结果表明,该算法提高了聚类质量,使聚类具有更高的准确性。  相似文献   

4.
K-均值聚类算法是聚类算法中比较典型的算法之一,在其各类改进算法中都受到了离群点、初质心、类个数等因素的干扰。本文利用相似密度提出一种新的聚类初始质心选取和离群点判别方法,对K-均值聚类算法进行了改进。通过实验证明改进算法提高了聚类的有效性和稳定性。  相似文献   

5.
一种基于最大最小距离和SSE的自适应聚类算法   总被引:1,自引:0,他引:1  
K均值聚类是一种常用的聚类算法,需要指定初始中心和簇数,但随意指定初始中心可能导致聚类陷入局部最优解,且实际应用中簇数未必是已知的。针对K均值聚类的不足,文中提出了一个自适应聚类算法,该算法基于数据实例之间的最大最小距离选取初始聚类中心,基于误差平方和(SSE)选择相对最稀疏的簇分裂,并根据SSE变化趋势停止簇分裂从而自动确定簇数。实验结果表明,该算法可以在不增加迭代次数的情况下得到更准确的聚类结果,验证了所提聚类算法是有效的。  相似文献   

6.
K-均值算法聚类分析及其在人力资源管理中的应用   总被引:2,自引:0,他引:2  
本文提出了一种改进的K-均值聚类算法,在基本K-均值算法的基础上运用基于密度选择初始中心点并且通过学习特征权值改进聚类效果,克服了基本K-均值算法初始中心点难以确定、聚类结果不稳定的缺点;然后建立了一种基于改进的K-均值算法的人事管理系统聚类分析模型,本模型采用SQL Server2000数据库实现并成功运用于国内一家知名软件企业的人力资源管理系统中,为该企业选聘人才和用好人才提供了有益的参考。  相似文献   

7.
模糊C-均值聚类算法(F(M)是很早的目标函数聚类算法,也是目标函数聚类算法中研究的比较充分的算法之一,FCM算法是一种基于划分的聚类算法,它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。此算法的缺点是当数据量非常庞大时,算法的运算过程就会非常耗时,甚至是无法完成运算。  相似文献   

8.
基于模糊相似度的科技文献软聚类算法   总被引:3,自引:0,他引:3  
本文提出了一种新的文档软聚类算法。将关键字通过文档的题名、摘要进行映射扩展,并对关键字的出现位置进行加权构造文本向量空间。利用模糊最大支撑树聚类过程中类间和类内相似度变化的规律自动识别最佳聚类数K及硬聚类簇。以硬聚类簇为核心将聚类相似度减小到下相似度进行扩展,从而形成相应软聚类。实验表明该算法能够有效地降低特征维数、提高软聚类精度和速度。  相似文献   

9.
一种改进的全局K-均值聚类算法   总被引:3,自引:0,他引:3  
将快速K中心点聚类算法确定初始中心点的思想应用于全局K-均值聚类算法,对其选取下一个簇的最佳初始中心的方法进行改进,提出选取下一个簇的最佳初始中心的一种新方法.该新方法选择一个周围样本分布相对密集,且距离现有簇的中心比较远的样本为下一个簇的最佳初始中心,得到一种改进的全局K-均值聚类算法.改进后的算法不仅可以避免将噪音点作为下一个簇的最佳初始中心点,而且在不影响聚类效果的基础上缩短了聚类时间.通过UCI机器学习数据库数据以及随机生成的人工模拟数据实验测试,证明改进的全局K-均值聚类算法与全局K-均值聚类算法及快速全局K-均值聚类算法相比在聚类时间上更优越.  相似文献   

10.
针对现有聚类算法K-均值存在事先指定聚类类数及仿射传播存在计算复杂度偏高的缺陷,提出了一种新型的聚类算法Increase K-Means,并将其应用到Blog内容的相似度聚类分析中,较好地满足了社区发现和话题跟踪的需求.仿真结果表明:在Blog文本聚类分析中,Increase K-Means在时间上与K-Means相近,在精度上与仿射传播接近,适用于大规模网络文本的分析处理.  相似文献   

11.
提出了多目标监督聚类GA算法,即:根据样本的类标签有监督地将样本聚类,在每个类中根据样本属性的相似性有监督地聚成类簇.如果分属不同类标签的类簇出现相交,则相交类簇再次聚类,直到所有类簇均不相交.适应度矢量函数由类簇数和类内距离2个目标确定,类簇数和类簇中心由目标函数自动确定,从而类簇数和中心就不受主观因素的影响,并且保证了这2个关键要素的优化性质.预测分类时,删去单点类簇,并根据类簇号和离某个类簇中心距离的最近邻法则以及该类簇的类标签进行分类.算法模型采用C#实现,采用3个UCI数据集进行实例分析,实验结果表明,本算法优于著名的Native Bayes、Boost C4.5和KNN算法.  相似文献   

12.
本体相似度计算是信息检索的重要研究课题并广泛应用于计算机科学的诸多领域.运用变换模型提出本体相似度计算和本体映射的新算法.通过排序学习函数,将本体图映射成实直线,将本体图中的顶点映射成对应实数.通过比较本体图中顶点所对应实数的差值来判断两个顶点的相似程度.两个实验显示,所提出的算法对计算本体相似度和建立本体映射是有效的.  相似文献   

13.
朱林立 《科学技术与工程》2013,13(13):3653-3657
本体作为一种结构化数据存储和表示模型已成为信息检索领域的研究热点,并被应用于生物医学、地理科学、社会科学等诸多领域。提出基于BMRM迭代排序学习方法的本体相似度计算和本体映射算法,利用BMRM迭代得到最优参数向量,由此得到排序函数,将本体图或多本体图中的顶点映射成实数,通过两顶点对应实数间的差值来确定它们对应概念间的相似度。最后,将算法分别作用于GO本体和计算机软件本体,通过实验数据对比说明新算法对特定的应用领域具有较高的效率。  相似文献   

14.
稀疏表示人脸识别算法的主要思想是:一个未知的测试图像可以近似表示为所有与其隶属同类的训练样本的一个线性组合.然而,人脸之间存在着极大的相似性,同时易受到外部环境的影响,人脸分类的本身存在着一定的不确定性.针对这种不确定性,结合模糊集合理论,提出了一种新的模糊稀疏表示人脸识别算法.首先,引入一个非线性函数描述人脸的相似性程度.然后,基于该相似性度量以及最近邻分类器思想,定义一个自适应的模糊隶属度函数来分配人脸对类的隶属程度.而这一过程恰使得这些隶属度是稀疏化的.最后,将稀疏化的模糊隶属度作为训练样本表示测试样本的权值系数,进而重构测试图像.采用MATLAB在ORL和Yale人脸数据库上进行仿真实验,验证了该算法的有效性和稳定性.  相似文献   

15.
传统的基于模糊C均值聚类的图像分割算法分割结果中类内数据空间分布离散,无法准确分割出目标物体.针对这一问题,提出一种基于相似类合并模糊C均值聚类算法,并将其应用到图像分割中.首先,提出一种全局空间相似性度量标准和全局灰度相似性度量标准,并将其引入到一种新颖的节点间距离度量公式中来计算图像中任意一点与聚类中心点的差异.其次,算法选取彩色直方图作为区域描述算子,采用巴氏距离计算聚类过程中得到的任意两类间的相似性.最后,应用最大相似类合并策略得到最终的分割结果.实验结果表明,与传统模糊C均值聚类算法和空间约束核模糊C均值聚类算法相比,该算法获得更加精确的图像分割结果.  相似文献   

16.
本体相似度计算是信息检索的重要研究课题并广泛应用于计算机科学的诸多领域.运用变换模型提出本体相似度计算和本体映射的新算法.通过排序学习函数,将本体图映射成实直线,将本体图中的顶点映射成对应实数.通过比较本体图中顶点所对应实数的差值来判断两个顶点的相似程度.两个实验显示,所提出的算法对计算本体相似度和建立本体映射是有效的.  相似文献   

17.
苟和平 《科学技术与工程》2013,13(16):4720-4723
针对KNN算法在分类时的样本相似度计算开销大,在处理不均衡数据集时少数类分类误差大的问题,提出一种在不均衡数据集下基于密度的训练样本裁剪算法。对训练样本的各个样本类进行聚类,删除噪声数据并计算每个样本类的平均相似度和样本平均密度,以此获得样本类裁剪的相似度阈值,然后将样本类内相似度小于类相似度阈值的样本进行合并,减少训练样本总数。实验表明,此样本裁剪算法能够在保持KNN算法分类性能基本稳定的前提下,有效地减少分类计算开销,并能在一定程度上提高少数类的分类性能。  相似文献   

18.
酒店智能终端系统中,为了解决随着终端用户数量的增加导致的服务器负载过重从而用户体验下降的问题,提出了一种改进的加权最小连接调度算法的负载均衡技术,将连接个数作为负载因子进行综合考虑,使得新加入的终端用户能够自动在多云分支服务器之间做出最佳决策,选取当前周期内负载最轻的一台服务器进行自动连接并实现整个酒店智能系统的负载均衡。实验结果表明,利用改进算法可以使得酒店智能终端机顶盒与多云分支服务器的自动连接实现整个系统的负载均衡且具有良好的稳定性,达到了预期效果。  相似文献   

19.
离群点检测在是数据挖掘的重要领域,广泛应用在信用卡欺诈检测、网络入侵检测等重要方面,文中在结合层次聚类和相似性,给出高维数据的相似度量函数与类密度的概念,并基于类密度重新定义高维数据的离群点,从而提出一种基于相似度量的离群点检测算法;实验表明:算法对高维数据中的离群点检测有一定的价值。  相似文献   

20.
一种新颖的图像相似性测度   总被引:1,自引:0,他引:1  
该文推导和定义了一种基于正交Proscrustes问题的图像相似性。此图像相似度是指一幅图像“旋入”另一幅图像的概率;同时简要地提供了图像相似度的算法,并将该算法用于船舶检测人脸的分类检索。实验结果表明新的图像相似性是有效和满意的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号