首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
DPC算法是一种能够自动确定类簇数和类簇中心的新型密度聚类算法,但在样本分配策略上存在聚类质量不稳定的缺陷.其改进算法KNN-DPC虽然具有较好的聚类效果,但效率不高而影响实用.针对以上问题,文中提出了一种近邻密度分布优化的DPC算法.该算法在DPC算法搜索和发现样本的初始类簇中心的基础上,基于样本的密度分布采用两种样本类簇分配策略,依次将各样本分配到相应的类簇.理论分析和在经典人工数据集以及UCI真实数据集上的实验结果表明:文中提出的聚类算法能快速确定任意形状数据的类簇中心和有效地进行样本类簇分配;与DPC算法和KNN-DPC算法相比,文中算法在聚类效果与时间性能上有更好的平衡,聚类稳定性高,可适用于大规模数据集的自适应聚类分析.  相似文献   

2.
基于势能的快速凝聚层次聚类算法使用一种全新的相似性度量准则,可以更高效地得到聚类结果。针对该算法无法有效处理含噪声的复杂流形数据的缺陷,提出噪声环境下复杂流形数据的势能层次聚类算法。通过势能递增曲线识别噪声点,在新定义的势能最大、最小2层数据上进行自动聚类,以确定类簇的大体框架,并在此基础上对整个数据集进行层次聚类。人工数据集上的实验表明,新算法可以有效处理噪声环境下复杂流形数据;真实数据集上的实验表明,新算法具有更优的聚类效果。  相似文献   

3.
针对DBSCAN算法的不足,提出了一种基于DBSCAN的自适应聚类算法.通过引入对象密度迅速地找到数据集中的核心样本,并从核心样本出发进行统计学分析得到Eps与MinPts之间的函数关系及相关的Eps与MinPts参数值,并利用所获参数值进行自适应的聚类;采用若干个仿真和真实数据集进行实验,评估该算法的有效性和可靠性.实验结果表明,该算法对密度不均匀数值型数据集和符号型数据集均有较好表现.  相似文献   

4.
双聚类作为一种无监督的学习方法,其作用是对基因表达数据进行分析.为了获取较大容量的双聚类簇,弥补传统的双聚类方法在基因表达数据一致波动性方面的不足,引入粗糙集的上、下近似集概念,将粗糙集理论运用到模糊双聚类算法中,将粗糙上、下近似集与加权均方残差相结合,得到新的粗糙均方残基,进而提出一种基于粗糙均方残基的模糊双聚类算法.针对基因表达数据集,首先进行缺失值填补;其次,用非负矩阵分解算法对基因数据集进行降维;最后,计算数据矩阵的粗糙均方残基,结合综合评判度量函数与贴近度原则对矩阵的行列进行删除和添加,得到容量更大的双聚类结果.实验结果表明,该模糊双聚类算法是有效的.  相似文献   

5.
为了解决密度峰值聚类算法选择密度峰值点困难以及误分配的问题,基于流形的连通性,提出了一种改进的密度峰值聚类算法。通过使用三支密度峰值聚类算法,得到初始聚类结果与簇的边界点,根据这些边界点之间的连通性判断初始聚类之间的连接情况,并利用这些信息进行聚类结果融合。重复上述过程,每次迭代中在剩余数据里寻找密度峰值候选点,并将其纳入聚类过程,得到一种对流形数据友好的聚类算法。结果表明,所提算法在人工数据集和真实数据集上均有较好的表现,聚类准确度相较现有算法更高。基于连通性的三支密度峰值聚类算法可以在不计算路径距离的前提下,有效识别流形数据,大大降低了计算成本。  相似文献   

6.
谱聚类是一种基于图谱划分理论的聚类算法,本质上是将聚类问题转化为图的最优划分问题;量子聚类可以充分挖掘数据样本的内在信息,是一种基于划分的无监督聚类算法.为了充分发挥谱聚类算法和量子聚类算法的优势,本文提出了一种基于流形距离核的谱聚类和量子聚类融合算法(MFD-NJW-QC).首先,计算数据集的流形距离核矩阵,构造相应的拉普拉斯矩阵;其次,根据拉普拉斯矩阵的若干最大特征值对应的特征向量构造新数据集,并使用量子聚类算法对新构造的数据集进行聚类,从而得到原始数据的类标签;最后,基于7个人工数据集和5个UCI数据集验证MFD-NJW-QC算法的聚类性能.结果显示,MFD-NJW-QC算法能够明显提高聚类性能,尤其对于具有流形结构,且类簇大小不平衡、密度分布不均匀的数据集优势更为突出.  相似文献   

7.
一种基于密度的启发性群体智能聚类算法   总被引:3,自引:0,他引:3  
提出一种基于密度的启发性群体智能聚类算法.针对以往群体智能聚类算法中分类错误率较高、算法运行时间较长等不足,提出记忆体方法和基于密度的先行(look ahead)策略.用人工数据集和真实数据集进行实验,将实验结果进行比较分析.分析结果表明,基于密度的启发性群体智能聚类算法能够得到令人满意的聚类结果,其分类错误率和运行时间明显小于其它聚类算法.  相似文献   

8.
针对数据集的聚类过程容易受到离群值的影响这一问题,提出了局部密度离群值检测k-means算法,即先对数据集使用局部密度离群值检测方法检测离群值,先把离群值去除,再进行k-means聚类,算法的有效性通过Davies-Bouldin指标(DB)、Dunn指标和Silhouette指标进行评价,在人工生成的数据集与UCI数据集上验证,去除离群值,再使用k-means算法得到的聚类结果相比原始数据集进行k-means算法聚类结果较好,并且用在疫情数据分析上,对安徽省、北京市、福建省、广东省等24个省、市、自治区2020年2月18日新型冠状病毒肺炎确诊人数进行聚类分析,得到的去除离群值在使用k-means算法相比原始数据集进行k-means算法聚类结果较好,该结果能帮助更好地在实际中怎么去做决策以及更好地降低经济损失。  相似文献   

9.
针对DBSCAN算法I/O开销和内存消耗大的缺陷,提出了基于层次合并的密度算法,基于密度的空间聚类算法可以有效地过滤噪声和孤立点数据,该算法在对于处理较大数据集上具有较大优势。  相似文献   

10.
密度峰值聚类算法(Density peaks clustering, DPC)是一种基于密度的新型聚类算法。该算法的优点十分显著:所需参数较少,没有迭代过程,能自适应获得聚类数目并识别任意形状的簇类。该算法也有一些问题亟待解决:(1)在决策图上人工选择聚类中心,产生聚类误差;(2)在密度不同的流形数据集上聚类效果不佳。针对这些不足,该文提出一种基于电子分层模型和凝聚策略的密度峰值聚类算法(Density peaks clustering based on electronic shells model and merging strategy, EMDPC)。其利用电子分层模型计算每个数据点的局部密度,更易识别出低密度簇;通过子簇凝聚策略自适应识别簇类数目,降低了人工选取聚类中心时误差发生的概率;并且子簇凝聚策略能较好地解决DPC在密度不均匀的流形数据上聚类效果不佳的问题。实验分析表明基于电子分层模型和凝聚策略的密度峰值聚类算法具有较高的精度和较好的聚类性能,其结果优于其他先进的聚类算法。  相似文献   

11.
密度峰值聚类算法(density peaks cluster,DPC)是一种基于密度的聚类算法,该算法可以聚类任意形状的类簇.在类簇间有密度差距的数据集上,DPC不能准确地选择聚类中心.DPC的非中心点分配策略会引起连续错误,影响算法的聚类效果.模糊k近邻密度峰值算法(fuzzy k-nearest neighbor DPC,FKNN-DPC)是一种改进的DPC算法,该算法采用边界点检测并结合2步分配策略来避免连续错误.当类簇间有密度差距时,FKNN-DPC的边界点检测效果不理想,此外,其非中心点分配策略缺乏对样本近邻信息的考虑.定义相对密度(relative density)并结合近邻关系(nearest neighbor relationship)提出RN-DPC算法解决上述问题.针对DPC因为类簇间的密度差距而不能准确选择聚类中心的问题,定义相对密度用于消除类簇间的密度差距.基于反向k近邻关系检测边界点并且引入共享最近邻关系来对FKNN-DPC的分配策略进行改进.RN-DPC算法在人工数据集和真实数据集上分别与不同的聚类算法进行了对比,实验结果验证了RN-DPC算法的有效性和合理性.  相似文献   

12.
针对密度聚类算法对邻域参数设置敏感的问题,提出一种基于密度的模糊自适应聚类算法.算法在无需预先设置聚类数以及邻域参数的情况下,可以自适应地根据样本间距离关系确定邻域半径得到样本密度,并根据样本密度逐渐增加聚类中心.为了保障聚类结果的正确性,同时提出一种新的模糊聚类有效性指标以判断最佳聚类数,消除了密度聚类算法对参数的敏感性.用UCI基准数据集进行实验,发现本文算法在对数据进行聚类时,聚类质量较原始密度聚类算法在准确性和自适应性方面均有显著提高.  相似文献   

13.
针对传统Mashup服务推荐在网络构建方式的成本和计算复杂性过高问题, 提出一种基于半监督层次聚类描述的Mashup服务推荐算法. 首先, 利用网爬工具收集ProgrammableWeb上的Mashup服务信息, 并采用后缀剥离算法把Mashup服务的标签信息修改为名词形式, 以此作为研究分析的数据集; 其次, 为提高聚类精度, 提出一种半监督层次描述聚类算法, 通过植入层次聚类算法顶层核心集方式, 有效解决了传统层次描述聚类因顶层分类集构造失败而影响Mashup服务推荐算法的准确度. 通过在聚类数据集和网爬Mashup服务数据库上的实验表明, 该算法的Mashup服务推荐准确率优于对比算法.  相似文献   

14.
Isomap在基因表达谱数据聚类分析中的应用   总被引:8,自引:0,他引:8  
基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。基于非线性降维算法等容特征映射 ,提出了一种新的大规模基因表达谱数据聚类算法 ,该方法改进了样本向量之间的距离度量 ,用测地距离代替传统的欧式距离 ,有助于挖掘高维数据内在的几何结构。将该算法应用于两个公开的基因表达数据集 ,并用一种新的评价方法Normalized Cut将聚类结果与其他聚类方法的结果进行了比较。结果表明 ,该文的聚类算法优于其他聚类算法 ,聚类结果具有明显的生物学意义 ,并能对数据的类别数作出较好的预测和评估  相似文献   

15.
聚类是识别基因表达数据蕴含的关键基因调控模块的一种有效方法,基因表达谱的相似性度量是聚类的关键问题.然而,一般的相似性度量方法不能刻画时间序列基因表达谱数据所蕴含的时间延迟、反向相关和局部相关等复杂的基因调控关系.针对时间序列基因表达谱数据,提出一种基于近邻传播和动态规划的相似性度量方法和聚类算法.在大鼠再生肝细胞基因表达谱数据集上的聚类结果与基因功能富集分析结果高度一致,证明算法在时间序列基因表达谱数据聚类上的有效性.  相似文献   

16.
相比其它聚类算法,密度峰值点快速搜索聚类算法(clustering by fast search and find of density peaks,DPC)只需较少的参数就能达到较好的聚类结果,然而当某个类存在多个密度峰值时,聚类结果不理想.针对这一问题,提出一种基于簇边界划分的DPC算法:B-DPC算法.改进算法首先利用一种新的去除噪声准则对数据集进行清理,再调用DPC算法进行首次聚类.最后搜索并发现邻近类的边界样本,根据边界样本的数量和所占比例,对首次聚类结果进行二次聚类.实验证明,B-DPC算法较好地解决了多密度峰值聚类问题,能够发现任意形状的簇,对噪声不敏感.  相似文献   

17.
数据挖掘技术中聚类算法的探索与研究   总被引:1,自引:0,他引:1  
申锐 《山西科技》2009,(2):90-91
文章在对各种聚类算法深入分析的基础上,尤其在对基于密度的聚类算法、基于层次的聚类算法和基于划分的聚类算法深入研究的基础上,提出了一种改进基于密度和层次的快速聚类算法。该算法保持了基于密度聚类算法发现任意形状簇的优点,而且具有近似线性的时间复杂性,因此适合对大规模数据的挖掘。  相似文献   

18.
近邻传播(Affinity Propagation,AP)聚类是基于数据点间消息传递的算法,主要通过数据间的相似度实现聚类.与传统的聚类方法相比,AP聚类无需事先给定聚类数目就可实现聚类,因此具有快速高效的优点,然而在处理高维复杂数据集时存在随着聚类效率提升而准确度不高的问题.为改善AP聚类算法的效率和精度,提出基于类内和类间距离的粗粒度并行AP聚类算法——IOCAP.首先引入粒度思想将初始数据集划分成多个子集;其次对各子集结合类内和类间距离进行相似度矩阵的改进计算,最后基于MapReduce模型实现改进后的并行AP聚类.在真实数据集上的实验表明,IOCAP算法在大数据集上有较好的适应性,能在保持AP聚类效果的同时有效地提升算法精度.  相似文献   

19.
一种基于密度和网格的高效聚类算法   总被引:1,自引:0,他引:1  
聚类已成为数据挖掘的主要方法之一,能够帮助人们在大量的数据中发现隐藏信息.目前最具典型的密度聚类算法是DBSCAN(density-based spatial clustering of applications with noise),它能够在空间数据库中很好地发现任意形状的簇并有效地处理噪声,但是它的计算复杂度相对较大.因此,采用划分数据集和聚簇合并方法,提出了一种基于密度和网格的高效聚类算法DGCA,并通过人工合成数据集和真实数据集对该聚类算法进行理论验证.实验结果表明该算法在效率性能和质量方面比DBSCAN都得到了提高.  相似文献   

20.
几千年来,中医药领域的无数临床实践与理论研究积累了很多对哮喘病的治疗方剂,已有的基于距离的聚类算法在对哮喘方剂数据的聚类上不太有效.根据哮喘药方数据集高维稀疏性的特点提出一种基于最大频繁项集的层次聚类算法,此算法在哮喘方剂的聚类上取得了较好的效果.基于现有中药数据,设计并实现一个中药方剂数据挖掘平台,该平台将中药数据检索功能和中药数据挖掘功能集成起来,带来了极大的便利.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号