首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
K均值聚类算法初始质心选择的改进   总被引:3,自引:0,他引:3  
聚类分析在信息检索和数据挖掘等领域都有很广泛的应用,K均值聚类算法是一个比较简洁和快速的聚类算法,但是它存在着初始聚类个数必须事先设定以及初始质心的选择也具有随机性等缺陷,造成聚类的结果不是最优的。针对K均值聚类算法中的随机指定初始质心的缺点,提出了基于密度和最近邻相似度的初始质心选择算法,实验显示该算法可以生成质量较高而且较稳定的聚类结果,但是改进的算法需要事先设定最近邻相似度的阈值计算量较大等缺点,还有待改进。  相似文献   

2.
针对寿险行业的客户流失问题,构建基于外在、内在、行为(EIB)属性的寿险客户指标体系.提出改进的K-means算法,使用改进的轮廓系数公式判断初始聚类数目,并利用欧式距离相似度与余弦相似度的测度优势提出欧式类簇空间的局部、全局离群点过滤规则.运用传统的K-means算法、不同离群点监测阈值下的改进K-means算法进行...  相似文献   

3.
传统吸引子传播聚类算法对数据类型敏感,文中提出一种改进的吸引子传播聚类算法,将JACCARD系数引入对象间属性分布相似度,并与吸引子传播聚类算法结合。仿真实验结果表明,该算法收敛速度快,聚类精度高,明显提高高维稀疏数据的聚类性能。  相似文献   

4.
针对大型事务数据库中频繁集的多属性聚类问题,提出一种高效的频繁集聚类算法.以往聚类算法采用基于距离的计算方法,由于受到属性数据的制约,在频繁集挖掘中具有一定的限制.在属性聚类基础上,基于连接对频繁集进行聚类.在算法中先找出数据点的邻居和计算相似度,构造邻居矩阵;然后计算连接数目,确定邻居数目矩阵;最后通过设置判定函数和阈值确定聚类数.通过实验证明,算法能够不仅能有效地完成频繁集的多属性聚类问题,而且还可以进一步发现频繁集在某一层次的相关性.  相似文献   

5.
移动时间层次聚类(Travel-Time based Hierarchical Clustering,TTHC)是一种新的势能聚类算法,尽管具有较好的聚类效果,但是该算法需要人工设定聚类数目,而且在分配样本的时候仅根据相似度,忽略了距离和势能的影响.针对以上问题,提出一种自动确定聚类中心的移动时间势能聚类算法.首先计算每个数据点的势能和相似度,然后根据相似度确定数据点的父节点,得到数据点与父节点的距离;然后,根据数据点与父节点的相似度、距离和数据点的势能得到综合考量值,根据综合考量值自动确定聚类中心;最后,将剩余数据点分配到比其势能小且与其相似度最大的数据点所属类簇,得到聚类结果.将新算法与TTHC算法进行比较,在人工数据集和真实数据集上的实验结果表明,新算法不仅能够自动确定聚类数目,而且采用了更优的分配机制,可以产生更好的聚类结果.  相似文献   

6.
为了提高餐饮推荐系统的准确率,提出一种基于集合论和图论的餐饮高维非数值型数据聚类算法.首先将菜品数据进行预处理,找出需要的特征,删除不必要的特征,再将这些特征以集合的形式输入到系统中,使用改进的杰卡德相似系数对集合进行相似度计算,得到以集合表示方式的菜品数据间的相似度,接着将所有的数据转换为无向图,最后利用图形聚类算法进行聚类分析.实验结果表明:所提出算法的聚类过程不受噪声影响,具有很好的实用价值.  相似文献   

7.
王超  李昊昱  陈含露 《科学技术与工程》2023,23(26):11445-11451
为了挖掘终端区进场航空器交通流的分布特征,量化分析空中交通的复杂性,提出了一种基于多特征轨迹相似度和密度峰值聚类(Density-peak Clustering, DPC)的中心航迹提取方法。首先,采用单向距离(One Way Distance, OWD)计算轨迹之间的形状和物理距离,并结合空管实际运行航迹数据特征,考虑航迹之间的位置属性和航向属性,定义多特征航迹相似度模型。其次,使用密度峰值聚类算法对航迹数据进行聚类分析,提取聚类结果中每一簇中具有最高密度的真实轨迹作为中心航迹。最后,对双流国际机场终端区历史航迹数据进行实验分析,使用轮廓系数指标和基于密度的指标进行评价,并与层次聚类算法进行对比。结果表明,轨迹被划分为8个不同形态的类簇,该方法可以直观有效的识别出轨迹的整体运动特征并精确提取出真实的中心航迹。  相似文献   

8.
基于信息熵改进的 K-means 动态聚类算法   总被引:3,自引:2,他引:1  
初始聚类中心及聚类过程产生的冗余信息是影响K-means算法聚类性能的主要因素,也是阻碍该算法性能提升的主要问题.因此,提出一个改进的K-means算法.改进算法通过采用信息熵对聚类对象进行赋权来修正聚类对象间的距离函数,并利用初始聚类的赋权函数选出质量较高的初始聚类中心点;然后,为算法的终止条件设定标准阈值来减少算法迭代次数,从而减少学习时间;最后,通过删除由信息动态变化而产生的冗余信息来减少动态聚类过程中的干扰,以使算法达到更准确更高效的聚类效果.实验结果表明,当数据样本数量较多时,相比于传统的K-means算法和其他改进的K-means算法,提出的算法在准确率和执行效率上都有较大提升.  相似文献   

9.
文本数据具有高维、稀疏、海量的特性,给传统的聚类算法带来了极大挑战.提出一种基于t-分布随机近邻嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE)的文本聚类方法.首先通过t-SNE将高维文本数据嵌入到低维空间,使得高维空间相似度较低的文本对应的映射点距离较远,而相似度较高的文本对应的映射点距离较近;然后根据低维空间映射点坐标,再采用传统的聚类分析算法进行聚类,得到最终的聚类结果.在多个基准文本数据集上进行了实验测试,验证了该方法的有效性.  相似文献   

10.
文本聚类具有数据稀疏性的特点,常见的聚类方法采用基于距离的相异度,为了增强文档的区分特征,提出一种基于非对称相似度的方法,来度量文档对象之间的关联。定义了文本对象之间的非对称相似度度量。利用文本非对称相似度矩阵的稀疏特性,采用强连通构件的划分方法对文本对象进行聚类分析。并通过迭代的方法形成聚类结果的概念层次。实验结果表明:非对称相似度比距离相异度具有更高的准确率和更少的执行时间,当聚类结果簇数目达到较小时,准确率提高约为20%。  相似文献   

11.
针对现有的不完全数模糊聚类算法未考虑样本各维属性对聚类贡献不同的问题,提出了基于属性加权的不完全数模糊c均值聚类算法.利用ReliefF算法评价各维属性的重要程度,通过加权欧式距离将属性权重结合入聚类,并能实现在聚类迭代过程中的缺失属性、隶属度及聚类中心的一体化求解.实验结果表明,该算法强调了重要属性在不完全数模糊聚类中的作用,能够得到更为准确的聚类结果.  相似文献   

12.
传统K-means聚类算法通过欧式距离计算样本的相似度,将数据所有的属性特征均平等对待,忽略每个属性特征的不同贡献,导致样本相似度计算的准确率不高。针对这个不足,提出一种特征加权的K-means算法进行优化。首先,运用Softmax和Sigmoid逻辑回归函数计算特征权重,使得加权的欧式距离更能准确地表示样本相似度;其次,优化初始聚类中心选择策略,选择距离较大的K个样本作为初始聚类中心,可有效避免样本的错误聚类及空簇问题。实验结果表明,在UCI标准数据集中采用加权K-means聚类算法可以有效减少迭代次数,提高聚类的准确率、精确率和召回率。  相似文献   

13.
为了提高脑部肿瘤的磁共振成像(MRI)在肿瘤分割方面的精度和分割效率,提出了自适应阈值蚁群模糊聚类算法(TSAG_PnFCMS)。针对传统的模糊c均值聚类(FCMS)算法对噪声敏感,以及MRI图像中存在属性不同的样本点,在聚类过程中,将不同属性样本点的相关系数作为权重融入到欧氏距离的计算,提高聚类精度;针对蚁群算法容易陷入局部最优,提出一种自适应阈值蚁群算法,提高算法的全局搜索能力,将自适应阈值蚁群算法与改进的模糊聚类算法相结合,提高系统的分割精度和抗噪声性能,使得最终的分割效果达到最优。通过轮廓系数、目标函数收敛结果以及迭代时间进行实验仿真对比,表明改进算法的有效性,可见算法为颅内肿瘤图像的分割提供了可靠的技术手段。  相似文献   

14.
特征提取与多目标机器学习研究及应用   总被引:1,自引:0,他引:1  
特征提取与多目标机器学习算法是基于多目标协同EA提出的,该算法通过对学习样本多属性进行特征提取找出其核属性,由核属性与其他非核属性组成属性组,从而提高了分类的精度。各属性组再按相似性和类标签进行有监督地聚成类簇,类簇个数和中心根据适应度矢量函数通过机器学习算法自动确定,这样类簇个数和中心就不受主观因素的影响并且保证了这两个关键要素的优化性质。待分类样本的类属是按离某个类簇中心距离最近邻法则和该类簇的类标签来判定。最后,将算法应用到UCI数据集中的Liver Disorders和Hepatitis两个数据集,以及浙江省北部地区夏天异常高温天气预测。通过实验表明,特征提取与机器学习算法优于著名的朴素贝叶斯、C4.5、SVM算法。  相似文献   

15.
针对混合属性数据聚类难度高的问题,提出一种基于广义线性模型的混合属性数据聚类方法.首先,构建低阶多元广义线性模型处理海量数据聚类问题,考虑数据属性的时间特性,获取属性时间序列矩阵;然后,基于优化K-prototypes聚类方法处理混合属性数据时,考虑属性的时间序列矩阵;最后,在考虑样本同聚类中心距离基础上兼顾已知样本信息内容,采用优化方法计算数据相异度、样本与聚类集间距离,当聚类结果趋于平稳时终止运算,输出聚类结果.为验证基于广义线性模型的混合属性数据聚类方法的有效性展开实验分析.结果显示,该方法经过较少次迭代即可优化划分混合属性数据聚类集,聚类适应度值为0.88~0.94,适应度优,可准确体现样本间差异,是一种准确度高的混合属性数据聚类方法.  相似文献   

16.
目前,时间序列相似性判定大多采用欧式距离和动态时间弯曲DTW(DynamicTimeWar.ping)方法,这两种方法均存在一定缺陷。欧式距离要求序列长度一样,垂直移动序列将影响相似性判定和阈值设置的经验性;动态弯曲距离对欧式距离进行了优化,避免了欧式长度的一致性,但其他两个缺点仍然存在且计算复杂度增加。提出了一种新的基于两点时间序列相似性算法,可计算任意两序列的相似度。首先分析了两点组成的序列形态,提出了相似性判定方法TPSS(TwoPointsSegmentationSimilarity);其次为提高相似性判定的鲁棒性,减少人为阈值设置的影响,对TPSS进行了拓展;最后给出了算法及实验分析。实验结果表明,该算法能很好地判定任意序列的相似性,提高了鲁棒性及减少人为干预,对数据挖掘中的聚类与预测有很好的帮助作用。  相似文献   

17.
准确的高速公路短时交通流预测是实现交通诱导和控制的重要前提和基础。为了提高预测精度,提出一种基于流形距离(MD)的K近邻-长短期记忆(K-nearest neighbor-long short-term memory,KNN-LSTM)高速公路短时交通流预测模型。该模型利用流形相似性分析高速公路交通流的时空特性,计算多站点与目标站点之间的流形距离。然后,采用改进的KNN算法筛选出空间相关站点构造交通流数据集,通过LSTM模型提取时序特征得出预测结果。实验表明,与单一预测模型相比,该方法能更好地提取交通流时空特性且预测精度更高,可为高速公路的交通管理提供必要的依据。  相似文献   

18.
在高维子空间聚类算法中,子空间识别质量有助于改善算法性能。提出了基于属性相关性分析的子空间搜索算法,利用相对熵去除冗余属性,根据联合基尼值判断两两非冗余属性之间的相关性,形成属性关系图,并在此属性关系图上搜索相似兴趣子空间。实验结果表明算法参数容易设置,有较好的子空间识别能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号