首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 640 毫秒
1.
详细介绍了经典划分式聚类算法K-means的特点,针对该算法中"聚类中心难以确定"的不足提出"选择最优聚类质心"的改进方案,改进后的算法得到了可靠的聚类质心.最后,基于"中华网BBS"文本数据对改进后的算法进行验证、分析,并与经典K-means算法聚类结果进行对比,得到了更为理想的实验结果,表明算法可行有效.  相似文献   

2.
基于孤立点和初始质心选择的k均值算法的改进与应用   总被引:1,自引:0,他引:1  
针对聚类中广泛应用的经典k均值算法随机选择初始质心和易受孤立点影响的不足,给出了二次改进的k均值算法.首先使用距离法移除孤立点,然后采用邻近吸收法对初始聚类中心的选择进行改进,并做了改进前后的对比实验.结果表明,改进后的算法比较稳定、准确,受孤立点和随机选择质心的影响也有所降低.  相似文献   

3.
针对传统Single-Pass聚类算法存在的缺陷,提出了一种基于自编码神经网络的Single-Pass聚类算法。通过多个深层的隐藏层对原始数据进行降维,以更好地提取出原始数据的特征信息;并通过对边缘文本重计算来降低误检率,提高聚类精度。实验结果表明,该算法相比传统Single-Pass算法具有更高的聚类准确度,解决了聚类结果受数据顺序影响的问题。  相似文献   

4.
基于快速全局模糊C均值聚类算法的脑瘤图像分割   总被引:1,自引:0,他引:1  
针对经典模糊C均值聚类算法对初始聚类中心过于敏感的缺陷,提出一种快速全局模糊C均值聚类算法.该算法采用分阶段动态递增的方式选取初始聚类中心,避免了随机化设置导致的聚类结果稳定性差问题.实验分析表明,改进后的模糊C均值聚类算法在脑瘤图像分割中的聚类效果较好,多个数据集的聚类准确率也表明,快速全局模糊C均值算法的聚类稳定性明显提升.  相似文献   

5.
经典的分布式k-means聚类算法随机选取初始聚类中心,进行多次的迭代,容易使得聚类效率低,网络通信量大,而且聚类结果不稳定。针对这些问题,提出一种改进的分布式k-means聚类算法。该算法通过划分数据集,计算属性最密集的k个数据块作为聚类中心,以确保聚类中心的代表性,进而减少算法的迭代计算次数,提高聚类效率。通过在Hadoop分布式平台上进行实验,结果表明改进算法能减少迭代次数和收敛时间。  相似文献   

6.
现有话题检测的主要方法是利用Single-Pass及其改进算法进行聚类分析,没有考虑文本的结构特点,相似度计算方法单一,从而影响准确度.针对此问题,改进了Single-Pass的相似度计算方法,综合考虑文本的标题、摘要、时间、地名以及来源等要素,采用层次分析法计算并赋以不同权重,提出一种多相似度计算组合策略.考虑到食品安全是一个广受关注的话题,实验通过网络爬虫抓取并筛选了最近3年食品安全方面的媒体信息,以此作为数据进行分析,结果表明,采用本文提出的改进Single-Pass聚类算法,话题检测准确度更高.  相似文献   

7.
针对经典k-means聚类算法的弊端进行一定程度上的改进,提出一种新的基于距离相等函数决定最佳聚类值的改进方法.实验采用两大类标准数据集来测试该算法,并和k-means算法的结果进行了比较,证实了该改进算法的有效性,解决了聚类数目k值的难确定性问题.  相似文献   

8.
K均值聚类算法初始质心选择的改进   总被引:3,自引:0,他引:3  
聚类分析在信息检索和数据挖掘等领域都有很广泛的应用,K均值聚类算法是一个比较简洁和快速的聚类算法,但是它存在着初始聚类个数必须事先设定以及初始质心的选择也具有随机性等缺陷,造成聚类的结果不是最优的。针对K均值聚类算法中的随机指定初始质心的缺点,提出了基于密度和最近邻相似度的初始质心选择算法,实验显示该算法可以生成质量较高而且较稳定的聚类结果,但是改进的算法需要事先设定最近邻相似度的阈值计算量较大等缺点,还有待改进。  相似文献   

9.
对电子商务顾客忠诚度影响因素进行了全面的分析,以经典RFM客户忠诚度模型为基础,建立RFMSA电子商务客户忠诚度划分模型.通过聚类分析算法对顾客忠诚度进行划分.以经典聚类分析算法K-means为基础,提出分段确定初始聚类中心的改进算法对顾客忠诚度进行划.通过对经典样本数据进行分析,实验结果表明,改进的粗糙集K-means聚类算法能够有效的提高聚类的准确率.  相似文献   

10.
针对传统k-means算法中初始聚类中心选取的随意性对于聚类结果影响较大的问题,提出了基于Leader算法的k-means改进算法——Lk-means算法.该算法有效避免了初始聚类中心选取的边缘化和随意性.实验证明,Lk-means算法的聚类结果更加有效合理.  相似文献   

11.
针对无线传感器网络中基于低能量自适应聚类层次(LEACH)算法进行分簇时出现的簇分布不均匀及路由能量消耗过快问题,提出一种基于双簇头聚类和数据融合的分簇算法.该算法在分好的簇中选择两个级别的簇头,两个簇头履行不同职责,能更好地均摊能量消耗,提高了分簇均匀性.仿真实验结果表明,该算法降低了网络能耗,提升了网络生命周期.  相似文献   

12.
一种改进的PSO-Means聚类优化算法   总被引:1,自引:0,他引:1  
针对粒子群优化算法在线性不可分情况下不能找到合适的聚类初始质心和正确的聚类个数的缺点,提出引入核方法,对基于粒子群算法的K均值聚类(PSO-Means)算法进行改进。利用核方法把数据映射到高维空间,在高维空间中使用粒子群算法找出所应聚的类,最后利用核空间中的聚类算法对数据进行聚类。通过实验,验证了该算法在线性不可分的情况下可以较好的运行,在很大程度上提高了聚类的效果。  相似文献   

13.
In the K-means clustering algorithm, each data point is uniquely placed into one category. The clustering quality is heavily dependent on the initial cluster centroid. Different initializations can yield varied results; local adjustment cannot save the clustering result from poor local optima. If there is an anomaly in a cluster, it will seriously affect the cluster mean value. The K-means clustering algorithm is only suitable for clusters with convex shapes. We therefore propose a novel clustering algorithm CARDBK—"centroid all rank distance(CARD)" which means that all centroids are sorted by distance value from one point and "BK" are the initials of "batch K-means"—in which one point not only modifies a cluster centroid nearest to this point but also modifies multiple clusters centroids adjacent to this point, and the degree of influence of a point on a cluster centroid depends on the distance value between this point and the other nearer cluster centroids. Experimental results showed that our CARDBK algorithm outperformed other algorithms when tested on a number of different data sets based on the following performance indexes: entropy, purity, F1 value, Rand index and normalized mutual information(NMI). Our algorithm manifested to be more stable, linearly scalable and faster.  相似文献   

14.
基于压缩感知的无线传感器网络节点定位算法   总被引:1,自引:0,他引:1  
为了得到有效的、通用的定位算法,提出了两种新的定位算法——基于压缩感知的无线传感器网络节点定位算法(NLCS)及其改进算法(INLCS).NLCS算法利用压缩感知和加权质心算法进行节点位置估计.提出了伪跳数以改进NLCS算法,提升了算法的定位性能.这两种算法解决定位问题必须满足3个条件,使其更适合于实际应用.仿真结果表明,相对于LSRC和LSVM定位算法,这两种算法有更好的定位性能.  相似文献   

15.
为了改善K-means算法的聚类效果,将聚类准则函数定义为加权的类内误差平方总和SSE(sum of the squared error),并调整了K-means算法迭代过程中重新分配数据对象的方法:使用一个带有类内数据对象数的加权距离作为重新分配数据对象的依据,同时按类间差异最大化为准则优化了加权距离中的参数。实验表明,改进后的K-means算法可以在很大程度上减少大类被拆分情况的发生,明显改善聚类效果。  相似文献   

16.
通过对工业现场可编程控制系统的主要干扰来源和成因进行分析,从电源的优化、电缆选择和敷设、I/O信号的防错等硬件电路设计和定时器控制采样、计数器过滤输入“抖动”、设置“看门狗”监控程序等软件编程技术提出了提高可编程控制系统抗干扰能力的方法和措施.实践证明,抗干扰效果显著.  相似文献   

17.
基于样本密度的FCM改进算法   总被引:6,自引:0,他引:6  
从聚类中心的直观属性出发,选取样本中密度较大的点作为FCM算法的初始聚类中心。解决了FCM算法对初始值敏感、收敛结果容易陷入局部极小等问题。实验结果证明这一算法的合理性和有效性。  相似文献   

18.
产业集群的特性能促进创新成果扩散,但同时也可能降低集群成员的积极性,而引入技术许可进行合作创新是解决上述问题的一个重要方法。在考虑产业集群内企业的差异性的基础上,引入了集群企业间距离和衰减系数,分析了距离和衰减系数对两个生产同质产品的寡头企业创新决策的影响。研究发现,即使在存在创新扩散的情况下,企业还是会选择创新以降低成本。进一步研究了合作创新时的最优决策,得到了在何种水平的技术许可费下总利润会达到合作创新时的情形,此时企业之间的距离越小,技术许可费用越高。  相似文献   

19.
“城镇上山、农民进城”对云南地理环境和人口因素的“变革”功效在于:“城镇上山”扩展了美丽云南建设所需的地理空间,“农民进城”促升了美丽云南建设所需的人口质量。地理空间拓展人口素质提高奠定美丽云南建设的两大基石。因此,“城镇上山、农民进城”要真正奠定美丽云南建设的两大基石,应探索完善云南特色城镇化路子;深入贯彻科学发展观和生态文明新理念这样才能迎难而上破解美丽云南建设中的突出难题。  相似文献   

20.
采用经验风险最小化归纳原则和梯度下降方法调整传统中心分类法的类别中心向量, 解决了传统中心分类法因忽略训练集文本权值因素而导致的类别中心向量表达能力较差问题, 得到了与支持向量机分类性能基本一致的一种改进的中心分类法. 实验结果表明, 该方法是提高中心分类法分类性能的一种有效方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号