首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
传统的k-means聚类算法对初始聚类中心非常敏感,聚类的结果也常常随着初始聚类中心而波动。为了降低聚类算法的这种敏感性,本文提出了一种自适应的聚类算法(SA—K—means),该方法通过计算数据对象区域的密度,选择相互距离最远的高密度区域的中心作为初始聚类中心。实验表明SA—K—means聚类算法能有效地消除聚类算法对初始聚类中心的敏感性,得到满意的聚类结果。  相似文献   

2.
用k-means算法对二维数据进行聚类分析,并用C#语言实现了该算法。先按照样本点的距离进行初始划分,然后再按照各样本点和初始中点的距离远近进行聚类。结果表明,k-means算法对二维数据的聚类是有效的,实现该算法的程序对二维数据的聚类具有通用性。  相似文献   

3.
介绍了 k -means 和 DBSCAN 聚类算法的基本原理和优缺点,针对传统聚类算法无法有效处理高维混合属性数据集的问题,对原有的数据归一化方法进行改进,在 k -means 和 DBSCAN 聚类算法的基础之上,结合增量聚类的思想和数据之间相异度的计算方法,提出了基于密度的增量 k -means 聚类算法,有效处理具有高维混合属性的数据集,改进了数据相异度的计算方法。  相似文献   

4.
经典的分布式k-means聚类算法随机选取初始聚类中心,进行多次的迭代,容易使得聚类效率低,网络通信量大,而且聚类结果不稳定。针对这些问题,提出一种改进的分布式k-means聚类算法。该算法通过划分数据集,计算属性最密集的k个数据块作为聚类中心,以确保聚类中心的代表性,进而减少算法的迭代计算次数,提高聚类效率。通过在Hadoop分布式平台上进行实验,结果表明改进算法能减少迭代次数和收敛时间。  相似文献   

5.
针对传统k-means聚类方法随机选择初始聚类中心而导致的收敛速度慢、聚类效果较差的问题,本文结合空间相似度度量提出一种改进的k-means初始聚类中心选择方法.该方法通过定义空间中样本的相似度,从而选择相似度较小的样本作为初始聚类中心,以减少达到聚类稳定状态的迭代次数,提高聚类的效率.UCI数据集上的实验结果表明,与传统k-means聚类方法相比,本文提出的改进的k-means初始聚类中心选择方法能够使聚类的收敛速度加快,得到良好的聚类效果.  相似文献   

6.
基于k-means聚类算法的试卷成绩分析研究   总被引:1,自引:0,他引:1  
研究了k-means聚类算法,并将此算法应用于高校学生试卷成绩分析中.首先对数据进行了预处理,然后使用k-means算法,对学生试卷成绩进行分类评价.用所获得的结果指导学生的学习和今后的教学工作.  相似文献   

7.
提出基于约束三角剖分的k-means聚类算法.笔者首先按照约束三角剖分规则对数据点集进行三角网格化,删除大于给定阈值的长边形成k个连通子图,每个连通子图作为一个子类;然后对删除长边的孤立数据点在其邻域内进行局部划分,将其归到最接近的子类中.实验结果表明本文算法无需事先输入聚类数目,可以发现任意非凸形状簇.  相似文献   

8.
k-means算法原理简单、收敛速度快,但易陷入局部最优,且须将聚类的类簇数作为先验知识,为此,引入量子微粒群与k-means算法结合,提出了一种改进的动态聚类算法。改进算法具有量子微粒群的全局搜索能力,且对每个粒子采用k-means进行优化,从而加快算法的收敛速度。通过适应度函数值的调整,算法在聚类中能够搜寻到最优类簇数,这样类簇个数和中心就不受主观因素的影响。实验表明,算法有效。  相似文献   

9.
随机选择初始聚类中心的k-means算法易使聚类陷入局部最优解、聚类结果不稳定且受孤立点影响大等问题.针对这些问题,提出了一种优化初始聚类中心的方法及孤立点排除法.该算法首先选择距离最远的两点加入初始化中心,再根据这两点将原始簇分成两个聚簇,在这两个簇中挑选方差较大的簇按照一定的规则进行分裂直至找到k个中心,初始中心的选择过程中用到孤立点排除法.在UCI数据集及人造含一定比例的噪音数据集下,通过实验比较了改进算法与其他算法的优劣.实验表明,改进后的算法不仅受孤立点的影响小、稳定性好而且准确度也高.  相似文献   

10.
对我国居民电价的现状进行了分析,提出适时推行居民阶梯递增式电价,是完善社会主义市场经济体制,提高资源配置效率,推行节能减排,促进我国经济发展方式转变的迫切需要,结合居民阶梯电价实施过程中出现的问题提出相关对策和建议。  相似文献   

11.
为克服k-means算法难以探测出一些局部分布稀疏不均、聚类区域的形状与大小不规整数据点集的聚类分布结构这个缺点,在半监督学习思想的指导下,针对混合属性空间区域中具有同一分布性质的带有类别标记的小样本数据集和无类别标记的大样本数据集,提出了一种基于半监督学习的k平均聚类框架。仿真实验表明:该框架经常能取得比k-means更好的聚类精度,从而说明这个半监督学习框架具有一定的有效性。  相似文献   

12.
At present, studies on training algorithms for support vector machines (SVM) are important issues in the field of machine learning. It is a challenging task to improve the efficiency of the algorithm without reducing the generalization performance of SVM. To face this challenge, a new SVM training algorithm based on the set segmentation and k-means clustering is presented in this paper. The new idea is to divide all the original training data into many subsets, followed by clustering each subset using k-means clustering and finally train SVM using the new data set obtained from clustering centroids. Considering that the decomposition algorithm such as SVMlight is one of the major methods for solving support vector machines, the SVMlight is used in our experiments. Simulations on different types of problems show that the proposed method can solve efficiently not only large linear classification problems but also large nonlinear ones.  相似文献   

13.
首先研究了利率不确定性下的投资项目的净现值,然后在期权定价的三叉树模型基础上提出了利率不确定性下的投资期权定价的动态规划方法,得出了投资项目的期权价值的一般表达式。结果表明,投资项目的期权价值是期初利率的函数。本方法不仅可用于解决投资期权价值的确定问题,还可用于不确定性下投资项目的决策问题。  相似文献   

14.
基于孤立点和初始质心选择的k均值算法的改进与应用   总被引:1,自引:0,他引:1  
针对聚类中广泛应用的经典k均值算法随机选择初始质心和易受孤立点影响的不足,给出了二次改进的k均值算法.首先使用距离法移除孤立点,然后采用邻近吸收法对初始聚类中心的选择进行改进,并做了改进前后的对比实验.结果表明,改进后的算法比较稳定、准确,受孤立点和随机选择质心的影响也有所降低.  相似文献   

15.
服务覆盖网络Service Overlay Networks(SON)是一种建立在基础网络之上的虚拟网络,它购买基础网络的资源,并向用户提供跨域的QoS敏感的增值服务而获取效益,因此,网络资源定价是SON健康运作的关键问题.基于博弈论方法研究了SON在弹性需求下的网络资源定价问题.描述了一种SON结构,然后建立了双层规划模型描述SON资源定价问题,模型考虑了拥塞和QoS对目标的影响.上层模型以SON收益与成本之差最大化为目标,下层是Wardrop用户均衡模型.设计了在没有精确的拥塞度量函数、需求函数的情况下,采用Trial-and-error方法和差分灵敏度分析方法结合的启发式求解算法,算例分析验证了模型的收敛性和合理性.  相似文献   

16.
针对利用距离差聚类分析算法分析学生学科成绩不够准确的问题,提出了利用标准差计算标准偏移量构建目标函数的K-means聚类分析算法,给出了初始聚类中心选取办法和算法的描述及处理流程;实验结果分析可得,利用标准偏移量构建的学生成绩K-means聚类分析算法,符合对学生成绩按学科类别聚类分析的特性要求;该算法能够较好的实现学科成绩高度关联属性的聚类分析结果。  相似文献   

17.
一种基于加权聚类分析的岩体可爆性分级方法   总被引:8,自引:0,他引:8  
在对岩体可爆性影响因素进行综合归纳分析的基础上,对14种岩石静载和动载特性参数、岩石容重以及岩体完整性系数测试与计算的结果进行了线性相关性统计分析. 结果发现,岩石静载抗拉强度、容重和岩体整体性系数三个指标线性相关性较低或基本不相关,可以同时采用且仅采用这三个指标对岩体的可爆性进行可靠描述. 基于此结果,同时考虑到岩石爆破破坏的动载特性,对本钢矿业公司某矿山的14种岩石容重、静载抗拉强度、岩体整体性系数、动载冲击强度进行了加权聚类分析,提出了该矿山岩体可爆性分级的方法.  相似文献   

18.
考虑到实际金融市场的不完备性以及收益率分布的厚尾性,基于经典Black-Scholes模型并运用函数的下凸性,期权定价公式H(a)=E[(X-a)2]被推广为Hk(a)=E[(X-a)2k].通过DJSH(道琼斯上海)指数收益率的GARCH模型,并使用随机模拟的方法对这两个公式进行定价比较.结果表明这种方法有效提高了定价,从而降低了风险.  相似文献   

19.
文章基于信息熵理论,将模糊聚类评价方法和决策树分类算法联系起来,提出从信息熵角度用决策树分类算法来评价聚类算法结果的有效性,从而确定最佳的聚类个数;并将该方法应用到证券行业客户忠诚度分析模型的建立中.实验结果表明,该方法可以明显提高聚类的效果,并且使得聚类结果的可解释性强,具有良好的实用价值.  相似文献   

20.
目前,每年被拦截到的新型恶意软件变种数已达千万级别,在线恶意软件仓库Virus Share上存储的未分类的恶意软件数量也超过了2700万.将恶意软件按一定的行为模式进行聚类,不仅使新型攻击更易被检测出来,也有助于及时获取恶意软件的发展态势并做出防范措施.因此提出了一种高效的恶意软件聚类方法,对恶意样本进行动态分析并筛选出包括导入、导出函数、软件字符串、运行时资源访问记录以及系统API调用序列等特征,然后将这些特征转换为模糊哈希,选用CFSFDP聚类算法对恶意软件样本进行聚类.并将聚类个数、准确率、召回率、调和平均值以及熵作为聚类效果的外部评估指标,将簇内紧密度以及簇间区分度作为内部评估指标,实验结果表明,与Symantec和ESET-NOD32的分类结果相比,本文提出的方法的聚类家族个数与人工标记的数量最为接近,调和平均值分别提升11.632%,2.41%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号