首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对寿险行业的客户流失问题,构建基于外在、内在、行为(EIB)属性的寿险客户指标体系。提出改进的K-means算法,使用改进的轮廓系数公式判断初始聚类数目,并利用欧式距离相似度与余弦相似度的测度优势提出欧式类簇空间的局部、全局离群点过滤规则。运用传统的K-means算法、不同离群点监测阈值下的改进Kmeans算法进行客户细分及其可视化展示,并采用BP-Adaboost算法对细分后的客户进行流失预测。实证表明:改进的K-means算法可视化噪声降低、簇内误方差减小,可在后续的预测器中实现更高预测精度,为保险公司挖掘更精准的客户分类信息、挽留客户提供决策依据。  相似文献   

2.
在多标签学习中,标签相关性是不可或缺的。当标签缺损只能观察到一部分标签时,很难判断标签之间的相关性。具有全局与局部标签相关性的多标签(GLOCAL)算法通过学习潜在标签和引入标签流行正则化项,同时利用全局和局部标签相关性来解决标签缺损问题。但是该算法在通过低秩分解学习潜在标签以及原始标签与潜在标签的关联性时,初始化的低秩矩阵是随机获取的,这导致该算法结果并不稳定。基于此,利用K-means算法对原始标签进行聚类,获得的聚类中心矩阵将能更好地表现出原始标签与潜在标签之间的相关性。实验结果表明,本文的算法是合理和有效的。  相似文献   

3.
为了解决K-means算法在随机初始化过程中影响到K-means算法的效率性和正确性问题.提出了一种改进的方法(IKM),该方法是一种改进K均值的算法,利用密度、网格和统计等概念,将IKM的模拟数据与K-means进行比较.结果证明IKM的效率性和正确性优于K-means算法,对于复杂的情况在数据分布方面,IKM的表现优于K-means算法.  相似文献   

4.
【目的】研究评价问题中评价对象因个体差异性的聚类问题。【方法】首先引入夹角余弦刻画评价对象个体间倾向性上的差异大小,其次利用余弦相似度与欧式距离刻画评价对象的总体相似度,对Tzortzis和Likas提出的min-max K-means聚类算法进行改进。【结果】利用某高校参与评价教师的指标数据集进行初步的数值实验,证明了改进K-means算法的有效性。【结论】余弦相似度刻画考核对象的偏向性差异,很好的克服了欧式距离只考虑数值绝对值上的差异,具有重要的现实意义。  相似文献   

5.
针对客户市场细分问题进行了研究。依据粗糙集理论,以信息表中条件属性与决策属性的一致性原理为基础,以超立方体、扫描向量为数据计算对象,进行数据离散化和连续型属性约简,实现了数据预处理;在此基础上,以集合差异度指标为约束条件,运用集合特征向量加法法则最终实现客户市场细分。在实验中,连续属性离散化和冗余属性约简有效地减少了计算数据,便于客户市场细分的实现,提高了客户市场细分的效果。研究结果表明该客户市场细分算法是有效可行的。  相似文献   

6.
工件表面缺陷的存在影响工件产品的质量以及工件的安全使用,传统的工件表面缺陷检测由人工完成,工作量大且易受到检测人员主观因素的影响,很难保证检测的效率与精度.本文提出了一种基于改进的K-means算法的工件表面缺陷分割算法,将自适应人类学习优化算法应用到K-means聚类算法中,使自适应人类学习优化算法初始化K-mean...  相似文献   

7.
针对全局K-means聚类算法和快速全局K-means聚类算法在选择下一簇的聚类中心点时,需要逐一计算数据集中每个点作为备选聚类中心点时的簇内平方误差函数,而数据集中存在很多不可能作为备选点的噪声点.为剔除噪声点,提出了一种基于高密度数的DGK-means算法,并通过UCI数据库中的4组数据集进行实验测试.验证了在聚类效果稳定的前提下,改进的DGK-means算法比全局K-means算法和快速全局K-means算法,聚类用时更短,聚类效率更高.  相似文献   

8.
详细介绍了经典划分式聚类算法K-means的特点,针对该算法中"聚类中心难以确定"的不足提出"选择最优聚类质心"的改进方案,改进后的算法得到了可靠的聚类质心.最后,基于"中华网BBS"文本数据对改进后的算法进行验证、分析,并与经典K-means算法聚类结果进行对比,得到了更为理想的实验结果,表明算法可行有效.  相似文献   

9.
K-means算法需要人工设定聚类个数且易受孤立点影响,根据这个缺陷提出了一种新的改进算法。改进算法通过设定初始值及初始值的最大值,在聚类过程中自动获取聚类数k。实验结果表明,该算法在一定程度上缓解了K-means算法对初始值敏感及受孤立点影响的问题,能产生高质量的聚类结果。  相似文献   

10.
针对现有(Rival Penalized Competitive Learning,RPCL)算法之不足,提出根据样本数据集自然分布规定样本密度,把此密度代入次胜者受罚竞争学习算法(RPCL)节点权值调整的改进RPCL算法;以改进RPCL算法对数据集进行预处理,确定K-means算法的合理类簇数目和最佳初始聚类中心,提高K-means算法的聚类效率和聚类准确性,促进其尽快地收敛至全局最优解。  相似文献   

11.
数据分析量巨大、逻辑关系复杂以及人工依赖程度高等因素增加了电子数据取证中行为分析的难度。针对网络入侵行为取证,提出了一种基于改进K-means聚类的机器学习分析方法。该算法改善了原有算法应用于取证所导致的缺陷问题,使初始聚类中心和聚类数能够依据向量分布情况自主进行设置,实现了网络行为智能属性归类。首先预处理网络行为数据,利用PV-DM模型将其向量化,基于改进算法寻找局部向量间相似度之和最大的向量,进而确定聚类中心与聚类数目,实现行为分类,由已知入侵行为信息关联出未知入侵用户及其行为,提升取证效率与结果完整性。  相似文献   

12.
随着商业银行信息化进程中数据集中阶段任务的完成,各商业银行将面临如何从大量的数据中提取有价值的信息和知识以提高企业决策质量和市场竞争力,数据挖掘技术的出现使企业“数据变知识”成为可能。文章主要结合商业银行的实际,探讨了核聚类方法在提高银行服务成功率等方面的应用。  相似文献   

13.
李贵萍 《科技信息》2011,(26):38-38
1.研究意义意大利社会学家和经济学家维尔弗里多.帕累托(VilfredoPareto)很早就提出80/20法则,也就是所谓的帕累托法则(Pareto’s Law):80%的利润来自于20%的客户。80/20定律说明了大客户对于企业至关重要的作用。只有通过合理配置企业内部的客户服务资源,实现大客户细分服务与管理的最优化,才能有效提升营销服务水平,树立良好的企业形象,取得经济效益和社会效益的双赢。识别电力大客户的需求差异,进而有针对性的推出大客户营销策略对于电力行业来说具有重大的经济意义和社会意义。  相似文献   

14.
基于信息熵改进的 K-means 动态聚类算法   总被引:1,自引:2,他引:1  
初始聚类中心及聚类过程产生的冗余信息是影响K-means算法聚类性能的主要因素,也是阻碍该算法性能提升的主要问题.因此,提出一个改进的K-means算法.改进算法通过采用信息熵对聚类对象进行赋权来修正聚类对象间的距离函数,并利用初始聚类的赋权函数选出质量较高的初始聚类中心点;然后,为算法的终止条件设定标准阈值来减少算法迭代次数,从而减少学习时间;最后,通过删除由信息动态变化而产生的冗余信息来减少动态聚类过程中的干扰,以使算法达到更准确更高效的聚类效果.实验结果表明,当数据样本数量较多时,相比于传统的K-means算法和其他改进的K-means算法,提出的算法在准确率和执行效率上都有较大提升.  相似文献   

15.
研讨了数据挖掘中K-means聚类算法,在继承经典K-means算法的优点和基于最大最小距离的方法基础上实现了算法的改进,改进后的算法可根据欧氏距离度量的方法自动确定聚类中心个数K值,并能够识别数据对象中存在的孤立点和噪声,经过实验证明改进后的算法在执行效率、稳定性和K值确定方面都优于K-means算法.  相似文献   

16.
针对大数据环境下聚类算法所处理数据规模越来越大、对算法时效性要求越来越高的问题,提出一种基于分布式计算框架Spark的改进K-means快速聚类算法Spark-KM.首先针对K-means算法因初始聚类点选择不当导致局部最优、迭代次数增加而无法适应大规模数据聚类的问题,通过预抽样和最大最小距离相结合对K-means算法进行改进;然后对原始数据进行矩阵分割,并存储在不同的Spark计算框架的结点当中;最后根据改进的K-means算法,结合分布式矩阵计算和Spark平台进行大数据快速聚类.结果表明,文中算法可以有效减少结点间的数据移动次数,并具有良好的可扩展性.通过该算法在单机环境和集群环境的对比测试,说明该算法适用于大规模数据环境,且算法性能与数据规模成正比,集群环境较单机环境也具有很大的性能提高.  相似文献   

17.
基于2d-距离改进的K-means聚类算法研究   总被引:1,自引:0,他引:1  
为了解决原始K-means算法随机选取聚类中心对聚类结果产生较大影响的不足和孤立点的存在对聚类精度的破坏,以及两者之间的相互牵制性,采用基于2d-距离的DKC值来对原始样本数据集进行预处理以分辨孤立点,同时确定初始的聚类中心,达到消除两者相互影响的效果,使得聚类中心相对稳定,改进后的算法较原始的算法在准确度上得到了改进。  相似文献   

18.
针对原始K-means算法的一系列问题,提出一种基于半监督的K-means聚类改进算法,能够自动进行聚类,找出最优K值,并且最大限度地找出孤立点.首先根据样本集自身的特点,按照"类内尽可能相似"原则一步一步形成数据集,然后对数据集进行"去噪"与合并相似簇,最后,利用少量的标记信息指导和修正聚类结果.在UCI的多个数据集...  相似文献   

19.
K-means聚类算法简单,收敛速度快,但是聚类算法的结果很容易受到初始聚类种群的影响,往往导致局部最优。差分进化算法具有很强的全局收敛能力和鲁棒性,但其收敛速度较慢。为此,将K-means聚类算法和差分进化算法相结合,提出一种基于K-means的改进差分进化聚类算法。该算法设置在一定范围内随迭代次数动态增加的交叉算子,以使算法在迭代过程中先进行全局搜索,再进行局部搜索,这样有助于平衡算法的全局寻优和局部搜索能力,并且加快了算法的收敛速度。最后,通过实验测试了算法的有效性。  相似文献   

20.
异常检测方法在电力领域有着广泛的应用,如设备故障检测和异常用电检测等.改进了传统Kmeans聚类随机选择初始聚类中心的策略;结合数据对象的密集度与最大近邻半径,选择更加接近实际簇中心的数据点作为初始聚类中心,并在此基础上提出了一种基于改进K-means算法的电力数据异常检测新方法.实验表明,上述算法具有更优的聚类效果和异常检测性能,并且在应用于电力领域时,算法可以有效地检测出异常电力数据.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号