首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为有效解决传统K-means聚类算法在处理大规模数据集时面临的扩展性问题,提出了一种Hadoop K-means聚类算法.该算法首先根据样本密度剔除数据集中孤立点或者噪声点的影响,再利用最大化最小距离思想选取K个初始中心,使初始聚簇中心点最优化,最后用Hadoop云计算平台的Map Reduce编程模型实现算法的并行化.实验结果表明,该算法不仅在聚类结果上具有较高的准确率和稳定性,而且能够很好地解决传统聚类算法在处理大规模数据时所面临的扩展性问题.  相似文献   

2.
针对传统FCM算法无法获得令人满意的聚类结果的问题,提出了基于样本与特征双加权的自适应FCM聚类算法。采用特征和样本双加权的策略,以特征权重信息熵作为代价函数,与样本权重、特征权重相融合,通过迭代优化的方法动态计算各属性特征对不同类别的权重系数、每个样本对聚类的重要性权重值,综合考虑各个样本的贡献度和各个特征的重要性,从而达到提高聚类结果质量的目的。使用5个来自UCI的标准机器学习数据集,对聚类算法的有效性进行验证。结果表明,对于具有不同样本贡献度和不同特征重要性的数据集,提出的算法具有较好的聚类效果。  相似文献   

3.
集成学习是一种受到广泛认可和使用的机器学习算法.为此提出一种新的多类集成学习算法,即AdaBoost belief.此算法改进多类集成学习算法AdaBoost·SAMME,使每个基分类器对于每个类别都有权重信息.这种类别上的权重被称为类别信念,可通过计算每次迭代中各个类别的正确率得到.将所提出的算法与原有的AdaBoost·SAMME算法从预测准确率、泛化能力以及理论支持等方面进行比较发现:在高斯数据集、多种UCI数据集以及基于日志的多类别入侵检测应用中,该算法不但具有更高的预测准确率和泛化能力,而且当类别数目增加,即类别更难以预测时,其分类错误率较原有AdaBoost·SAMME算法上升得更缓慢.  相似文献   

4.
为了提升分类模型对非平衡数据的分类性能,提出一种EMWRS(expectation-maximization weighted resampling)抽样算法和WCELoss(weighted cross entropy loss function)损失函数,在数据预处理阶段采用高斯混合模型得知数据分布特点,根据其聚类结果分析每个聚类簇中样本权重,以及样本分布和对应权重对数据进行采样,降低数据集不平衡程度;再依据样本比例权重对少数类和多数类赋予不同的代价损失,构建卷积神经网络模型,提高非平衡数据集的分类准确性。构建的卷积神经网络以F1和G-mean为评价指标,在UCI(university of California irvine)公共数据集adult上与SMOTE(synthetic minority over-sampling technique)和ADASYN(adaptive synthetic sampling)等多种经典算法进行比较,结果显示在这两种评价指标中所提模型均为第一,这表明改进后的卷积神经网络模型能够很好地提高少数类分类正确率。  相似文献   

5.
数据聚类是将数据对象划分到不同的类或簇中,是数据挖掘中的一项重要技术.教育领域拥有海量的学生信息数据,把数据挖掘中的聚类技术引入其中,具有很强的实际价值.阐述了运用数据挖掘中改进的引入权重的聚类技术对成绩数据进行选择、预处理和挖掘分析等,展示了3个Matlab实验使成绩数据如何通过K-means算法进行聚类分析,并对3种运行结果的意义各自进行了显示与分析,同时指出了运行结果的不足及意义.针对学生实验中的分类原因进行了研究并在学生成绩分析中发现很多隐含着的不易发现的有价值信息,利用这些聚类结果提出了相应的教学措施及建议,从而有针对性地提高教学质量.  相似文献   

6.
鉴于网络入侵检测数据样本特征属性的异构性及贡献率不同,提出一种加权特征的异构数据相似性度量法来反应网络数据样本间的相似程度.针对基于模糊C-均值聚类的网络入侵检测算法聚类数目难以确定的问题,提出了一种自动确定最佳聚类数的无监督模糊聚类入侵检测算法.通过KDDcup1999数据集的仿真对比实验,结果表明本文算法能找到最佳...  相似文献   

7.
为了在动态环境中快速地跟踪变化后的最优解集,提出一种基于聚类预测模型的动态多目标优化算法.通过对种群聚类,提高预测解集的分布性与广泛性,为分段预测做准备,然后利用历史信息对每个子类的中心点和形状进行预测,在环境变化后,预测产生的每个子类共同构成整个新的初始种群,有引导性地增加了种群的多样性,使算法能快速跟踪新的最优解集.在标准动态测试问题上进行算法测试,实验结果表明所提算法能快速地适应环境的动态变化,所获解集具有较好的收敛性和分布性.  相似文献   

8.
针对K均值聚类算法存在的缺点,提出了一种基于自适应权重的粒子群优化(PSO)和K均值混合聚类算法.该算法在运行过程中通过引入非线性动态惯性权重系数,提高了混合聚类算法全局搜索能力和局部改良能力,并根据群体的适应度方差来确定K均值算法操作时机,增强算法局部搜索能力的同时缩短了收敛时间.将该算法与K均值聚类算法、基本PSO聚类算法和基于传统的粒子群K均值聚类算法进行比较,表明该算法不仅能有效地克服陷入局部最优,而且全局收敛能力和收敛速度都有所提高.  相似文献   

9.
模糊k-最近邻(fuzzy k-nearest neighbor,FkNN)及其改进的分类方法忽略了样本存在分布不均匀以及噪声样本的情况,不能充分体现每个类样本特征的差异性,影响了分类的准确率.为此,提出了一种基于紧密度的模糊加权kNN数据分类方法.首先基于样本间紧密度计算样本的隶属度;然后根据特征的模糊熵值分别计算每个类样本特征的权重,并使用加权欧氏距离确定近邻训练样本;最后根据待分类样本所属的每个类别的隶属度确定其类别.对UCI多个数据集的实验结果表明该方法是有效的.  相似文献   

10.
该文提出了一种多任务Takagi-Sugeno-Kang(TSK)模糊系统建模方法.首先给出了一种新的多任务模糊c均值聚类算法,能够有效提取所有任务之间的公共信息和每个任务的私有信息,进而利用所得的聚类中心构建多任务TSK模糊系统的前件参数.其次设计了一种具备多任务协同学习机制的后件参数优化方法,可以优化多任务TSK模糊系统的后件参数.最后基于优化的前后件参数,构建出具体多任务模糊聚类方法驱动的多任务TSK模糊系统模型(multi-task fuzzy c-means based multi-task TSK fuzzy system,MTFCM-MT-TSK-FS)以用于实际应用.分别在合成和真实数据集上进行实验,结果验证了该模型的有效性.  相似文献   

11.
大规模高维数据集的聚类算法已成为当前聚类研究的热点,由于高维的原因,聚类往往隐藏在数据空间的某些子空间中,传统的聚类算法无法获得有意义的聚类结果.此外,高维数据中含有的大量的随机噪声也会带来额外的效率问题.为了解决以上问题,该文在CLIQUE算法的基础上提出了一种基于最优区间分割和数据集划分的聚类算法—OpCluster,并使用仿真数据对该算法加以验证,实验结果表明,OpCluster对大规模高维数据集具有很好的聚类效果.  相似文献   

12.
随着大数据的出现,越来越多研究者对复杂网络的社区发现感兴趣,现有社区发现算法大多为检测不重叠社区的.提出一种基于粒子群算法的重叠社区划分法,初始粒子群时考虑非法划分的产生,用标签传播法调整每个粒子的编码.在一种经典数据集上测试,验证了该算法有效性,能快速检测出网络中潜在的社区结构.  相似文献   

13.
基于遗传算法的可变加权FCM聚类方法改进研究   总被引:2,自引:2,他引:0  
模糊C均值聚类(FCM)应用广泛,但是它容易陷入局部最优,且对初始值很敏感.利用遗传算法对模糊聚类中聚类中心的个数和聚类中心的选取进行了确定,然后在FCM法中引入指标权重,并给出迭代公式和相应算法.实验结果表明,该方法可以在一定程度上避免FCM算法对初始值敏感和容易陷入局部最优解的缺陷,使聚类更合理,效果很好.  相似文献   

14.
无线传感器网络(Wireless Sensor Networks,简称WSNs)是一种多跳、自组织式的网络,传感器节点在能量、通信能力以及计算能力等方面均受限,并且在数据传输过程中也存在安全隐患,基于此提出了一种基于K-means聚类的安全高效的数据聚集算法KSEDA(K-means Safe and Efficient Data Aggregation).该算法采用K-means聚类算法对传感器节点进行分簇,通过分析节点的剩余能量进行选择簇头节点;并在向汇聚节点Sink传递过程中通过安全多方计算协议进行数据安全聚集.通过与CPDA算法进行实验对比,算法具有低能耗、高安全性等特点.  相似文献   

15.
谱聚类是一种以图和相似性为基础的聚类新算法.当图像很大时,计算相似性矩阵及其特征值和特征向量十分耗时.为了将谱聚类算法应用于大规模聚类问题,该文提出一种两阶段纹理图像分割算法,采用改进的分水岭算法进行预分割,然后用特征值尺度化特征multiway谱聚类算法进行最终分割.为了检验算法性能,将其应用于纹理图像分割,分割结果令人满意.  相似文献   

16.
随着Internet的迅速发展,人们面对信息爆炸的现实。因此,需要根据用户的查询意图进行推荐。基于此,提出一种计算查询词相似度的方法,利用K-means对查询词进行聚类并计算聚类簇中心,当用户输入查询词后计算该查询词与每个聚类簇中心的相似度并降序排列,选取相似度最大的两个聚类簇对其进行查询推荐。  相似文献   

17.
传统的分类算法通常设置统一的最小置信度提取规则.如果训练数据集是不平衡的数据,统一置信度的分类算法在小类的准确率不高.本文提出了一种基于训练集类分布的多置信度不平衡数据分类算法CBMI.在CBMI算法中,根据训练数据中类的分布设置不同的最小置信度提取规则,小类置信度的临界值比大类置信度低.此外,算法CBMI综合三种度量选择“好”的属性值.实验结果表明,基于多置信度不平衡数据分类算法CB—MI提高了小类数据分类的正确率.  相似文献   

18.
缺失数据处理通常基于统计学的方法,在数据预处理阶段对缺失值进行填补,其效率和准确性并不高。因此,提出了一种基于模糊C均值(FCM)聚类的嵌入式填充方法(FCMSI)。此算法通过平均比率法(ARM)对稀疏数据进行初始化填充;采用局部距离策略对FCM进行改进,并对数据进行聚类;将缺失数据作为变量,在每次聚类迭代后的簇内采用协同过滤(CF)的思想对变量值进行替换,直到结果收敛。利用UCI标准数据集进行对比实验,并采用三种不同评价指标衡量,验证了FCMSI方法比传统填充方法性能显著提高。  相似文献   

19.
随着互联网的迅速发展,XML已经成为互联网中最常用的数据交换与存储语言,如何从大量的XML文档中提取有价值的信息是目前的研究热点之一.本文提出了一种基于SET/BAG模型的改进的相似度计算方法.该方法将XML文档的每个节点转换成一个对象(由对象名、父对象、属性集合以及该对象相对于其父对象的权重组成),能较完整地表达XML文档的结构信息,并且通过调整重复节点的权重来降低其在相似度计算中的影响.在真实数据集与人工数据集上分别进行实验,仿真实验结果表明,本文提出的基于SET/BAG模型下改进的相似度计算方法能得到很好的聚类结果.  相似文献   

20.
为了提高银行客户分类的正确率,使银行的收益最大化,提出一种基于改进K均值聚类的银行客户分类算法.算法定义了类间最大相似度均值(AMS),并根据该定义确定最佳聚类数.当计算出的当下AMS值比前一次的AMS值小时,根据距离原则选择初始聚类中心;当计算出的当下AMS值比前一次的AMS值大时,把该最小AMS值相匹配的聚类中心看作初始聚类中心.利用最佳聚类数和初始聚类中心实现银行客户的细分.仿真结果表明,提出的算法能够跳出局部最优,并提高客户分类的正确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号