首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 812 毫秒
1.
一种广义加权模糊聚类算法   总被引:2,自引:0,他引:2  
提出了一种广义的加权模糊聚类新算法来处理具有不同特征贡献和不同数据分布的混合属性数据.分别利用样本概率密度思想和ReliefF算法为每一个样本和每一维特征分配权值,通过样本和特征的加权,将模糊c均值算法、模糊c-modes算法、模糊c-原型算法以及样本加权聚类算法统一为一个通用的框架.不同测试数据集的实验结果证明,这种广义的模糊聚类新算法对于处理不同分布以及具有不同特征贡献的大数据集是相当有效的.  相似文献   

2.
为了解决传统K均值算法在处理大规模数据时的局限性,在近似K均值算法(AKM)基础之上,利用对聚类中心进行分类的思想,提出了快速近似K均值算法(FAKM).该算法舍去了在AKM聚类结果中只获得少数样本的聚类中心,并充分利用类内样本密集稳定的聚类中心,使得迭代过程中待聚类样本数和类别数逐步减少,达到了提高算法速度及精简聚类结果的目的.将FAKM算法运用于实际的图像检索系统中,实验结果表明,系统在检索准确率、检索时间和聚类时间方面都得到了很好的改善.  相似文献   

3.
针对传统κ-均值聚类方法不能处理大规模聚类的问题,提出一种加速κ-均值聚类方法,称为S_κ-均值聚类算法.该方法在传统κ-均值方法基础上,首先随机抽取一定量的样本点作为初始工作集,并在初始工作集上进行聚类,求出相应的类中心.然后对剩余的样本,根据其与已得到的类的相似度进行一次性的划分,从而得到划分后的类别.由于该方法只有较小规模的初始工作集需要进行一般的κ-均值聚类,而剩余的大多数数据不需要进行反复迭代就可以直接得到其聚类结果,从而在很大程度上提高了聚类效率,解决了传统κ-均值聚类方法不能用于处理大规模数据聚类的问题.实验结果表明,与传统κ-均值聚类方法相比,S_κ-均值聚类算法的聚类速度得到了明显提高,能够有效处理大规模数据的聚类问题.  相似文献   

4.
一种确定最佳聚类数的新算法   总被引:1,自引:0,他引:1  
针对K-均值聚类算法需要事先确定聚类数K的问题,将粒度计算引入样本相似度函数,定义了新的样本相似度,用模糊等价聚类确定数据集可能的最大类簇数Kmax.以Kmax为搜索上界,利用改进全局K-均值聚类算法,以BWP(Between-Within Proportion)为聚类有效性度量指标,提出确定最佳聚类数的一种新方法.通过UCI机器学习数据库数据集以及随机生成的人工模拟数据集实验测试,证明该算法不仅能有效确定数据集的最佳聚类数,而且适用于大规模数据集,但是会受到噪音点影响.  相似文献   

5.
针对传统的随机森林算法(RF)在对高维特征数据集计算速度慢、聚类效果不佳的缺陷,提出了一种基于高维特征聚类的随机森林算法(HDFC-RF),首先用传统RF方法对初始高维数据集聚类后,使用K均值聚类(KM)和模糊C-均值(FCM)结合,计算样本相似度,并对聚类特征划分族群,最后通过计算DBI指标,并与相关性阈值δ比较和排序,得到最终的高维特征序列。将HDFC-RF算法应用于高维特征数据集Colon Tumor,与传统的RF和FSRF算法比较。实验结果表明,HDFC-RF算法对于高维特征的数据集具有更好的聚类效果、训练速度也更快,具备良好的可行性。  相似文献   

6.
为了提高人力资源推荐系统的效率,提出一种基于Spark平台的K均值聚类算法来完成人力资源推荐;Spark平台在分布式系统所有节点的内存弹性分布式数据集中完成聚类迭代运算,以加快聚类速度;将K均值聚类算法与聚类簇思想相结合,以提高大规模数据样本聚类的效率,得到聚类结果后,采用动态推荐算法实现人力资源实时推荐。结果表明,Spark平台相比于单机在聚类计算效率方面更有优势,且所提出的算法比单机的K均值聚类算法的聚类速度和准确率均更优,在动态推荐性能方面也优于常用推荐算法。  相似文献   

7.
K均值算法利用K个聚类的均值作为聚类中心,通过对比样本到各聚类中心的距离,将样本划分到距离最近的聚类中,从而实现样本的聚类.分析了K均值算法的基本原理和实现步骤,并将其应用于数据聚类和图像分割,取得了较好的聚类效果.最后,针对K均值算法的不足之处,提出了改进措施,提高了K均值算法的聚类性能.  相似文献   

8.
两阶段模糊c-均值聚类算法及其应用   总被引:3,自引:0,他引:3  
针对模糊c-均值算法对初始值敏感、收敛结果易陷入局部极小值的缺点,提出了两阶段模糊c-均值聚类算法.首先通过恰当的贴近度(满足相似相近性)估计分类数,选取初始聚类中心;然后通过模糊c-均值算法进行聚类,最后对所得的聚类中心采用逻辑斯谛型的灰色模型进行预测.由于聚类中心具有统计特征,因此较好地克服了样本间的随机误差,灰色逻辑斯谛模型较好地克服了每个样本内误差.采用上述方法对全国30个省市农村居民年收入进行了分析和比较,得出了具有参考价值的结果.  相似文献   

9.
针对对海量数据库中的大数据进行优化挖掘,可以提高数据特征的提取和检测能力.传统方法采用模糊C均值聚类的数据挖掘算法,当数据在层次聚类过程中空间特征的相似度差异性较小时,数据挖掘的准确度不高.提出一种基于粒子群混沌差分训练对模糊C均值聚类算法进行改进,建立数据挖掘优化模型.首先提出了数据聚类据挖掘模型的总体构架,采用非线性时间序列分析方法进行数据信息流拟合,对数据信息流进行高阶累积量特征提取,采用粒子群混沌差分训练实现模糊C均值聚类算法改进.以改进的模糊聚类算法对提取的高阶累积量特征进行聚类分析,以分析结果为依据对数据挖掘模型进行优化.仿真结果表明,该数据挖掘模型能有效实现海量数据的优化聚类和特征提取,数据挖掘的精度较高,性能较好,避免挖掘过程陷入局部收敛.  相似文献   

10.
【目的】针对协同训练算法不能直接应用于单视图数据,且在迭代过程中加入的无标记样本隐含有用信息不够的问题,提出基于核均值漂移聚类的改进局部协同训练算法。【方法】该算法先在有标记样本集中利用改进局部协同训练算法训练一个完整视图分类器h1,同时挑选出价值高的特征子集来训练局部视图分类器h2,然后在无标记样本集中采用核均值漂移算法选择聚类过程中指定带宽范围内的样本,交由分类器h2标记类别后再加入分类器h1的训练中,以此来优化分类模型。【结果】在UCI数据集上的3组对比实验证明了该算法的有效性,实验结果表明该算法具有更高的模型评价能力。【结论】改进局部协同训练算法将数据集划分为局部视图和完整视图,解决了单视图数据的视图划分问题。利用核均值漂移算法选出较好表现数据空间结构的无标记样本,降低了无标记样本带来的误差。  相似文献   

11.
一般灰色趋势关联系统及其分析方法研究   总被引:9,自引:0,他引:9  
结合灰色趋势关联度,利用数学一般系统理论,提出了一般灰色趋势关联系统模型,作为该模型的应用,对灰色趋势关联分类、灰色趋势关联聚类、灰色趋势关联预测等三种应用方法进行了研究.  相似文献   

12.
首先, 在句子组织信息之间的结合度及基于规则、 词性和词序对句法分析系统影响的基础上, 提出一种基于规则的语句分析识别算法, 能在大量文本中快速识别出正确句式; 其次,在基于语句分析识别算法的基础上, 提出一种基于规则与句法合成的层次化语句分析识别算法, 以提高层次化句式识别检错的精度. 实验结果表明, 该算法平均精确率和平均召回率分别为84.65%和77.15%, 相比于只基于规则的语句识别算法分别提高了11.79%和14.48%, 证明了规则与句法合成的层次化语句分析识别的可行性.  相似文献   

13.
为了解决传统算法检测准确性低,复杂性高不适于电力大数据异常值检测的问题,通过密度峰值聚类算法研究了电力大数据异常值检测问题。分析了密度峰值聚类算法的聚类过程。按照聚类中心选择原则,通过相邻距离和密度的归一化乘积对聚类点的差异度进行衡量,按照差异度的统计特性与改变趋势选择最大的一组点当成聚类中心。按照z空间填充曲线与高维数据点z携带位置信息特性提出基于z的分布式密度峰值聚类算法,降低异常检测复杂性,以达到电力大数据异常值检测要求。采用优化后的密度峰值聚类算法对电力大数据异常值进行检测,在局部密度超过阈值,同时距离超过阈值的情况下,认为相应电力数据点为异常值。将基于距离的检测算法和基于密度的检测算法作为对比进行测试,结果表明:所提算法得到的异常电力数据点,和实际情况相符,和其他两种算法相比没有出现错检测和漏检测的情况。可见所提算法适于电力大数据异常值检测,且检测结果准确性高。  相似文献   

14.
首先, 在句子组织信息之间的结合度及基于规则、 词性和词序对句法分析系统影响的基础上, 提出一种基于规则的语句分析识别算法, 能在大量文本中快速识别出正确句式; 其次,在基于语句分析识别算法的基础上, 提出一种基于规则与句法合成的层次化语句分析识别算法, 以提高层次化句式识别检错的精度. 实验结果表明, 该算法平均精确率和平均召回率分别为84.65%和77.15%, 相比于只基于规则的语句识别算法分别提高了11.79%和14.48%, 证明了规则与句法合成的层次化语句分析识别的可行性.  相似文献   

15.
现有多时段划分方法大多只考虑时间维度下交通流宏观变化,即大范围趋势变化规律,未能考虑交通微观变化下的波动情况。针对这种情况,深入分析交通流的宏观和微观变化,提出了基于动态Fisher聚类算法的多时段二次划分方法。选取济南济泺路—汽车厂东路交叉口对提出的方法进行了验证,实验结果表明与传统方法相比,该方法能更好的适应实际交通流的变化趋势。  相似文献   

16.
针对滚动轴承振动信号非线性、非平稳的特点,提出采用多重分形降趋算法计算多重分形谱参数作为特征参数,对比分析了多重分形降趋波动分析法及多重分形降趋移动平均法提取轴承故障特征的优劣性.并提出改进的K均值聚类分析对多重分形降趋算法提取的特征参数进行分类,从而实现轴承故障诊断的目的.运用滚动轴承公开数据对方法进行验证,提取时域特征与多重分形谱参数进行对比分析,并对两种多重分形降趋算法的效果进行对比分析,验证了多重分形降趋波动分析法与改进K均值聚类相结合对轴承故障诊断的有效性,为轴承故障诊断方法提供了一种新的尝试.   相似文献   

17.
基于模糊彩色Petri网的知识表示与获取研究   总被引:2,自引:0,他引:2  
针对一些复杂专家控制系统的知识不确定性及知识规则数量多的特点,在模糊Petri网和彩色Petri网的基础上,给出了一种基于模糊彩色Petri网(FCPN)的知识表示和知识获取方法。该方法充分利用其图形化的特点将模糊规则库中的不同变量用不同的色彩来区分,每一种色彩用一种标识符号来表示,因此可构成一个更为简明的FCPN图。将其用于列车专家控制系统的不确定性知识的表示及获取,结果表明,基于模糊彩色Petri网的知识表示和获取方法对大型、复杂的专家控制系统是非常有效的。  相似文献   

18.
提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法,解决海量数据环境下并行执行K-Means算法时,时间开销较大的问题.该算法使用抽样方法,在保证数据分布不变的前提下,对数据集的规模进行约减,并在MapReduce框架下对聚类算法进行优化.实验结果表明,该算法在保持良好聚类效果的同时,能有效缩短聚类时间,对大规模数据集具有较高的执行效率和较好的可扩展性.  相似文献   

19.
为解决传统推理引擎在进行大规模OWL本体数据的SWRL规则推理时存在的计算性能和可扩展性不足等问题,提出了云计算环境下的SWRL规则分布式推理框架CloudSWRL.根据SWRL规则语义,并以Hadoop开源云计算框架为基础,设计了OWL本体在HBase分布式数据库中的存储策略,定义了SWRL规则解析模型和相关推理中间数据模型,提出了在DL-safe限制下基于MapReduce的SWRL规则分布式推理算法.实验结果表明,在对大规模OWL本体进行SWRL规则推理时,CloudSWRL框架在计算性能和可扩展性方面均优于传统推理引擎.  相似文献   

20.
为了解决LVQ神经网络在应用时对初始权值敏感的问题,基于粒子群算法提出PSO—LVQ算法。PSO—LVQ算法利用PSO为LVQ神经网络寻找最适应的初始权值。算法的适应度函数定义为初始权值和输入样本集的平均聚集距离与最大聚集距离的变化率。该定义将输入样本集的数据分布特征作为PSO优化LVQ初始权值的依据。利用PSO-LVQ算法对乳腺癌进行诊断实验,并与其它相关算法进行比较。研究结果表明:PSO—LVQ神经网络算法在收敛性和分类准确率上都有改善和提升,乳腺癌诊断平均准确率可达95.94203%,最高可达100%,适用于乳腺癌的辅助诊断。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号