首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 703 毫秒
1.
为了解决模糊关联规则挖掘算法需要用户事先给定模糊集和相应隶属度函数的问题,提出基于分布式聚类自动生成模糊集及隶属度函数的算法GFAM.该算法利用分布式K-Means聚类算法对每个数值型属性进行聚类,求得聚类中心,由此构造全局模糊集,定义全局隶属度函数.DFAR算法根据构造的全局模糊集及隶属度函数进行分布式模糊频繁项目集的快速挖掘,采用全局-局部站点模式,其中包括局部模糊频繁项目集产生算法FLF和全局模糊频繁项目集产生算法FGF.实验结果表明,该算法能准确地生成全局模糊频繁项目集,在求解全局模糊频繁项目集过程中,传送局部模糊候选项目集支持数的通信量为O(n),提高了算法的挖掘效率.  相似文献   

2.
优化初始中心的模糊C-均值(FCM)算法   总被引:1,自引:0,他引:1  
文章针对模糊C-均值(FCM)算法对初始中心敏感的缺点,通过计算样本的权重,提出基于权重的初始中心选取算法,选取有代表性的样本作为初始聚类中心,给出优化初始聚类中心的FCM算法.与传统算法比较,改进算法可以得到较稳定的结果,并且提高了聚类的准确率;实验证明了改进算法的有效性.  相似文献   

3.
模糊C均值聚类算法(FCM)由于样本模糊隶属度归一性的约束,导致FCM算法对噪声数据敏感。提出松弛模糊C均值聚类算法(RFCM),RFCM算法在可能性C均值聚类算法(PCM)目标函数的基础上,放弃了FCM算法单个样本模糊隶属度归一化约束,转为n个样本模糊隶属度之和为n的约束;并利用粒子群算法对样本模糊隶属度进行优化估计,使得模糊指标可拓展为m0的情况,同时采用梯度法得到RFCM算法聚类中心迭代公式。RFCM理论分析了算法对噪声数据抗噪的原理,解释了RFCM算法模糊指标m0的合理性,讨论了RFCM算法的收敛性。基于Gauss数据集和UCI数据集的仿真测试验证了所提出算法的有效性。  相似文献   

4.
模糊c均值聚类算法(FCM)由于样本模糊隶属度归一性的约束,导致FCM算法对噪声数据敏感。提出松弛模糊C均值聚类算法(RFCM),RFCM算法在可能性c均值聚类算法(PCM)目标函数的基础上,放弃了FCM算法单个样本模糊隶属度归一化约束,转为n个样本模糊隶属度之和为n的约束,并利用粒子群算法对样本模糊隶属度进行优化估计,使得模糊指标可拓展为m>0的情况,同时采用梯度法得到RFCM算法聚类中心迭代公式。RFCM理论分析了算法对噪声数据抗噪的原理,解释了RFCM算法模糊指标m>0的合理性,讨论了RFCM算法的收敛性。基于gauss数据集和UCI数据集的仿真测试验证了所提出算法的有效性。  相似文献   

5.
针对现有的不完全数模糊聚类算法未考虑样本各维属性对聚类贡献不同的问题,提出了基于属性加权的不完全数模糊c均值聚类算法.利用ReliefF算法评价各维属性的重要程度,通过加权欧式距离将属性权重结合入聚类,并能实现在聚类迭代过程中的缺失属性、隶属度及聚类中心的一体化求解.实验结果表明,该算法强调了重要属性在不完全数模糊聚类中的作用,能够得到更为准确的聚类结果.  相似文献   

6.
为了解决模糊关联规则挖掘算法需要用户事先给定模糊集和相应隶属度函数的问题,提出基于分布式聚类自动生成模糊集及隶属度函数的算法GFAM.该算法利用分布式K—Means聚类算法对每个数值型属性进行聚类,求得聚类中心,由此构造全局模糊集,定义全局隶属度函数.DFAR算法根据构造的全局模糊集及隶属度函数进行分布式模糊频繁项目集的快速挖掘,采用全局一局部站点模式,其中包括局部模糊频繁项目集产生算法FLF和全局模糊频繁项目集产生算法FGF.实验结果表明,该算法能准确地生成全局模糊频繁项目集,在求解全局模糊频繁项目集过程中,传送局部模糊候选项目集支持数的通信量为O(n),提高了算法的挖掘效率.  相似文献   

7.
提出了基于惩罚约束问题的群体智能聚类算法PCSI,不必穷尽搜索样本集,利用粒子群算法的优化搜索机制在数据集中有指导地随机搜索聚类中心向量,能够以较小的计算代价确定样本集的类别数.有约束优化过程的罚函数为两部分之和:①目标函数,各样本与其类别中心的均方误差;②自适应惩罚项,即数据集的边界作为粒子群移动的约束条件,对约束违反程度进行惩罚.为降低不平衡数据集的影响,按照数据集的方差和模糊高斯函数,将样本到其类别中心的距离进行模糊映射,归一化到[0,1]区间.粒子群优化方法免去了传统方法的求导计算.聚类IRIS数据集和Reuters-21578文档集以验证算法的有效性,对大规模数据聚类有明显优势.  相似文献   

8.
针对特征权重未知且具有直觉模糊数的特征信息的聚类分析问题,提出一种改进的基于直觉模糊集的模糊C均值聚类算法.首先,定义区域密度参数,选择高密度区域中相距最远的样本为初始聚类中心;然后,利用直觉模糊熵计算聚类样本的特征权重,对样本特征值进行加权处理.给出改进的FCM聚类算法的具体步骤,并进行了算例验证.研究结果表明,该算法不仅克服了FCM算法易陷入局部极小值的问题,同时大大减少迭代次数,加快了收敛速度,提高了聚类性能.  相似文献   

9.
针对粗糙模糊C均值聚类的阈值、权重选取问题,提出了一种基于不确定性度量的参数自适应获取方法.该方法将阈值选取归结为一个最优划分寻找问题,给出一种基于方差的划分优劣评价方法;利用信息熵来度量样本归属的模糊性,基于该模糊性度量和类簇的粗糙度,提出了一种权重参数自适应计算方法.将所提方法应用于粗糙模糊C均值聚类,并将分别基于所提方法与典型参数选取方法的粗糙模糊C均值聚类算法在人工数据集和真实数据集上进行实验比较.结果表明,基于所提参数确定方法的粗糙模糊C均值聚类能获得更好的聚类有效性和准确性.  相似文献   

10.
模糊支持向量机的核心思想是赋予样本模糊隶属度,给每个样本以不同的权重,从而克服标准支持向量机对噪声和异常点敏感的问题.现有的模糊支持向量机算法通常以样本与类中心距离为基础,给每个样本赋予一个固定的隶属度,没有根据样本分布对隶属度做进一步修正.提出了一种新的动态方式赋予样本隶属度,利用萤火虫算法不断地更新样本中心的位置和隶属度函数,同时利用粒子群算法优化模糊支持向量机参数.在UCI数据集上的实验结果表明,该算法可以有效减少噪声和野点对超平面的影响,分类性能要优于几类常用的模糊支持向量机算法.  相似文献   

11.
两阶段模糊c-均值聚类算法及其应用   总被引:3,自引:0,他引:3  
针对模糊c-均值算法对初始值敏感、收敛结果易陷入局部极小值的缺点,提出了两阶段模糊c-均值聚类算法.首先通过恰当的贴近度(满足相似相近性)估计分类数,选取初始聚类中心;然后通过模糊c-均值算法进行聚类,最后对所得的聚类中心采用逻辑斯谛型的灰色模型进行预测.由于聚类中心具有统计特征,因此较好地克服了样本间的随机误差,灰色逻辑斯谛模型较好地克服了每个样本内误差.采用上述方法对全国30个省市农村居民年收入进行了分析和比较,得出了具有参考价值的结果.  相似文献   

12.
为了解决传统分类算法在不平衡样本集上分类效果不佳的问题,提出一种新的欠采样boosting集成算法(FECBoost).首先,通过改进的模糊熵反映样本集原始分布的不确定性,并用此模糊熵判断多数类样本所在的区域,称为安全区域或边界区域;其次,利用密度峰值聚类算法选取安全区域的代表性样本以减少分类器的训练时间和样本间的重叠,降低样本的不平衡度,实现静态欠采样;最后,训练新的boosting集成分类器,在算法每一次迭代之前,基于模糊熵和模糊支持度对多数类样本再次欠采样,使用于训练的样本集达到平衡.该动态欠采样依赖于分类器的训练过程,充分考虑了样本分布的不确定性和错分可能性.通过在真实样本集上的仿真实验验证了提出方法的有效性.  相似文献   

13.
提出了一种拓展的半监督模糊聚类模型,给出求解这个模型的迭代公式.这种半监督聚类能够合理、有效地利用部分已标识样本的类别信息对未标识样本产生影响,从而提高半聚类算法的聚类效果.其隶属度和聚类中心的迭代公式具有和FCM算法一样简洁的表示.在黄瓜数据集上的聚类分析表明,新提出的半监督聚类优于未改进的两种半监督算法、FCM算法和线性判别方法.  相似文献   

14.
针对密度聚类算法对邻域参数设置敏感的问题,提出一种基于密度的模糊自适应聚类算法.算法在无需预先设置聚类数以及邻域参数的情况下,可以自适应地根据样本间距离关系确定邻域半径得到样本密度,并根据样本密度逐渐增加聚类中心.为了保障聚类结果的正确性,同时提出一种新的模糊聚类有效性指标以判断最佳聚类数,消除了密度聚类算法对参数的敏感性.用UCI基准数据集进行实验,发现本文算法在对数据进行聚类时,聚类质量较原始密度聚类算法在准确性和自适应性方面均有显著提高.  相似文献   

15.
针对传统聚类算法存在挖掘效率慢、 准确率低等问题, 提出一种基于最小生成树的多层次k-means聚类算法, 并应用于数据挖掘中. 先分析聚类样本的数据类型, 根据分析结果设计聚类准则函数; 再通过最小生成树对样本数据进行划分, 并选取初始聚类中心, 将样本的数据空间划分为矩形单元, 在矩形单元中对样本对象数据进行计算、 降序和选取, 得到有效的初始聚类中心, 减少数据挖掘时间. 实验结果表明, 与传统算法相比, 该算法可快速、 准确地挖掘数据, 且挖掘效率提升约50%.  相似文献   

16.
提出一种基于两步特征加权的模糊支持向量机算法.首先,利用信息增益算法获取样本的特征权重.然后,计算最大权重的特征与其他特征间的斯皮尔曼相关系数,并将二者相乘后再与原有的特征权重相加,得到新的特征权重,减少弱相关和不相关特征对分类造成的影响.最后,在设计样本模糊隶属度时,不仅考虑样本与类中心的距离,还引入了样本间的亲和度,并将二者进行融合,以此减弱样本分布不均对分类精度的影响.在UCI数据集上的实验表明,与现有流行的几种模糊支持向量机算法相比,所提算法在准确率和F1值上得到了提升.  相似文献   

17.
一种基于流形距离的迭代优化聚类算法   总被引:4,自引:1,他引:3  
针对传统欧氏距离测度描述复杂结构的数据分布会失效的问题,引入能有效反映样本集固有的全局一致性信息的流形距离作为样本间相似度度量测度,并设计了反映类内相似度大、类间相似度小的聚类目标的准则函数,把数据聚类转化成准则函数优化问题,提出了一种迭代优化的聚类算法.通过4个人工数据集的仿真试验结果表明,新方法的参数很少且实现简单,由于实现过程中没有引入随机操作,因此结果比较确定.与标准k均值算法相比,新方法能够自动确定聚类数目,对于样本空间分布复杂的聚类问题具有良好的分类效果.  相似文献   

18.
针对距离计算对模糊C.均值聚类(Fuzzy C-Means,FCM)中心比较敏感的问题,文中提出了一种改进的模糊C.均值聚类算法(Minkowski Fuzzy C-Means,MFCM).MFCM算法采用距离指数可自动寻优的闵可夫斯基距离代替欧氏距离来计算样本集的相似度,以提高数据集的聚类准确率,减小平方误差总和.实验结果表明,Glass数据集、Balance-scale数据集和Vehicle数据集的聚类准确率分别由原来的42.52%、55.84%和45.86%提升到51.87%、62.56%和45.98%.此外,文章在开源数据挖掘Weka平台上实现了FCM和MFCM算法,弥补了Weka平台上集成少量聚类算法的不足.  相似文献   

19.
基于模糊聚类方法的海工结构耐久性评估   总被引:1,自引:1,他引:0  
考虑海工结构耐久性评估的模糊性特点,提出一种新的耐久性评估方法.基于模糊数学原理对待估样本进行聚类分析,利用MATLAB模糊工具箱实现对海工构件耐久性的模糊评估;建立样本对于类别的不确定性描述,给出每个样本隶属于某一聚类中心的模糊隶属度.结果表明:采用的模糊聚类方法避免了传统硬划分对构件耐久性评估的不合理性,符合客观实际;基于软划分的模糊c-均值聚类的MATLAB编程法避免了主观因素对评估结果的影响,可对多个样本及多个评价指标的待评估事物进行模糊聚类分析,评估结果形象且动态反映了样本的耐久性状况.  相似文献   

20.
高维数据受冗余数据和噪声数据的影响,聚类效率和准确率低,基于拉普拉斯矩阵的特征值和特征向量的特点,介绍了一种适用于高维数据的新的聚类中心选择算法,算法将拉普拉斯矩阵用于候选聚类中心选择前的数据降维处理,经过对数据进行降维处理,提高了候选聚类中心的准确性,增大了聚类准确率,扩大了聚类数据的种类范围.在10个包含不同数量样本、维度、类别数的数据集上进行了聚类分析,实验结果表明了基于拉普拉斯降维的新聚类中心选择方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号