首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
陶涛  毛伊敏 《科学技术与工程》2021,21(21):8989-8998
针对大数据背景下基于划分的聚类算法中存在参数寻优能力不佳、初始中心敏感、数据倾斜等问题,提出一种基于MapReduce和人工蜂群(artificial bee colony,ABC)算法的并行划分聚类(the partitioning-based clustering algorithm by using im-prove artificial bee colony based on MapReduce,MR-PBIABC)算法.首先,提出基于反向学习和聚类准则函数的初始化策略(backward learning and the clustering criterion function,BLCCF),提升人工蜂群算法搜索的解质量,并将ABC算法和人工鱼群(artificial fish colony,AFS)算法结合,提出改进人工蜂群(improve artificial bee colony,IABC)算法,通过利用AFS算法最优解能力较强的特性,来提高ABC算法的寻优能力;其次,根据改进的人工蜂群算法IABC获取初始聚类中心,提出相对熵策略(rela-tive entropy strategy,RES)衡量人工鱼间的距离,保证获得的初始聚类中心是最优人工鱼状态,从而有效避免了随机选取初始聚类中心,引起的初始中心敏感的问题;再次,设计数据均衡策略(data balancing strategy,DBS),通过动态收集节点负载并分配节点间的负载,解决了节点上数据倾斜的问题;最后,结合MapReduce计算模型,并行挖掘簇中心,生成最终聚类结果.实验结果表明,MR-PBIABC算法的聚类效果更佳,同时在大数据环境下,能有效地提高并行计算的效率.  相似文献   

2.
极大熵聚类算法的收敛性定理   总被引:1,自引:0,他引:1  
讨论了极大熵聚类算法的收敛性,构造了极大熵聚类算法的收敛点集,并证明了极大熵聚类算法的收敛性定理.结果表明,极大熵聚类算法不一定收敛到局部极小点,有时收敛到鞍点.同时,也给出了如何判断极大熵聚类算法的收敛点是局部极小点还是鞍点的方法.  相似文献   

3.
【目的】在没有先验知识的前提下,采用基于粒子群优化算法(PSO)的加权模糊C-均值(WFCM)聚类算法,从30多万条记录的医疗保险数据中挖掘出疑似医疗保险欺诈的记录。【方法】首先,引用改进的欧式距离、相似性函数以及交叉熵函数并通过PSO算法极小化交叉熵函数,对属性权重进行分析;其次,选取Calinski-Harabasz(CH)有效性指标,展开聚类有效性的研究;然后,基于数据预处理的结果将数据运用于PSO算法,不断更新得到各属性的权重,并运用聚类有效性评价中的CH有效性指标来动态估计最佳聚类个数,提高FCM聚类的速度;最后,将属性权重和最佳聚类数应用于FCM聚类算法,根据隶属度矩阵聚类得到疑似医疗保险欺诈结果。【结果】基于上述研究方法,本研究根据最后的隶属度矩阵来进行聚类分析。【结论】将优化的权重应用于加权FCM聚类算法与聚类有效性评价,既提高了聚类算法的高效性,又避免了主观评价对分类的影响。  相似文献   

4.
为解决传统模糊聚类迭代算法对初始化敏感,易陷入局部最优及处理高维数据时精度下降的问题,对基于马氏距离的模糊聚类算法(fuzzy c-means algorithm based on Mahalanobis distance,M-FCM)进行优化。将马氏距离代替欧氏距离,通过构造类内紧致度、类间分离度与类间清晰度结合的适应度函数,利用粒子群优化算法(particle swarm optimization,PSO)对马氏距离模糊聚类进行研究,提出了基于粒子群优化的马氏距离模糊聚类算法(Mahalanobis distance fuzzy clustering algorithm based on particle swarm optimization,DPSOM-FCM),并将此新算法与FCM(fuzzy c-means algorithm),M-FCM,PSO-FCM,IFPSOFCM(importance for fuzzy clustering algorithm based on particle swarm optimization)算法,在UCI(university of californiairvine)数据库的6个标准数据集上进行实验对比分析。结果表明,DPSOM-FCM算法具有算法收敛性和聚类有效性,并且聚类精确度优于其他算法,对高维数据的聚类识别能力强,即该算法具有全局优化作用。  相似文献   

5.
为了提升发布后数据的安全性,解决其易受攻击造成敏感信息泄露的问题,提出了(l,x,w)多样性模型;该模型引入信息熵概念,通过约束等价组在敏感属性上的多样性及均匀性来实现对敏感属性的安全保护;同时基于该模型,提出了多敏感属性数据发布的基于信息熵的l多样性聚类(entropy based l-diversity clustering,EBLC)匿名算法,该算法基于聚类技术,依据非敏感属性对元组进行聚类,在同簇中依照其敏感属性生成满足(l,x,w)多样性的等价组,泛化所有等价组得到发布数据。对EBLC算法进行的仿真实验结果表明,该算法有较好的运行效率,同时在敏感属性数目以及多样性改变情况下的信息损失以及发布后数据的抗攻击性均能得到较好保证。  相似文献   

6.
在以模糊集为理论支持的聚类算法中,KFCM(kernel fuzzy c-means clustering)是一种对核函数进行优化的模糊聚类算法。KFCM算法需要人为指定数据的分类个数,对数据噪声敏感会降低其性能,且类边缘数据点相互影响会导致分类错误。针对这些问题,该文提出一种改进的C-KFCM模糊算法,先用Canopy粗聚类算法给出数据集大致的分类数,接着在聚类部分使用KFCM算法。改进了原KFCM算法的隶属度函数,在噪声点和边缘数据的隶属度中引入其邻域数据的隶属度平均值,使数据中的噪声对算法的影响减小或消失。实验结果表明,改进的C-KFCM算法能自动确定分类数,并且与原KFCM算法相比,C-KFCM将平均准确率提高了0.09%,且聚类效果更稳定。  相似文献   

7.
针对现有基于改进的K-means模糊聚类的社区发现算法(k-means algorithm for community structures detection based on fuzzy clustering,NKFCM)执行效率较差的问题,将粒子群算法与模糊聚类算法相结合提出了基于粒子群优化与模糊聚类的社区发现算法(community detection algorithm based on particle swarm optimization and fuzzy clustering,PFCM).该算法首先进行迭代运算,找出初始聚类核心,利用以云模型为运行条件的粒子群优化算法确定最优聚类核心与最佳社区个数,最后利用模糊聚类算法(fuzzy c-means algorithm,FCM)进行具体的社区划分.理论解析与测试结果表明:该算法发现网络社区的准确性较高,且与NKFCM算法相比,PFCM在处理网络数据时执行效率获得了极大地提升.  相似文献   

8.
为了避免陷入梯度法局部极值以提升模糊聚类算法聚类性能,提出PSO高斯诱导核模糊c均值聚类算法(PSO Gauss-induced kernel fuzzy c-means clustering algorithm, PSO-GIKFCM)。首先将高斯核函数应用于模糊c聚类算法(FCM)目标函数,得到高斯核模糊聚类目标函数。然后在高斯核特征空间和输入空间利用梯度法得到两空间聚类中心,将特征空间聚类中心与样本的内积核矩阵代入输入空间聚类中心,从而得到高斯诱导核的聚类中心。最后在解空间利用粒子群算法(PSO)对模糊隶属度进行寻优估计,并结合目标函数和聚类中心构成PSO-GIKFCM参数估计迭代流程。PSO-GIKFCM算法基于粒子群算法保证其收敛性,聚类中心仅为模糊隶属度的函数,PSO生物进化算法在解空间全局寻找优解,且将模糊指标扩展为大于0的情况。通过仿真实验验证了所提出算法的有效性。  相似文献   

9.
为了避免陷入梯度法局部极值以提升模糊聚类算法聚类性能,提出PSO高斯诱导核模糊C均值聚类算法(PSO Gauss-induced kernel fuzzy C-means clustering algorithm,PSO-GIKFCM)。首先将高斯核函数应用于模糊C聚类算法(FCM)目标函数,得到高斯核模糊聚类目标函数。然后在高斯核特征空间和输入空间利用梯度法得到两空间聚类中心,将特征空间聚类中心与样本的内积核矩阵代入输入空间聚类中心,从而得到高斯诱导核的聚类中心。最后在解空间利用粒子群算法(PSO)对模糊隶属度进行寻优估计,并结合目标函数和聚类中心构成PSO-GIKFCM参数估计迭代流程。PSO-GIKFCM算法基于粒子群算法保证其收敛性,聚类中心仅为模糊隶属度的函数,PSO生物进化算法在解空间全局寻找优解,且将模糊指标扩展为大于0的情况。通过仿真实验验证了所提出算法的有效性。  相似文献   

10.
本文采用熵权法这种客观赋权方法来确定综合评价中各指标的权重,通过把熵权法和传统的ISODATA聚类方法相结合,在ISODATA的目标函数中引入权重,给出了含有熵权的ISODATA聚类的迭代公式,提出了基于模糊聚类和熵权的改进的综合评价算法,并将该算法应用于教师绩效评价,使其评价结果更加有效.  相似文献   

11.
目前已有的成对约束模糊核聚类研究中,缺乏对成对约束信息的有效测度,进而无法充分利用成对约束这类半监督信息。在成对约束核聚类的基础上,文中提出基于交叉熵测度的成对约束核聚类算法。利用对象交叉熵测度工具,提出最小-最大交叉熵隶属度学习准则,并作为成对约束信息测度项引入到成对约束核聚类的目标函数中,通过拉格朗日最优化处理目标函数,推导出相应聚类算法。实验进一步表明,该算法能够更有效利用成对约束半监督信息提升聚类性能。  相似文献   

12.
相比其它聚类算法,密度峰值点快速搜索聚类算法(clustering by fast search and find of density peaks,DPC)只需较少的参数就能达到较好的聚类结果,然而当某个类存在多个密度峰值时,聚类结果不理想.针对这一问题,提出一种基于簇边界划分的DPC算法:B-DPC算法.改进算法首先利用一种新的去除噪声准则对数据集进行清理,再调用DPC算法进行首次聚类.最后搜索并发现邻近类的边界样本,根据边界样本的数量和所占比例,对首次聚类结果进行二次聚类.实验证明,B-DPC算法较好地解决了多密度峰值聚类问题,能够发现任意形状的簇,对噪声不敏感.  相似文献   

13.
针对闵可夫斯基子空间聚类算法对特征权重分配的问题,提出了一种混合测量子空间聚类算法(iMWK-HD),以实现调节特征权重因子和提高算法性能的目的。利用闵可夫斯基距离与余弦相结合的混合测量来分配特征权重,构造新的目标函数;在聚类迭代过程中,采用智能K-means进行初始化来解决选择正确类数的问题;根据新的目标函数,使用拉格朗日乘子法求解新的隶属度和特征权重更新公式,使类中心更加稳定,从而促进特征空间转换,获取数据集最优聚类结果。采用UCI数据集设计了对比实验,实验结果表明,iMWK-HD算法优于iK-means、iWK-means、iMWK-means这3个现有的聚类算法,所提算法能有效提升聚类精确度和聚类结果的稳定性。  相似文献   

14.
讨论了目标函数为C^1类函数的连续型minimax问题的区间极大熵算法。通过构造目标函数的极大熵函数及其区间扩张,利用区域二分原理和无解区域的删除原则,建立了求解连续型minimax问题的区间极大熵算法,证明了算法的收敛性,给出了数值算例。数值结果表明,其算法是可靠和有效的。  相似文献   

15.
研究了基于偶对约束的半监督模糊聚类,将马氏距离引入到半监督模糊聚类SCAPC(semi-supervised fuzzy clustering algorithm with pairwise constraints)中,获得了一种新的半监督模糊聚类目标函数,通过求解优化问题,提出了一种基于偶对约束和马氏距离的半监督模糊聚类算法M-SCAPC(Modified-SCAPC).针对选择的标准数据集和人工数据集,对提出的算法M-SCAPC进行了实验研究,并与FCM(fuzzy C-means)、AFCC(active fuzzy constrained clustering)和SCAPC算法的聚类性能进行了比较,表明了提出的算法M-SCAPC在收敛速度和正确率方面的有效性.  相似文献   

16.
从轨迹结构特征出发,分析轨迹内部及整体特征,提出融合特征熵的轨迹结构异常检测方法(TSAD-FE,trajectory structure anomaly detection method based on feature entropy)。根据开放角将轨迹划分为轨迹片段,运用线性回归模型对轨迹片段局部特征进行拟合,完成轨迹片段划分;引入轨迹结构框架描述轨迹内部特征属性,应用轨迹结构距离衡量轨迹片段之间的距离,并提出利用熵对特征权重赋值的方法,全面考虑轨迹内部特征对轨迹的影响;运用DBSCAN(density-based spatial clustering of applications with noise)聚类算法将轨迹集划分为若干簇并提取代表轨迹;通过比较轨迹片段与代表轨迹的结构相似度,提取异常轨迹片段,从轨迹整体上考虑异常轨迹片段占比,进而挖掘出异常轨迹。使用多个数据集的实验表明,融合特征熵的轨迹结构异常检测方法能够从轨迹空间形态及内部特征属性上发现异常,可以全面地发现明显异常轨迹及其分段,使检测结果更具有实际意义。  相似文献   

17.
针对多数聚类算法只能单独处理数值特征数据或类属特征数据,而不能分析具有两种混合属性数据的问题,基于熵和信息粒度提出了粗糙集理论框架下不同粒度划分上的聚类算法.该算法利用相似关系,通过计算每个数据点的熵并选取具有最小熵值的数据点作为聚类中心,将与该聚类中心相似度大于阈值卢的所有数据点聚集形成数字颗粒结构.在整个聚类过程中无需调整每个数据点的熵值,缩短了计算时间,同时利用粗糙集的不可分辨关系形成字符颗粒结构,通过不断调整、合并这两种颗粒结构,实现了具有混合属性特征数据的聚类分析.实验结果比较表明,该算法是有效、可行的,当卢取值为0.8时,算法的聚类有效性最大值可达0.96,该值较同条件下的其他聚类算法要高。  相似文献   

18.
密度峰值聚类算法(Denisity peaks clustering,DPC)具有聚类速度快、实现简单、参数较少等优点,但该算法的截断距离参数需要人工干预,并且参数的选取对于该算法的结果影响较大。为了解决这一缺陷,该文提出了结合蝙蝠算法改进的密度峰值聚类算法。该算法利用蝙蝠算法较强的寻优能力,寻找合适的截断距离取值,同时对蝙蝠算法的速度更新公式加入了自适应惯性权重来加强全局搜索能力。该算法选择多种数据集进行了实验仿真,并与其他同类算法进行对比。经过对比验证,结合蝙蝠算法改进的密度峰值聚类算法在聚类准确率上要明显优于其他算法。  相似文献   

19.
现有基于模糊聚类的图像分割算法对噪声敏感,不能妥善地处理图像的灰度特征与邻域像素之间关系.针对该问题,在可能性聚类的基础上融入多核聚类思想,提出了图像分割的EMKPFC算法(Enhanced Multiple Kernel Possibilistic Fuzzy C-means algorithms).该算法可以有效地利用模糊聚类方法以及可能性聚类算法的优点.进一步地,该算法能够规避普通核算法对于核函数选择的不确定性,增加了算法的抗变换性;对于挑选的多种核函数,凭借权重组合能够满足不同图像对于各种核函数的偏好需求,计算出最佳匹配的权重值.在没有任何先验的情况下,不仅可以进行准确的划分,而且还可以做到划分非线性团状样本.通过对于人造图像、真实图像和医学图像的实验结果表明,所提算法比其他相关基于模糊聚类的图像分割算法都具有更好的效果.  相似文献   

20.
子空间聚类已经广泛应用于多个涉及高维数据聚类应用领域,受到机器学习研究者的广泛关注.子空间聚类方法是一种使用特征选择的聚类分析技术,通过选择重要特征子集实现对高维空间的低维表示,在实际应用中能够取得更好的性能,成为流行的高维数据聚类方法.与硬聚类方法相比,软聚类能够给出复杂数据更有意义的划分.扩展k-均值聚类并提出基于可靠性的正则化加权软k-均值新的子空间聚类方法(Reliability-based regularized weighted soft k-means clustering algorithm,RRWSKM),该方法能够计算每个特征对每个聚类的贡献度,从而找到与不同聚类相关的重要特征子集.另外,该方法能够通过调整模型参数准确地辨识数据模式,具有良好的聚类性能.该方法把维度加权熵和划分熵作为正则化项引入到目标函数,避免过拟合问题同时使更多的特征参与辨识聚类.为了提高算法的鲁棒性,使用可靠性测度获得特征权重初始值,提高算法的可靠性和性能.考虑到该算法是非凸优化问题,使用迭代优化方法得到优化问题的最优解.使用多个实际数据集对本文算法进行仿真验证,结果表明,与其他子空间聚类算法相比,该算法能够有效发现高维数据的低维表示,具有良好的聚类性能,适合高维数据的聚类.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号