首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 250 毫秒
1.
作为最小均方差准则的拓广,本文从数据熵、数据熵差引进最小均熵差准则,并应用于数据与模式聚类;给出基予最小均熵差准则的动态聚类算法与系统聚类算法,最后通过一个应用示例说明这一最小均熵差准则模式聚类的有效性与优越性。  相似文献   

2.
针对多数聚类算法只能单独处理数值特征数据或类属特征数据,而不能分析具有两种混合属性数据的问题,基于熵和信息粒度提出了粗糙集理论框架下不同粒度划分上的聚类算法.该算法利用相似关系,通过计算每个数据点的熵并选取具有最小熵值的数据点作为聚类中心,将与该聚类中心相似度大于阈值卢的所有数据点聚集形成数字颗粒结构.在整个聚类过程中无需调整每个数据点的熵值,缩短了计算时间,同时利用粗糙集的不可分辨关系形成字符颗粒结构,通过不断调整、合并这两种颗粒结构,实现了具有混合属性特征数据的聚类分析.实验结果比较表明,该算法是有效、可行的,当卢取值为0.8时,算法的聚类有效性最大值可达0.96,该值较同条件下的其他聚类算法要高。  相似文献   

3.
聚类已经被用来提高文本检索或文本分类效率和效果的一种手段,我们在本文中提出层次聚类算法是依据KL测度构造一组聚类,其实质是最小条件熵聚类,通过用结构α-熵代替香农熵推广最小条件熵准则,当α=2时,基于结构α-熵最小熵测度与最近邻方法的误差率相等.实验结果表明,HKLC算法比其它算法在文本聚类中具有良好性能.  相似文献   

4.
模糊熵描述了一个模糊集的模糊性程度.本文将模糊熵应用于聚类有效性的分析.指出用于聚类有效性判决的划分系数是一个基于模糊熵的聚类有效性判决准则.最后通过几组数据对不同模糊熵公式的判决功能进行了比较实验.  相似文献   

5.
郭旭展  何勇 《科技资讯》2009,(24):16-16
本文描述了在入侵检测方面的发展方向,讨论了熵聚类的可行性和具体算法,并将熵聚类与RBF神经网络相结合,提出了改进的ERBF模型,在实验中采用通用数据集KDD CUP验证了模型的实际工作情况,取得了预期的效果,实现了检测目的。  相似文献   

6.
研究了基于可能性熵理论的聚类问题.首先定义并讨论了可能性熵,继而将可能性熵引入聚类分析,提出了可能性熵聚类算法.它考虑到熵聚类的全局和局部效应,具有清晰的物理意义和数学特征.该算法还能在聚类过程中自动地确定分辨率参数,克服了对于噪声和外围点的敏感性.仿真实验证明,即使各类大小不一,数据集被强噪声所污染时,该算法仍能有效地估计各类中心.  相似文献   

7.
极大熵聚类算法的收敛性定理   总被引:1,自引:0,他引:1  
讨论了极大熵聚类算法的收敛性,构造了极大熵聚类算法的收敛点集,并证明了极大熵聚类算法的收敛性定理.结果表明,极大熵聚类算法不一定收敛到局部极小点,有时收敛到鞍点.同时,也给出了如何判断极大熵聚类算法的收敛点是局部极小点还是鞍点的方法.  相似文献   

8.
基于信息熵及模糊熵聚类算法的油液监测数据关联性   总被引:2,自引:0,他引:2  
应用信息熵及模糊熵聚类算法对油液监测数据间的关联关系进行考察.根据系统输出的数据较为简化地表征系统内部因素间的相互联系程度,对得到的关联关系进行分级、评价,以便对设备的磨损状况提供可信、可靠的分析手段.通过应用Shannon信息论的互信息熵理论表征数据序列之间的关联性,通过模糊熵理论进行阈值的选取,以标准5函数为隶属函数,对关联数据进行挖掘.实例验证了算法的有效性,并对聚类结果进行了解释.对设备故障的定位与磨损状况的评级划分提出了一种量度手段.  相似文献   

9.
高维聚类中的一种特征筛选方法   总被引:3,自引:0,他引:3       下载免费PDF全文
聚类分析是数据挖掘领域中一个基础而活跃的研究课题。由于大多数的聚类方法在处理高维数据时会出现高维失效问题,维简约成为高维聚类中一个非常重要的处理步骤。通过分析对象间相似性度量与原始数据分布间的关系,提出一种基于熵的特征筛选方法。该方法通过构造一个基于对象间相似度的熵度量,对原始特征集中的每个特征进行重要性评估,从而获得重要特征子集。实验结果显示,该方法可以有效剔除高维数据集中的不重要或噪声特征,改善聚类算法的性能和聚类结果的可理解性。  相似文献   

10.
目前已有的成对约束模糊核聚类研究中,缺乏对成对约束信息的有效测度,进而无法充分利用成对约束这类半监督信息。在成对约束核聚类的基础上,文中提出基于交叉熵测度的成对约束核聚类算法。利用对象交叉熵测度工具,提出最小-最大交叉熵隶属度学习准则,并作为成对约束信息测度项引入到成对约束核聚类的目标函数中,通过拉格朗日最优化处理目标函数,推导出相应聚类算法。实验进一步表明,该算法能够更有效利用成对约束半监督信息提升聚类性能。  相似文献   

11.
基于信息熵改进的 K-means 动态聚类算法   总被引:3,自引:2,他引:1  
初始聚类中心及聚类过程产生的冗余信息是影响K-means算法聚类性能的主要因素,也是阻碍该算法性能提升的主要问题.因此,提出一个改进的K-means算法.改进算法通过采用信息熵对聚类对象进行赋权来修正聚类对象间的距离函数,并利用初始聚类的赋权函数选出质量较高的初始聚类中心点;然后,为算法的终止条件设定标准阈值来减少算法迭代次数,从而减少学习时间;最后,通过删除由信息动态变化而产生的冗余信息来减少动态聚类过程中的干扰,以使算法达到更准确更高效的聚类效果.实验结果表明,当数据样本数量较多时,相比于传统的K-means算法和其他改进的K-means算法,提出的算法在准确率和执行效率上都有较大提升.  相似文献   

12.
子空间聚类是一种将搜索局部化在相关维上进行的聚类算法,它能有效地克服数据因维度过高引起的在全空间上聚类的困难.针对高维分类型数据,本文提出了一种自底向上的子空间层次聚类算法,该算法在全局范围内建立一个最相似线性表用来记录每个簇类与其最相似的簇类的相似度,在聚类过程中,选取最相似的簇类合并,并通过维护此线性表产生最相似的簇类.此算法在基于信息熵的意义上能够较准确地搜索簇类的子空间.通过Zoo和Soybean两个典型的分类型数据实验发现,相对于其它相关聚类算法,该算法在聚类的准确率和稳定性方面表现出较高的优越性.  相似文献   

13.
针对离散制造业质量管理系统中维度高,且存在较多一致性数据的情形,设计了一种基于信息论中的信息熵,即互信息的改进聚类算法。通过实验分析,采用改进的聚类算法可有效提高聚类的正确率,并且通过演化聚类理论和方法的应用可对离散制造业质量管理提供有效的决策参考信息。  相似文献   

14.
陶涛  毛伊敏 《科学技术与工程》2021,21(21):8989-8998
针对大数据背景下基于划分的聚类算法中存在参数寻优能力不佳、初始中心敏感、数据倾斜等问题,提出一种基于MapReduce和人工蜂群(artificial bee colony,ABC)算法的并行划分聚类(the partitioning-based clustering algorithm by using im-prove artificial bee colony based on MapReduce,MR-PBIABC)算法.首先,提出基于反向学习和聚类准则函数的初始化策略(backward learning and the clustering criterion function,BLCCF),提升人工蜂群算法搜索的解质量,并将ABC算法和人工鱼群(artificial fish colony,AFS)算法结合,提出改进人工蜂群(improve artificial bee colony,IABC)算法,通过利用AFS算法最优解能力较强的特性,来提高ABC算法的寻优能力;其次,根据改进的人工蜂群算法IABC获取初始聚类中心,提出相对熵策略(rela-tive entropy strategy,RES)衡量人工鱼间的距离,保证获得的初始聚类中心是最优人工鱼状态,从而有效避免了随机选取初始聚类中心,引起的初始中心敏感的问题;再次,设计数据均衡策略(data balancing strategy,DBS),通过动态收集节点负载并分配节点间的负载,解决了节点上数据倾斜的问题;最后,结合MapReduce计算模型,并行挖掘簇中心,生成最终聚类结果.实验结果表明,MR-PBIABC算法的聚类效果更佳,同时在大数据环境下,能有效地提高并行计算的效率.  相似文献   

15.
借鉴邻域粗糙集处理连续型数据的优势,为解决传统谱聚类算法需要人工选取参数的问题,提出基于自适应邻域互信息与谱聚类的特征选择算法。首先,定义各对象在属性下的标准差集合与自适应邻域集,给出自适应邻域熵、平均邻域熵、联合熵、邻域条件熵、邻域互信息等不确定性度量,利用自适应邻域互信息对特征与标签的相关性进行排序。然后,结合共享近邻自适应谱聚类算法,将相关性强的特征聚到同一特征簇内,使不同特征簇内的特征强相异。最后,使用最小冗余最大相关技术设计特征选择算法。在10个数据集上选择特征个数与分类精度的实验结果,验证了所提算法的有效性。  相似文献   

16.
聚类布尔和分类数据   总被引:1,自引:0,他引:1  
提出了一种判别布和分类属性相似度的准则,并在此基础上提出了一种新的聚类的算法CAC,该算克服了传统聚类算法不适合聚类布尔和分类属性数据的缺点,实验表明CAC算法比传统的聚类算法有更好的聚类效果。  相似文献   

17.
针对KPowerMeans聚类算法多径散射簇的估计过程复杂及聚类结果高度依赖随机初始簇中心的问题,提出了一种改进的多径簇识别算法——WKPowerMeans算法.首先利用小波变换的尖峰检测技术估计出多径散射簇的数目和初始簇中心的位置,然后以结合了多径功率加权的多径分量距离为准则进行多径簇聚类.仿真结果表明:与KPowerMeans算法相比,采用所提出的WKPowerMeans算法能得到更稳定、准确的聚类结果,而且具有较低的时间复杂度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号