首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
平衡迭代规约层次聚类(balanced iterative reducing and clustering using hierarchies, BIRCH)算法是一个综合的层次聚类算法。但BIRCH算法为叶子节点中的簇设置统一的空间阈值,根据数据对象与簇之间的距离来决定数据对象的插入位置,从而忽略了簇与簇之间的关系;此外,算法在分裂节点时,选取距离最远的2个聚类特征作为子簇,其他聚类特征会根据与这2个聚类特征之间的距离关系分裂为另外的子簇,造成处于簇与簇之间的样本数据错误分类,这样会忽略聚类特征之间的关系。针对BIRCH算法的这2个问题,提出了基于阈值的自适应算法,用于解决原算法统一空间阈值的问题;并在针对聚类特征关系的问题上,结合朴素贝叶斯算法对原算法进行改进。对改进后BIRCH算法与传统的算法进行仿真实验。结果表明,改进算法在损失效率的情况下,聚类效果得到了明显的改善,并且与其他算法相比,所提算法具有不错的表现性,而且具有跨数据集的鲁棒性。  相似文献   

2.
基于邻接距离属性动态聚类算法采用能综合反映属性名称相似性和语义相似性的“邻接距离”,提高了属性匹配的准确率;以类内损失、类间损失之和最小化为准则,使用动态聚类算法对相似属性进行匹配,不需要设置聚类参数,避免了人为造成的误差。  相似文献   

3.
考虑加权排序的分类数据聚类算法   总被引:1,自引:0,他引:1  
针对部分聚类算法对数据输入顺序敏感的问题,定义了不干涉序列指数,提出了应用不干涉序列指数对分类数据进行加权排序的方法,并基于该方法对受数据输入顺序影响的CABOSFV C分类数据高效聚类算法进行改进,提出了考虑加权排序的聚类算法(CABOSFV CSW),消除了算法对数据输入顺序的敏感性.采用UCI基准数据集进行实验,发现应用加权升序排序的CABOSFV CSW算法在处理分类数据时,聚类质量较原始CABOSFV C算法和其他受数据输入顺序影响的算法在准确性上有改善,在稳定性上有显著提高.  相似文献   

4.
针对一致聚类算法中聚类数目判断不准确、聚类速度慢等问题,通过集成复杂网络中的Newman贪婪算法与谱聚类算法,提出了一种新的基于Minkowski距离的一致聚类算法.该算法利用Minkowski距离刻画样本间的相似度,根据随机游走策略,结合不同数据的特征值分布分析方法进行聚类,实现聚类数目的自动识别.实验仿真说明算法具有较少的运算时间及较高的聚类精度.结合实际铜矿泡沫浮选过程特点,将该算法应用于浮选工况分类,进一步验证了算法的有效性.  相似文献   

5.
时间序列的相似性度量是时间序列聚类、分类以及其他相关时间序列分析的基础.传统基于距离的相似性度量方法,忽视了时间序列可能存在的时间上的联系,而将时间序列看作一系列孤立点的集合.对于序列间可能存在的前后联系,基于分数阶微分的遗传特性和记忆特性,提出一种新的时间序列聚类的相似性度量.根据时间序列的分数阶微分计算新序列间的点距离,将其作为聚类算法的输入对时间序列进行聚类.仿真实验结果表明,与基于原始序列矢量距离的聚类结果相比,新的分数阶相似性度量方法表现更好.  相似文献   

6.
一种基于最大最小距离和SSE的自适应聚类算法   总被引:1,自引:0,他引:1  
K均值聚类是一种常用的聚类算法,需要指定初始中心和簇数,但随意指定初始中心可能导致聚类陷入局部最优解,且实际应用中簇数未必是已知的。针对K均值聚类的不足,文中提出了一个自适应聚类算法,该算法基于数据实例之间的最大最小距离选取初始聚类中心,基于误差平方和(SSE)选择相对最稀疏的簇分裂,并根据SSE变化趋势停止簇分裂从而自动确定簇数。实验结果表明,该算法可以在不增加迭代次数的情况下得到更准确的聚类结果,验证了所提聚类算法是有效的。  相似文献   

7.
针对指纹定位精度易受指纹数据K-means聚类预处理效果不佳、加权K近邻算法采用固定K值进行匹配定位精度差等问题,提出一种基于改进K-means聚类的自适应加权K近邻算法.算法在对指纹数据进行聚类计算过程中充分考虑参考点间接收信号强度值与实际物理坐标的双重影响,以避免参考点分类不明确;根据每个测试点的匹配参考点之间实际距离的均值和标准差设置阈值,动态选择K值.实验结果证明,改进K-means聚类的自适应加权K近邻算法相较于传统室内定位算法定位精度提高了44%,可为相关应用提供更精确的定位服务.  相似文献   

8.
随着网络环境的愈加复杂,用户数量和种类显著增加,网络信息更新频繁.针对文本数据自身较稀疏、不规范等特点,提出了基于改进的局部序列比对算法的用户会话聚类新方法.首先通过计算用户会话集成距离方法衡量会话的相似度;然后,采用改进的基于用户会话距离的序列比对算法对话题进行聚类,该算法改善了传统用户聚类算法的不足.实验表明,该算...  相似文献   

9.
丁宇杰  谭小球 《科技信息》2011,(15):J0104-J0105,J0119
针对来自不同用户的Web浏览序列往往长短不一的问题,引入编辑距离用于计算浏览序列之间的不相似性。运用含两个阈值的顺序聚类算法对Web浏览模式进行分析,无需事先指定聚类的数量,降低了对浏览序列参与聚类的顺序的依赖性。数据来源于真实数据的仿真实验证明了方法的有效性和灵活性。  相似文献   

10.
本文提出了一种比较DNA序列的方法,对于通过数学方法提取出的含有DNA序列信息的多种数值特征构成的向量,设计了一种新的聚类算法,使其能对一组向量进行有效分类从而达到对DNA序列进行比较的目的.为了避免传统算法的缺陷和增加达到分类最优解的概率,我们将遗传算法引入进来,提出了一种基于遗传算法的聚类算法.一组对八种有胎盘哺乳动物的线粒体全基因组序列的分类实验验证了该方法的有效性.  相似文献   

11.
针对非监督分类算法分类精度不高、监督法分类算法的训练样本需要人工选择且容易误选的问题,提出了一种基于模糊C均值聚类(FCM)和BP神经网络相结合的遥感影像自动分类算法。首先利用FCM对影像进行初始聚类,然后根据聚类结果,由该算法自动选取其中的纯净像元作为训练样本,并送入BP网络进行学习,用最终训练得到的BP神经网络分类器对TM遥感影像进行分类,实验结果表明该算法具有较高的分类精度,能够满足大尺度地物类别判定的需要。  相似文献   

12.
基于粒度空间理论,进行了基于归一化距离的最小生成树分类算法研究.首先根据类内偏差和类间偏差的性质,在已有的粒度空间生成算法的基础上,引入最小生成树以及新的最优聚类指标,给出了基于归一化距离的最小生成树分类算法,并建立了最优聚类模型.其次,将模型应用于研究从NCBI上下载的1902-2015年间的898条现在已经确认能够感染人的禽流感病毒蛋白质序列HA与NA蛋白,共有8种,包括H5N1,H5N2,H7N2,H7N3,H7N7,H9N2,H10N7,以及最近的H7N9.在距离中心最近的基础上,通过运行最小生成树分类算法,6个代表病毒序列被选出,并且得到了最优层次结构.最后,对实验结果进行分析,结果表明病毒爆发地域差异、病毒爆发时间等因素对禽流感病毒的变异产生了重要影响,这些结果与已有的研究结果一致,说明本文提出的最小生成树分类算法是有效的.在寻找基于粒度空间的最佳聚类问题上,最小生成树分类算法比原有的算法具有更低的复杂度.这些结论为基于大数据的信息处理提供了一种全新的处理方法.  相似文献   

13.
针对应用聚类方法检测入侵中参数人为指定的问题,提出了一种新的基于无监督的聚类算法.该方法不需要人为设置参数并且不受数据输入顺序的影响,聚类的形状是任意的,能够较真实地反映数据分布的具体性状.算法通过比较无类标训练集样本间的距离,根据距离最近的样本首先聚合成类的特性,在每一步聚类结束时,再次比较类间距离以及计算类内数据占总数据的比率来确定异常数据类.实验证明该算法处理未知入侵检测问题的检测率为89.5%,误报率为0.4%.  相似文献   

14.
《河南科学》2016,(3):348-351
传统K-means聚类算法中聚类初始中心点是随机确定的,实际聚类数据集中可能有孤立点,造成了每次聚类的结果不同,聚类质量不同,有时陷入局部优化状态.针对这些问题,研究者曾试图用距离法解决孤立点的判断和确定初始聚类中心.这种思路存在不科学性.因为孤立点不仅指远离其他点,同时它的周围点稀疏;另外,当数据量过大、数据特征值过多时,算法的运算量大,需要占用大量的计算机资源,运算速度过慢.对传统的K-means聚类算法进行研究,提出了基于密度参数和距离理论的初始聚类中心的确定和孤立点的判断,对传统的K-means聚类算法进行改进.  相似文献   

15.
图之间的距离度量一直是研究的难点之一。文中提出了一种基于图谱归一化编辑距离的聚类方法。首先利用图的谱方法实现图中点的排序,再用串编辑距离进行两图之间的相似性度量,以此距离构成的不相似矩阵,应用基于矩阵理论的聚类算法实现序列图的聚类研究。考虑到图中点的多少差异,给出归一化串编辑距离的方法解决长短谱序列间距离差异误差问题。实验表明,基于图谱归一化编辑距离的聚类方法是有效的。  相似文献   

16.
基于距离的关联规则挖掘算法研究   总被引:1,自引:0,他引:1  
提出了基于距离的关联规则算法的几点改进:在聚类部分,改用CADD算法对全部属性聚类,使得聚类结果更好,并且减少了规则的判定条件;在关联度参数D0的设置问题上,提出了用投影簇半径值作为其参考值的思想,以减少设置的盲目性.实验结果表明,改进的算法能更有效地挖掘基于距离的关联规则.  相似文献   

17.
为解决高多元时间序列聚类算法的问题,采用了一种基于主元分析方法的多元时间序列聚类分析方法,利用MTS序列的前z个主元与每个簇的代表元素之间的Eros距离,将原有的复杂数据降维.在此基础上通过改进K-means算法对选取的多元时间序列的主元进行聚类分析,最后得到K个MTS聚类.理论分析和实验结果表明该算法能有效解决聚类问题.  相似文献   

18.
针对传统K-means算法随机选择初始聚类中心容易造成聚类结果不稳定且准确率低等问题,基于拟蒙特卡洛(Quasi-Monte Carlo,QMC)方法提出一种新的初始聚类中心确定方法;该算法利用QMC序列分布的超均匀性特点,对整个样本空间中的样本分布进行采样估计;基于k近邻距离(k-distance)对QMC序列点进行加权的K-means聚类,得到初始聚类中心。该算法的计算复杂度为O(max(d、n)logn),其中d、n分别表示样本数据的维数和数量;在人工数据和实际数据集上的仿真实验表明,该算法能选择更优的初始聚类中心,有效降低K-means算法的迭代次数,提高聚类的准确性、鲁棒性和收敛速度。  相似文献   

19.
针对高分辨率极化SAR数据特征分布不再符合同质区域假设, 进而导致基于统计分布的极化SAR影像非监督分类方法精度下降的问题, 将具有广泛适用性的KummerU分布嵌入粒子群寻优聚类算法, 提出了新的极化SAR影像非监督分类算法(PSO-KummerU方法):首先基于极化SAR统计特征对数据进行初分类, 然后采用极化SAR统计特征与粒子群优化算法进一步进行聚类中心求解, 分类准则部分采用KummerU距离改进代替传统的Wishart距离度量准则; 采用3种非监督分类方法(H/α-Wishart、PSO-Wishart、PSO-KummerU方法)进行分类对比实验.实验结果表明:基于KummerU分布的PSO-KummerU方法与采用Wishart距离的聚类方法相比, 目视效果明显改进, 整体分类精度提高14%以上.  相似文献   

20.
一种增量式文本软聚类算法   总被引:1,自引:0,他引:1  
针对传统文本聚类算法时间复杂度较高,而与距离无关的算法又不适用于动态、变化的文本集等问题,提出了一种基于语义序列的增量式文本软聚类算法.该算法考虑了长文本的多主题特性,并利用语义序列相似关系计算相似语义序列集合的覆盖度,同时将每次选择的具有最小熵重叠值的候选类作为一个结果聚类,这样在整个聚类的过程中大大减小了文本向量空间的维数,缩短了计算时间.由于所提算法的语义序列只与文本自身相关,所以它适用于增量式聚类.实验结果表明,算法的聚类精度高于同条件下的其他聚类算法,尤其适合于长文本集的软聚类.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号