首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
文本聚类算法的比较   总被引:3,自引:0,他引:3  
聚类是一种重要的数据挖掘形式。介绍了常用的文本聚类算法,从各种聚类算法的适用范围、初始参数的影响、终止条件以及对噪声的敏感性等方面对其进行了分析比较。  相似文献   

2.
针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。  相似文献   

3.
多阶段聚类-朴素贝叶斯的异常检测   总被引:1,自引:0,他引:1  
针对异常检测手段用来标定数据集中明显的不同于其他数据的对象,提出多阶段聚类旨在解决噪声数据的引入和缺失属性样本的处理,并改变传统的贝叶斯分类的被动学习为主动学习的方式来构造性能优越的分类器。在数据预处理阶段,利用密度聚类滤去噪声点,密度聚类的输出作为下一阶段的K-means聚类的输入,提高了K-means的分类准确率。K-means负责对缺失属性的样本进行处理。在分类阶段,利用adaboost学习算法优化朴素贝叶斯分类器,使其获得较好的分类效果。  相似文献   

4.
针对当前三支聚类方法不能有效处理数值型数据,且三支聚类结果受阈值影响问题,文章基于邻域关系提出了确定合适阈值的三支聚类方法。首先给出了确定最优K值的改进K-means聚类算法。进而基于邻域关系下的下、上近似引入精度,提出了权衡边界域和精度关系的有效性评价指标。应用该指标,给出了确定邻域下、上近似中最佳阈值的构建算法,进而得到三支聚类的核心域和边界域。最后,通过UCI数据集上的实验验证了该方法的可行性,且该方法有效提高了聚类精度。  相似文献   

5.
基于进化策略的K-means聚类算法   总被引:3,自引:0,他引:3  
针对K-means聚类算法易陷入局部极小以及K值选取的问题,提出一类基于进化策略的聚类算法,可以有效地搜索最优聚类中心和聚类个数K;还提出了确定K值范围的经验公式,以减小搜索空间,提高搜索效率,并给出了理论分析.相对遗传算法而言,本方法鳊码简单,种群较小.对Fishers iris数据集的仿真实验表明,该方法得到最优解的可能性比经典算法大得多.  相似文献   

6.
聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘、智能搜索引擎、短文本信息处理等领域获得了广泛的应用。本文首先讨论了文本聚类(Textclustering)的应用,然后对文本聚类算法、聚类关键技术进行了综述。  相似文献   

7.
Web文本聚类是使文本之间具有最大的簇内相似性,同时具有最小的簇间相似性,它是一个将文本集分组的全自动处理过程。本文首先提出了Web文本聚类模型,然后对Web文本聚类关键技术进行了深入的研究,讨论了分词、特征表示、特征选择和K-means算法等相关技术。最后,实现了该文本聚类系统,对采集到的Web文本进行聚类,实验证明此算法具有很好的聚类结果。  相似文献   

8.
传统-means聚类算法的性能依赖于初始聚类中心的选择.本文将复杂网络节点的属性值作为节点的度、聚集度与聚集系数的加权值,通过计算所有节点的加权综合聚集特征值,选取综合聚集特征值高,并且彼此之间无高聚集性特征的K个节点作为聚类的初始聚类中心,然后进行聚类迭代过程.实验结果表明,新算法对初始聚类中心的选取更迅速有效,避免了传统K-means算法初始聚类节点选取的敏感性,进而提高K-means算法的聚类质量.  相似文献   

9.
孟岩  刘希玉  李镇 《山东科学》2007,20(5):48-52
针对模糊C-均值本文提出将基于蚁群算法的模糊聚类算法应用于文本聚类中,聚类采用二级结构,蚁群算法(ACA)作为一级结构,模糊C-均值聚类FCM用于二级结构。将此算法对文本集合进行聚类实验,并用分离系数、分离熵来判断模糊划分的效果,实验结果表明,与FCM相比,该算法具有较好的聚类效果。  相似文献   

10.
K-means聚类算法研究   总被引:1,自引:0,他引:1  
K-means算法作为聚类分析算法,已被广泛地应用到诸多领域。本文研究了K-means算法的基本原理,并将其应用到高校学生入学信息分析中。高考学生入学的相关信息包含了大量重要的学习及其他方面的信息,对这些数据信息进行分析和研究,有助于教师对不同类别的学生进行不同方式的教学,做到因材施教。首先对学生的入学信息数据进行预处理,然后使用K-means算法,对学生信息进行分类评价;最后利用所获得的分类结果指导学生在大学期间的学习方向以及教师对学生的培养工作。  相似文献   

11.
为了解决短文本因特征关键词稀疏而导致文本向量概念表达不够准确的问题,本文提出概念属性扩展特征关键词短文本聚类算法——STCBCFE(Short Text Clustering Based on Concept Feature Ex-pansion)。该算法通过HowNet的概念属性扩展特征关键词,以此增加文本语义特征和反映文本主题的特征关键词数量,进而提高短文本相似性;将其应用于短文本聚类,能够提高短文本的聚类效果。实验结果表明,该算法在短文本聚类的查准率和查全率上都得到了较大的提高。  相似文献   

12.
基于颜色矩的木材缺陷聚类识别   总被引:3,自引:1,他引:3  
提出了一种新的基于无监督聚类木材缺陷识别方法。该方法借助于木材图像颜色矩特征提取,有效实现数据降维,利用K-means算法对产生的特征数据集进行聚类,产生不同木材表面类型类别标签,自动找出并正确标识木材表面缺陷位置。分析了不同木材表面缺陷类型识别效率。仿真实验结果表明,该方法能快速有效地进行木材表面缺陷自动识别,平均运行时间为0.442 s,平均识别查准率约为86.5%,平均识别查全率约为81.1%。  相似文献   

13.
一个基于K-means的聚类算法的实现   总被引:9,自引:0,他引:9  
聚类算法作为数据挖掘中的一种分析方法,它能找到样本比较密集的部分,并且概括出样本相对比较集中的区域.分析了传统的聚类算法及局限性,讨论了一个基于K-mealls算法的实现过程,使得算法可处理存在孤立点的大文档集,得到最佳的聚类结果。  相似文献   

14.
K-means聚类算法研究   总被引:1,自引:0,他引:1  
K-means算法作为聚类分析算法,已被广泛地应用到诸多领域.本文研究了K-means算法的基本原理,并将其应用到高校学生入学信息分析中.高考学生入学的相关信息包含了大量重要的学习及其他方面的信息,对这些数据信息进行分析和研究,有助于教师对不同类别的学生进行不同方式的教学,做到因材施教.首先对学生的入学信息数据进行预处理,然后使用K-means算法,对学生信息进行分类评价;最后利用所获得的分类结果指导学生在大学期间的学习方向以及教师对学生的培养工作.  相似文献   

15.
一种改进的基于遗传算法的K均值聚类算法   总被引:2,自引:0,他引:2  
结合遗传算法和K均值聚类算法的优点,提出一种改进的基于遗传算法的K均值聚类算法.将遗传算法的编码方法、初始化、适应度函数、选择、交叉和变异等较好地应用于聚类问题,不仅解决了K均值聚类算法中K值难以确定、对初始值敏感以及遗传算法存在收敛性差和容易早熟的缺点,而且实现了聚类中心的优化选择、K值的自动学习和基因的自适应变异等...  相似文献   

16.
为解决传统 K-means 算法中因初始聚类中心选择不当而导致聚类结果陷入局部极值的问题, 采用蝙蝠算法搜寻 K-means 算法的初始聚类中心, 并将模拟退火的思想和基于排挤的小生境技术引入到蝙蝠算法中, 以克服原始蝙蝠算法存在后期收敛速度慢、 搜索力不强等问题。 同时, 通过测试函数验证了其有效性。 最后利用改进后的蝙蝠算法优化 K-means 算法的初始聚类中心, 并将该改进的算法与传统的 K-means 算法的聚类结果进行了对比。 实验结果表明, 改进后的算法的聚类性能比传统的 K-means 算法有很大提高。  相似文献   

17.
孙震 《科学技术与工程》2012,12(8):1790-1794
近来自然图像的修复已经成了一个热门话题.提出了一种基于K-means聚类算法的自组织神经网络(SOM),称为SOM-K.它首先利用SOM来训练每一个像素的特征向量,并把一幅图像分层.这样就能把每个破损像素分到每层,同时SOM训练后的输出也通过K-means聚类算法来聚合,分别在各个层中修复破损的像素.最后把修复好的各层溶合到一起.与单独使用SOM相比,SOM-K具有更精确的分类能力.  相似文献   

18.
肖会敏  刘臣  杨晓兵 《河南科学》2007,25(1):107-111
K均值算法的聚类个数K需指定,聚类结果与数据输入顺序相关,而且易受孤立点影响.针对这些缺陷,首先以实验的方式证明了找到最优的初始质心是K-MEANS算法有效的条件,对局部版的微粒群优化算法(PSO)进行了改进,利用其局部搜索的功能查找到K均值算法的最优初始质心和存在的孤立点,克服了K均值算法的这些缺陷。  相似文献   

19.
提出并实现了利用自组织特征映照网络来解决模式识别中的聚类问题的算法,对该算法的理论基础进行了必要的阐述,给出了实现的具体算法,同时提供了计算机的仿真结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号