首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
一种改进的k-means聚类算法在入侵检测中的应用   总被引:4,自引:0,他引:4  
讨论了经典的k-平均聚类算法,说明了它存在不能很好地处理符号数据和对噪声与孤立点数据敏感等不足,提出了一种改进的k-平均聚类算法,克服了k-平均聚类算法的缺点,并从理论上分析了该算法的复杂度。实验证明,用该方法实现的数据聚类与传统的基于平均值的方法相比较,能有效提高数据聚类效果以及入侵检测的准确度。  相似文献   

2.
王林  吴海桥  郑友石 《科技信息》2010,(32):I0136-I0137
K均值算法是聚类方法中常用的一种划分方法,有很多优点,但也存在不足之处,它对球状、凸形分布的数据具有很好的聚类效果,但对样本的输入顺序敏感,可能产生局部最优解,而且受孤立点影响比较大。本文针对这些不足之处,主要从数据预处理。初始聚类中心的选择和迭代过程聚类种子计算三方面进行改进,并做了改进前后算法的对比实验。结果表明,改进后的算法比原k均值算法具有更高的准确性,受孤立点的影响也大大降低。  相似文献   

3.
在数据挖掘领域,聚类用于发现数据的分布模式和数据间的相互关系.作者提出一种分层聚类算法,可识大规模、高维数据.该算法首先从不同的角度对电信客户进行聚类或分类,然后以这些聚类为基础,实行自底向上的层次聚类得到最终的聚类结果.算法执行效率高,适合大规模数据的聚类问题.该方法在某电信企业的客户分析中取得了较好的结果.  相似文献   

4.
为解决常用于就业数据信息分析的K-means算法中初始化聚类中心敏感和容易陷入局部最优值问题,提出了一种新的动态聚类算法.该算法首先利用最近邻聚类法获得初始聚类中心,然后利用小类对合并条件进行聚类合并,从而获得更优的聚类结果.以多个高职院校近几年的就业数据为样本信息,在数据预处理的基础上,运用提出的聚类方法进行了聚类实验分析,并挖掘出与就业质量相关的因素.最后的实验结果表明,文中提出的聚类方法聚类划分效果更优.  相似文献   

5.
K-means 是一种基于划分的聚类算法,由于 K-means 算法在选择初始聚类中心时是随机选取 k 个点,因此一旦 k 个点选取不合理,将会误导聚类过程,得到一个不合理的聚类结果。在分析聚类结果对初值依赖性的基础上,对初值选取方法进行了分析和研究,采取“射靶”的原理进行类中心搜索。从实验结果中可以发现,改进后 K-means 得到的聚类结果更加稳定,对初始聚类中心的依赖性减弱了。  相似文献   

6.
在传统层次聚类基础上,提出并实现了一种基于距离的增量式聚类算法,并应用于粮食智能决策支持系统中,算法在保持层次聚类优点的基础上,利用原有的聚类结果提高聚类速度,并可以根据用户需要在聚类精度和聚类速度两方面选取一个适当的平衡点,有效地提高聚类分析的效率。  相似文献   

7.
目的 通过对现有聚类常用算法的研究,给出一种适用于大规模中本数据集聚类的算法DBTC(density-based text clustering)。方法 采用在DBSCAN算法基础上改进提出的DBTC算法,对中本数据集进行聚类。结果 DBTC算法可以发现任意形状的簇,对中本聚类的准确率高达80%以上。结论 经过分析和实验证明DBTC算法比基本的DBSCAN算法更适合于大规模数据集。  相似文献   

8.
王娟 《科技信息》2012,(25):168+229-168,229
聚类算法作为一种重要的数据挖掘的方法,能找到样本中相对集中的区域。本文分析了一些常用聚类算法以及局限性,并且针对K-means算法中初始点的选择,讨论了一种改进的K-means算法的实现过程,以期得到比较理想的聚类效果。  相似文献   

9.
在聚类分析技术中Chameleon算法在发现高质量任意形状簇方面具有优势。但是该算法需要用户人为给出K-最近邻的K值以及停止合并子簇的位置等参数,在没有先验知识的情况下确定这些参数难度较大。此外,Chameleon算法的第一步中需要用到图划分技术,这是一个NP-难问题,因此大大增加了算法的复杂度。本文引入模块度的概念,提出了一种改进的Chameleon层次聚类算法(I-Chameleon算法)很好地解决了以上诸多问题,能够自动地发现任意形状簇。  相似文献   

10.
分析数据挖掘领域的聚类分析方法及代表算法,比较这些算法的性能,对数据挖掘中的谱系聚类进行举例说明.实践证明谱系聚类是一种有效的可用于数据预处理的离散化方法,可以快速和合理的解决粗糙集数据挖掘中数据预处理的问题.  相似文献   

11.
介绍了数据聚类算法,提出了采用基于相似度的聚类算法进行客户分类的思路,给出了相似度的计算方法及客户分类的算法,并通过试验结果证明了算法对客户分类的有效性.  相似文献   

12.
应用映射簇的概念来明确多维数据中簇与维度的关系,将聚类问题转化为映射簇问题;将采样技术与PAM相结合,根据曼哈坦距离计算数据对象之间和簇之间的距离实现聚类分析.此外,给出了相应的具体算法,并将该算法与k-中心点算法进行了试验比较.试验结果证明了该算法的有效性.  相似文献   

13.
介绍了数据挖掘、网络挖掘和网络用法挖掘技术的理论发展及其它们在实际中的应用情况,并在挖掘算法的改善提高过程中进行了探索性的研究.为了有效地帮助Web站点管理员管理Web站点,帮助商家调整整个市场策略,提出了一种在给定的Web日志中利用事务数据库中的挖掘序列模式的方法来发现所有的大访问路径的算法.结果证明该算法是行之有效的.  相似文献   

14.
改进模糊聚类算法及其在人力资源管理中的应用   总被引:2,自引:0,他引:2  
对传统的模糊聚类算法进行了改进,考虑了各评价指标的相关性及不同评价指标对所分析问题的重要程度,使模型能够更准确地反映实际问题.运用改进算法对人力资源问题进行了分析,验证了该算法的有效性.  相似文献   

15.
随着大数据在教育中的作用日益凸显,大量的数据被应用到教学研究、教学评估和行为预测.学生的成绩、行为记录、与老师的互动记录等教育数据,都已经开始发挥价值.为了解决课程的低通过率问题,将改进的K-近邻算法应用到学习预警中,首先利用网格搜索和交叉验证相结合的方法对模型参数进行优选,其次在构建决策树过程中,利用基尼增益确定特征的权重系数并且根据权重系数进行特征选择,在计算距离时引入权重系数,使每个特征收到权重系数的约束.实验表明,在一个公开的数据集和一个真实的数据集上,改进后的K-近邻算法显著优于传统的K-NN.  相似文献   

16.
基于蚁群聚类的智能优化算法及应用   总被引:1,自引:0,他引:1  
为了解决数据挖掘问题中离散优化问题,提高全局的优化能力,在研究基本蚁群聚类模型的基础上,通过改进,提出了一种新的蚁群聚类组合算法,将此算法应用于银行信用卡客户的消费行为分析,通过数据测试和性能分析,证明这种算法在解决离散空间问题上表现了良好的性能。该结果对银行制定市场策略上提供了良好的参考价值。  相似文献   

17.
聚类分析在犯罪数据分析中的应用   总被引:1,自引:0,他引:1  
针对犯罪情报数据的特点,文章利用聚类分析将具有相似特征的案件或犯罪人员从海量数据库分拣出来,单独形成特征类型数据库,找出每类中大部分犯罪分子及犯罪活动中的特征信息,根据不同分类,将犯罪特征应用到该类其他案件的侦破中去,为犯罪案件的串并及破案提供有益帮助.  相似文献   

18.
基于信息熵改进的 K-means 动态聚类算法   总被引:1,自引:2,他引:1  
初始聚类中心及聚类过程产生的冗余信息是影响K-means算法聚类性能的主要因素,也是阻碍该算法性能提升的主要问题.因此,提出一个改进的K-means算法.改进算法通过采用信息熵对聚类对象进行赋权来修正聚类对象间的距离函数,并利用初始聚类的赋权函数选出质量较高的初始聚类中心点;然后,为算法的终止条件设定标准阈值来减少算法迭代次数,从而减少学习时间;最后,通过删除由信息动态变化而产生的冗余信息来减少动态聚类过程中的干扰,以使算法达到更准确更高效的聚类效果.实验结果表明,当数据样本数量较多时,相比于传统的K-means算法和其他改进的K-means算法,提出的算法在准确率和执行效率上都有较大提升.  相似文献   

19.
关联规则是数据挖掘领域中最重要的研究内容,能够在数据库中发现频繁模式和关联知识。对关联规则及其相关挖掘算法Apriori进行了分析,指出了Apriori算法存在的缺点。通过基于预处理的改进Apriori算法在高校教学评价中的应用,说明数据挖掘过程,分析挖掘结果,最后指出了未来的研究方向。  相似文献   

20.
时态关联规则研究与应用   总被引:4,自引:0,他引:4  
传统关联规则挖掘很少考虑关联规则的时间适用性.时态关联规则是指带有时态约束的关联规则,每个关联规则都有着其成立的时间区域.结合其他算法的特点,提出了基于Fisher聚类的时态关联规则挖掘算法(TApriori算法),它能够动态地发现关联规则以及关联规则有效的时间区域.实验结果证明该算法是合理有效的.最后,结合具体CRM项目的特点,讨论了在CRM引入数据挖掘的体系结构,给出了一个应用.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号