首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
数据挖掘分类算法研究综述   总被引:1,自引:0,他引:1  
随着数据库应用的不断深化,数据库的规模急剧膨胀,数据挖掘已成为当今研究的热点;特别是其中的分类问题,由于其使用的广泛性,现已引起了越来越多的关注。对数据挖掘分类问题的研究现状进行了综述:首先对研究比较多的基于判定树的归纳分类、基于人工神经网络的分类和基于统计的贝叶斯分类作了详细的讨论;然后对目前新提出的几种算法作了简要分析;最后根据数据挖掘的发展现状和研究重点对数据挖掘分类算法的发展趋势作了展望。  相似文献   

2.
本文主要针对数据挖掘分类算法研究现状,对目前发展较成熟的几种分类算法如决策树、关联规则分类、神经网络、贝叶斯方法、遗传算法等分别进行了论述,并且展望了数据挖掘技术的未来。  相似文献   

3.
数据挖掘中分类算法综述   总被引:11,自引:0,他引:11  
对分类算法中需要解决的关键问题进行了分析;综述了不同分类算法的思想和特性,决策树分类算法能够很好地处理噪声数据,但只对规模较小训练样本集有效;贝叶斯分类算法精度高、速度快,错误率低,但分类不够准确;传统的基于关联规则算法分类准确率高,但容易受硬件内存的制约;支持向量机算法分类准确率高、复杂度低,但速度慢.针对各种分类算...  相似文献   

4.
数据挖掘中的数据分类算法综述   总被引:63,自引:0,他引:63  
分类算法是数据挖掘中的最重要的技术之一。通过对当前提出的最新的具有代表性的分类算法进行分析和比较 ,总结每类算法的各方面特性 ,从而便于研究者对已有的算法进行改进 ,提出具有更好性能的新的分类算法 ,同时方便使用者在应用时对算法的选择和使用  相似文献   

5.
6.
分类是把数据项映射到其中一个事先定义的类中的这样一个学习函数的过程.文章介绍分类数据挖掘的定义、分类的过程以及算法的分类,论述数据分类的常用技术,对分类的应用和分类算法的发展方向进行了展望.  相似文献   

7.
数据挖掘(DM:Data Mining)是为了发现事先未知的规则和联系,而对大量数据进行选择.探索和建模的过程,目的是在于得到对数据库的拥有者来说清晰而有用的结果。利用数据挖掘,无疑能对决策支持起到充分的辅助作用。  相似文献   

8.
李文静 《甘肃科技纵横》2007,36(3):14-14,43
分类是数据挖掘中一个重要的研究领域。常用的技术有决策树分类、贝叶斯分类、神经网络分类等。通过对当前具有代表性的分类算法原理进行分析、比较,总结出每种算法的性能特征。  相似文献   

9.
在介绍数据挖掘、分类算法有关概念的基础上,介绍了决策树的具体生成算法.为了减少数据量,改进决策树算法实现时的数据结构,详细描述了基于SPRINT(scalable paraUehzable induction of decision trees)分类算法的实现,给出了SPRINT算法的性能评估。  相似文献   

10.
基于数据挖掘分类技术的高校教学方法研究   总被引:6,自引:0,他引:6  
探索在高校教学中数据挖掘分类技术的应用,提出了数据挖掘技术在高校教学应用中的实施方案,并以高校教学中学生成绩的分析为例介绍了方案的实施过程。  相似文献   

11.
为解决情感分类中词间的语义关系难以表达和分析的问题,提出了一种基于词向量(word representation)和支持向量机(support vector machine)的情感分类算法,对电子商务在线评论的情感分类问题进行研究.首先使用word2vec聚类相似特征,然后使用word2vec和SVM对情感数据进行训练和分类,并分别使用基于词特征和基于词性标注的方法进行特征选择.在京东评论数据上进行的实验结果表明,与现有方法相比,分类准确率和召回率得到了提高.  相似文献   

12.
随着时间的推移,网络协议流将出现不平衡的现象,经常出现不可预知的在线流量种类,传统在线流量分类模型无法对未知的流量种类进行分类,导致整体分类精度低,适应能力差。为此提出一种新的基于机器学习算法的在线流量分类方法,针对不同类别的在线流量样本流集合筛取出若干最近邻样本流,求出各个样本流特征权重,确定各个特征与类别的相关性,将相关性大的特征当成在线流量特征。依据得到的特征选取部分标识在线流量数据,确定K中值聚类的起始中心,构造映射关系,获取未知的在线流量种类。实验结果表明,所提方法有很高的分类精度,且扩展性和适应能力较强。  相似文献   

13.
为了保证运算时效的同时,提高复杂数据的分类精度,提出了基于多目标蜂群算法和极限学习机的数据分类算法。该方法以最小的特征个数和最高的分类精度为优化目标,利用改进的多目标蜂群算法对数据的特征个数和分类器参数进行寻优,针对多个有代表性的数据集进行仿真,结果表明所提出方法的有效性。  相似文献   

14.
当前动态数据流下的实时分类问题存在3个难点:针对海量数据的实时处理;概念漂移的跟踪和模型的更新;模型的稳定和鲁棒性.针对上述问题,将极端支持向量机(extreme support vector machine,ESVM)与MapReduce框架结合,提出了带遗忘因子的鲁棒ESVM算法.该方法通过构造残差权重矩阵,对残差进行修正,同时加入遗忘因子,提高新样本的作用,从而实现对海量数据处理问题的求解.实验结果显示,所提出方法能够快速有效地对动态数据流进行分类,且结果不易受到噪声干扰,稳定性强.  相似文献   

15.
针对Netflow提供的流量信息有限的问题,在Netflow的基本信息基础上构建更丰富的特征空间,通过机器学方法(决策树、朴素Bayes方法和Bayes网络)研究了Netflow用于流量分类的可行性。实验结果表明,决策树方法在Netflow数据上具有良好的分类效果;同时结合Netflow的广泛性,提出的方法具有良好的实用意义和推广价值。  相似文献   

16.
支持向量机(support vector machine,SVM)是分类算法中集高效性、准确率和实时性于一体的分类方案。但由于在SVM分类决策的过程中,无关的分类器也参与了投票,使得方案的实时性和分类可靠性有一定程度的降低。提出了基于相似度的高效SVM网络流量识别方案(efficient SVM based on similarity,ESVMS)。ESVMS通过估算待分类实例可能所属的类别范围,排除SVM中那些无关分类器的投票决策。实验结果表明ESVMS较SVM分类准确度几乎没有降低,但分类实时性进一步提高。  相似文献   

17.
互联网业已深入每个人的生活,团购平台、在线商店、在线消费等形式的电子商务平台已成为人们时下最流行的消费方式。几乎所有的电商平台都允许和鼓励用户在消费之后对产品或者服务进行评论,而且用户评论对潜在消费者和商家都具有极高的价值。这使得广告、虚假评论等形式的垃圾评论被人为地夹杂在用户评论中,以期达到虚假宣传、推广产品或者诋毁其他商家信誉的目的。垃圾评论检测和分析便是在这样一种应用背景下,研究如何有效地排除垃圾评论干扰,发挥有效评论价值的方法。针对COAE2015设定的垃圾评论识别任务,利用其提供的语料资源,设计了一种基于启发式规则的半监督垃圾评论分类方法。实验结果证明,提出的方法可以有效地识别垃圾评论,同时能够保持对有效评论的识别精度。  相似文献   

18.
传统的分类算法大多假设数据集是均衡的,追求整体的分类精度.而实际数据集经常是不均衡的,因此传统的分类算法在处理实际数据集时容易导致少数类样本有较高的分类错误率.现有针对不均衡数据集改进的分类方法主要有两类:一类是进行数据层面的改进,用过采样或欠采样的方法增加少数类数据或减少多数类数据;另一个是进行算法层面的改进.本文在原有的基于聚类的欠采样方法和集成学习方法的基础上,采用两种方法相结合的思想,对不均衡数据进行分类.即先在数据处理阶段采用基于聚类的欠采样方法形成均衡数据集,然后用AdaBoost集成算法对新的数据集进行分类训练,并在算法集成过程中引用权重来区分少数类数据和多数类数据对计算集成学习错误率的贡献,进而使算法更关注少数数据类,提高少数类数据的分类精度.  相似文献   

19.
引入图的误分类代价矩阵,选取以最小误分类代价为目标的加权子图作为图样本的特征属性,建立起图的决策树桩分类器,进行集成学习,得到一个对新图进行分类的判别函数.在生成候选子图时,利用子图的超图增益值具有上界的性质来裁剪增益值比较小的候选子图,从而减少候选子图数量,提高算法效率.实验结果表明,所提算法比其他图分类算法的误分类代价更小.  相似文献   

20.
基于决策树和遗传算法的模糊分类系统设计   总被引:1,自引:0,他引:1  
提出一种基于决策树初始化和遗传算法优化的模糊分类系统的设计方法.该方法首先采用分类和递归树(CART)算法进行决策树的生长,树的修剪过程简化了初始决策树;然后,把修剪后的决策树转化为模糊模型,利用匹茨堡型实数编码的遗传算法优化该模糊模型.为了提高模型的解释性,在遗传算法中利用基于相似性的模型简化方法对模型进行约简.最后利用该方法对Iris问题进行研究,仿真结果验证了该方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号