首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
基于Rough集的决策树算法   总被引:1,自引:0,他引:1  
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。  相似文献   

2.
针对目标属性识别的特点,建立了基于粗糙集(Rough Sets, RS)的数据分组处理(Group Method of Data Handling, GMDH)神经网络分类模型.该模型较好地解决了采用高维数据集训练神经网络效率低,神经网络结构规模较大的问题.同时为了提高高维数据集合的属性约简效率,改进了集合近似质量属性约简算法.最后,通过与BP(Back-Propagation, BP)神经网络分类能力的仿真对比,结果表明,基于粗糙集的数据分组处理神经网络分类模型分类能力优于BP神经网络模型,满足现代防空作战对目标属性识别的需求,基于快速求核和集合近似质量的属性约简算法快速有效.  相似文献   

3.
提出了基于Rough集理论的车牌字符识别方法。该方法根据训练样本的特征向量建立决策表,应用Rough集理论对决策表属性进行约简,从约简后的决策表中获取决策规则,按照规则可信度的大小进行规则的匹配。实验表明该方法有效减少了决策属性的个数,提高了规则的泛化程度,简化了规则匹配算法,在车牌字符识别中取得了较好的识别效果。  相似文献   

4.
为了有效地从凸序列中约简数据和发现知识,解决Rough集集中的凸序列问题,在深入研究凸序列和Rough集理论的基础上,提出了凸Rough集模型,定义了凸Rough集和凸Rough集糊集,给出了凸Rough集糊集的隶属函数和应用凸Rough集进行数据约简及规则发现的算法,最后分析了一个应用案例,验证了模型的可行性,表明应用凸Rough集模型可以更好地进行数据约减和规则发现。  相似文献   

5.
决策树算法在医学图像数据挖掘中的应用   总被引:8,自引:1,他引:8  
目的研究决策树算法在医学图像数据挖掘中的应用。方法利用决策树算法对乳腺癌图像数据进行分类,提出了一个基于决策树算法的医学图像分类器。结果实现了ID3和C4.5算法对图像数据的分类,获得了分类的实验结果。结论该模型系统达到了较高的分类准确率,证明数据挖掘在辅助医疗诊断中有着广泛的应用前景。  相似文献   

6.
计算机信息管理系统在医疗机构的广泛应用,促进了医学信息的数字化;同时,电子病历和病案的大量应用、医疗设备和仪器的数字化,使得医院数据库的信息容量不断地膨胀。如何对医学数据库进行自动提升和处理,使其更好地为远程医疗和社区医疗提供全面的、准确的诊断决策和保健措施,已成为促进医院发展、提高服务质量而必须解决的新问题。正是在这种背景下,粗糙集技术开始广泛应用于医学数据库中。本设计主要研究医疗诊断系统中的Rough集属性约简方法。首先收集病人的体征数据;然后利用决策规则一致性检验算法过滤这些数据样本集合,删除在数据样本集合中相互矛盾和重复的样本,从而使数据样本集合保持一致性;再按照决策算法最小化方法来约简体征数据属性;最后得到病人所患疾病的名称及其机率,供医生参考。  相似文献   

7.
文根据一种基于粗糙集理论的数据挖掘方法,以市场调查数据为研究对象,通过适当的约简算法,得出简化的决策集,分析私家车潜在消费者群体特征。提出了一种启发式的约简算法,在属性约简之前,首先定义了一种条件属性分类能力强度,根据各属性分类能力强度对决策表进行排序,然后采用逐行扫描的方法逐条判断属性是否为不必要属性,解决了属性约简可能出现多个约简结果需要靠人为选取满意结果的问题。  相似文献   

8.
对Rough集的属性约简进行分析,特别针对不一致决策表,提出一种新的约简算法。算法通过等价类消除决策表不一致性,然后利用传统算法进行约简,并用实例证明算法可行性。  相似文献   

9.
属性约简是粗糙集理论研究的一个基本问题,它是一种有效的数据约简方法。然而,目前很多的属性约简算法在面对高维数据集时仍然不够高效。文中利用图论的相关理论和方法,对基于区分矩阵的粗糙集属性约简方法给出了直观和等价的刻画。在此基础上提出了基于图论的粗糙集属性约简方法。实验结果表明,新的属性约简算法在面对较大规模的数据集,尤其是高维的数据集时,不仅能有效地降低数据的维数,同时运行速度快且能保持较高的分类精度。  相似文献   

10.
模糊C-means算法是一种重要的聚类分析算法,但是在数据维数较高的情况下,该算法计算量急剧上升从而导致其效率较低.针对这一问题,提出了一种基于粗糙集理论的模糊C-means高维数据聚类算法,该算法在传统模糊C-means算法的基础上引入了粗糙集属性约简的理念,通过对数据集属性的约简,提取出对分类影响较大的属性集而摒弃与分类无关的属性,进而在聚类过程中只计算属性约简结果集中的属性,从而减少聚类过程的工作量、提高聚类效率.理论分析和实验结果表明,该算法在处理高维数据时较高效.  相似文献   

11.
云计算技术是海量数据挖掘的一种高效解决方案,将MapReduce并行计算模型与粗糙集属性约简算法相结合,提出一种基于MapReduce的浓缩布尔矩阵并行属性约简算法.该算法提高了粗糙集属性约简算法对大数据的处理能力和效率,并能适应云计算环境.实验结果表明,所提算法具有良好的效率、加速比和可扩展性.  相似文献   

12.
基于Rough集的数据挖掘在教学评价中的应用   总被引:2,自引:0,他引:2  
基于粗集的数据挖掘的主要过程是数据预处理、约简及规则提取.为了分析教师教学行为和教学效果之间的关系,以教学评价的数据为基础,利用基于粗糙集的数据挖掘技术进行挖掘.实例研究中采用基于分明矩阵的属性约简算法和启发式属性值约简算法,去掉决策表中的冗余属性和属性值,得到了影响教学效果的关键因素刎和相关规则.  相似文献   

13.
分析了全断面掘进机复杂的故障机理和运行参数,研究了将粗糙集和决策树应用到数据挖掘中的方法.以全断面掘进机刀盘的一些实时数据为例,采用MATLAB 7.0对数据进行离散化处理,结合粗糙集属性约简的算法对故障样本进行冗余属性的约简;然后,利用决策树算法对约简后的故障样本集进行规则提取,利用数据挖掘工具Clementine实现了C4.5算法和改进的C4.5算法,对其结果进行了对比分析;最后,运用VB编程对全断面掘进机采集的部分数据进行测试,结果表明该融合算法是一种快速、有效、可靠的故障检测与诊断的新途径.  相似文献   

14.
洪月华  徐霜  梁家荣 《广西科学》2013,20(2):128-131,136
为了实现对无线传感器网络监测得到的高维冗余且不确定的数据进行分类识别,提出一种由遗传算法和粗糙集进行优化的BP神经网络数据分类器模型,并形成了数据挖掘分类算法。该模型通过粗糙集理论的属性约简算法删除训练样本的冗余属性,利用遗传算法对神经网络的权值和阈值进行优化,并进行神经网络学习。数据挖掘分类算法学习速度快,能够有效提高无线传感器网络中数据的分类效率。  相似文献   

15.
为更有效更迅速地获得大量信息中所包含的潜在知识和规律,有关数据挖掘和数据库知识发现的研究变得更为广泛和深入.结合粗糙集理论的优势和层次分析模型的特点并将两者有机地结合起来,通过在非核属性中引入重要性概念并利用简单相异矩阵,提出了基于粗糙集理论和层次分析的数据约简算法,同时证明了该算法的有效性和完备性.最后,应用该算法解决了医疗决策系统中一个数据约简问题,实现了知识和规律的挖掘,提高了数据约简的合理性.  相似文献   

16.
一种基于条件熵的粗糙集属性约简算法   总被引:1,自引:0,他引:1  
粗糙集(Rough set)理论是一个新的数据挖掘方法,其主要思想是保持分类能力不变的情况下,通过属性约简,达到发掘知识并简化知识的目的。本文在理解和分析基于粗糙集理论的数据挖掘算法基础上针对属性约简提出了一个基于条件熵的启发式算法。  相似文献   

17.
针对商业库存数据库中存在大量冗余特征和噪声,许多数据挖掘算法对于目标数据的维度非常敏感,随着数据特征的增加,算法的时间空间开销也急剧增加.商业库存决策支持数据挖掘算法利用粗糙集技术对数据作预处理,分析过滤这些冗余的例子,减少了噪声的干扰,减少了训练数据,运用粗糙集的分类算法和浮动搜索算法对浮动搜索算法进行了改进.并用此算法进行了仿真实现,验证了改进后算法的优越性.  相似文献   

18.
认为数据量的巨大和高维、用户交互与先验知识的利用等等是知识发现领域面临的问题和难点 .粗糙集理论是一种具有模糊边界的集合理论 ,它作为研究知识发现的新型工具 ,能严格地处理不精确数据的分类问题 ,被广泛应用于不相容决策表中的规则提取过程中 .针对粗糙集理论中属性约减和属性值约减这两个重要问题进行了研究 ,并介绍了数据集中挖掘分类规则的基本原理 ,同时利用 RS理论中核和核值的概念 ,提出了一个在数据集中发现没有冗余属性的最小归纳依赖关系并简化决策系统的数据挖掘算法 ,并应用一简单的例子说明如何在数据库中发现分类规则 ,实验结果表明此算法可以大大提高系统潜在知识的清晰度  相似文献   

19.
大型的数据库和数据仓库中的数据往往是有噪声和不一致的,应用经典的粗糙集理论对其进行数据挖掘处理时,效果不够理想.引入信息颗粒的概念,给出了属性子集引导的信息颗粒的构造方法及基于信息颗粒的知识描述,并应用粗糙集的扩展模型讨论知识的粗糙度问题,提出了基于粗糙信息颗粒的属性约简算法,该算法在给定最小置信度阈值的情况下,可实现对不一致数据集的简洁知识提取.图1,表2,参8.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号