首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在不平衡数据集中,多数类不一定是最优的,这一问题将会影响决策树的生成效果和分类预测的准确性,提出类置信度比例决策树算法,这种算法对类的大小不敏感.通过实验验证,这种算法比传统的决策树算法更具有优越性.  相似文献   

2.
基于粗糙集和决策树的数据挖掘方法   总被引:10,自引:1,他引:9  
从粗糙集和决策树两种方法具有的优势互补性出发,提出了一种基于粗糙集和决策树相结合的数据挖掘新方法·以胶合板缺陷检测数据分析为应用对象,利用粗糙集理论对胶合板数据库中的特征信息进行缺陷识别·利用谱系聚类重心距离法对数据进行离散化处理,采用粗糙集进行属性约简,得到低维样本数据,最后用决策树方法产生决策规则·实验证明,这种数据挖掘方法保留了原始数据的内部特点,加快了获取知识的进程,提高了模型的分类准确率,增强了规则的可解释性,取得了满意的研究结果·  相似文献   

3.
关联规则应用最频繁的是在零售部门,尤其是超市。以某超市一天中的商品销售记录为例来说明关联规则的应用,从中发现客户的购买模式和消费习惯。决策树分类方法的应用中,对于汽车销售公司的客户定位进行了分析,区分了男性和女性的偏好。销售公司可以据此对客户进行具体定位,促进销售。  相似文献   

4.
针对两种类别的肿瘤分类问题,首先运用信噪比方法筛选出表达水平发生显著性变化的特征基因,然后采用支持向量机作为分类器进行肿瘤分类,通过对两种类别的白血病DNA微阵列数据进行计算,达到了97.1%的分类准确度.  相似文献   

5.
针对SMOTE算法和随机森林可较好解决不平衡数据集的分类问题但对少数类样本分类效果还有待提高的问题,融合Canopy和K-means两种聚类算法,设计了C-K-SMOTE改进算法。先后利用Canopy算法进行快速近似聚类,再利用K-means算法进行精准聚类,得到精准聚类簇,最后利用SMOTE算法增加少数类样本数量,使数据趋于平衡。选取公开数据集KEEL(knowledge extraction on evolutionary learning)数据库中的不平衡数据集,结合随机森林分类模型进行了实验验证,实验表明C-K-SMOTE算法可有效平衡不平衡数据集。  相似文献   

6.
<正>Decision rules mining is an important issue in machine learning and data mining.However,most proposed algorithms mine categorical data at single level,and these rules are not easily understandable and really useful for users.Thus,a new approach to hierarchical decision rules mining is provided in this paper,in which similarity direction measure is introduced to deal with hybrid data.This approach can mine hierarchical decision rules by adjusting similarity measure parameters and the level of concept hierarchy trees.  相似文献   

7.
基于非参数方法的肿瘤基因表达数据挖掘   总被引:3,自引:0,他引:3  
该文提出了一种基于非参数统计的模式识别方法,此方法并不对微阵列数据作总体分布假设,从而降低了噪声对预测结果的影响.该方法可适用于两总体及多总体的模式识别问题.通过对两个真实的肿瘤基因表达数据的分析,验证了方法的识别效果.  相似文献   

8.
数据 中有许多数据是处于不断变化中的,对于这些数据,人们希望能对其未来的取值作出预测,预测的结果并不需要知道这些数据的具体取值,而只需得出一个变化范围,提出发现此类变化中关联规则的2种算法。  相似文献   

9.
基于粗糙集理论的续保规则挖掘模型   总被引:4,自引:0,他引:4  
基于粗糙集基本理论,分析了衡量规则价值的方法,构建了一个基于粗糙集理论的续保规则挖掘模型.运用该模型对10000条车险保单客户数据进行了分析,挖掘出隐含在这些数据中的续保规则,找到了续保客户的描述性特征.  相似文献   

10.
基于频繁集的多层次交互式关联规则挖掘   总被引:2,自引:0,他引:2  
定义了一系列关联规则的相关概念 ,然后 ,针对现有的销售事务数据库 ,提出了一种改进的获取多层次信息方法 ,并据此对各数据进行压缩编码 ,减少处理时间 .同时 ,借助频繁集和交互式技术 ,实现多个概念层次交互式挖掘 ,以按用户实际需要提取出其感兴趣的关联规则 ,从而提高了挖掘速度和运行效率  相似文献   

11.
基于数据立方体的维内关联规则挖掘算法   总被引:5,自引:0,他引:5  
针对数据立方体的结构特点,结合联机分析处理技术,提出了两种基于数据立方体的维内关联规则挖掘算法,以合肥农河超市实际数据作为测试数据,给出了两种算法的实验结果,结果表明,两种算法在不同支持度情况下执行效率存在明显差异,分别适合在高支持度和低支持度情况下进行关联规则挖掘。  相似文献   

12.
对数据挖掘关联分析的剪裁   总被引:1,自引:0,他引:1  
利用属性间的相互关系对关联分析进行剪裁,针对关联分析会得到过多的属性间关系这一问题,分析了影响关联分析结果的诸多因素,提出了对包容关系,递推关系以及互递关系的剪裁算法,经实例运算表明,新算法能有效地剪裁关联分析所得到的结果关系集合,在此基础上,对几种关系剪裁算法进行了比较和讨论,并提出了一些改进设想。  相似文献   

13.
This paper presents realistic data mining based on the data of B-type ultrasonic detection and diagnosis for cholrcystolithiasis (gallbladder stone in biliary tract) recorded by a district central hospital in Shanghai during the past several years. Computer simulation and modeling is described.  相似文献   

14.
提出一种从大型数据库中挖掘关联规则的快速算法——自适应快速关联规则提取算法。该算法以经典的Apriori算法及其他各种优化算法为基础,引入了自适应步长和扫描树的概念,并采用修剪法对Apriori算法进行了改进。理论分析与实验结果表明,该算法比Apriori算法的应用效率高,同时也证实了其有效性。  相似文献   

15.
关联规则挖掘是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识.对于大型数据库来说,有算法的执行时间太长等问题.分析和探讨了Apriori算法,提出了基于Apriori算法的一种有效的关联规则挖掘算法,减少了数据库I/O操作时间,从而提高了效率.  相似文献   

16.
一种数据挖掘关联规则的高效算法   总被引:4,自引:0,他引:4  
关联规则是数据挖掘的一个重要课题,本文提出了一种新的算法,可以大大减少扫描数据库的次数,能够灵活的在时空两方面取得折衷,提高了效率。  相似文献   

17.
关联规则的高效向量法数据挖掘   总被引:1,自引:0,他引:1  
对经典的向量挖掘算法和Apriori算法的思想及其复杂度进行分析后,提出了一种新的高效向量数据挖掘算法。新算法通过避免不必要的计算以达到提高算法的计算效率,通过避免不必要的存贮以达到减少算法的空间复杂度,与经典的向量挖掘算法相比有如下优点:(1)空间复杂度为o(n|L1|),比经典的挖掘算法的空间复杂度要小得多;(2)计算量比经典的挖掘算法要小。  相似文献   

18.
由于三I算法中的蕴含算子都是特定的,选择适合某一特定问题的蕴含算子十分困难。将经典蕴含算子泛化后得到Fuzzy集上一般蕴含算子的定义,本文将三I算法推广到一般蕴含算子上,并给出了基于一般蕴含算子的三I算法通用的计算公式,分析了基于一般蕴含算子的三I算法的还原性,这为在特定问题中用其它优化算法选择合适的蕴含算子提供了可能性。  相似文献   

19.
数据挖掘与数据库的集成方法   总被引:5,自引:0,他引:5  
数据挖掘的研究主要集中在挖掘算法上,但在数据库领域至关重要的数据挖掘系统与数据库的有效集成研究却很少,为此,在详细研究了数据挖掘耦合数据库的主要方法(通过SQL(Structured Query Language)游标接口读取数据、保存数据至本地磁盘cache进行挖掘、用存储过程封装挖掘算法、采用用户自定义函数表达挖掘算法以及通过扩展SQL直接操作挖掘模型)的基础上,指出在实现数据挖掘同数据库无缝集成的发展过程中,在现有的DB/DW中集成数据挖掘系统并提供应用程序和自定义挖掘算法的接口、研究推出标准数据挖掘语言是实现数据挖掘系统与数据库有效集成的关键技术。  相似文献   

20.
提出一种基于粗糙集理论的最简规则提取算法。该算法从已知数据的初始决策系统出发,首先通过建立可辨识矩阵进行属性约简,然后以所有约简建立一系列不同简化层次的子系统,最后对各个子系统获取带有置信度的最简决策规则。一般而言,这种方法能得到尽可能简单的规则。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号