首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
知识发现中缺损数据的处理(II)   总被引:1,自引:0,他引:1  
研究了在知识发现过程中处理连续取值属性值缺损的问题。提出了进行连续值划分的“超长方体”划分法。在此基础上 ,通过发现值缺损属性的取值集合 ,值缺损属性是否为强作用属性以及与其他属性是否相关 ,解决了对含有缺损数据的信息源进行知识发现的问题。文中通过处理UCI机器学习数据库中的 COIL数据库 ,说明了本方法是可行的。  相似文献   

2.
知识发现中缺损数据的处理(I)   总被引:3,自引:2,他引:1  
研究了如何在知识发现中处理属性值缺损的问题,通过发现值缺损属性的取值集合,值缺损属性是否为强作用属性以及与其他属性是否相关。不仅解决了对含有缺损数据信息源进行知识发现的问题,同时也说明了对缺损数据处理的意义。  相似文献   

3.
讨论了利用领域知识,如完整性约束,分级概念等,对原数据库进行重新处理并且给那些丢失或明显背离常规的属性确定一个取值区间。实验证明利用这种基于属性的知识发现方法处理缺损数据是很有效的。  相似文献   

4.
知识发现过程中连续属性离散化方法研究   总被引:8,自引:0,他引:8  
在综合分析知识发现过程中连续属性离散化方法的基础上,提出了一种基于全局聚类分析来处理连续属性离散化问题的方法。实例验证结果表明该方法对知识发现过程中连续属性离散化的划分更为合理。  相似文献   

5.
针对在数据挖掘中,连续属性常常需要预处理问题,应用粗糙集理论对连续属性的不完备问题、离散问题进行了研究,提出了一种连续属性预处理方法。基于条件属性与决策属性间的对应关系完成了不完备数据的填补。依据划分区间的概念、连续属性离散化含义及其本质特征,定义了划分区间的加法运算法则,以此对填补后的信息表进行了划分区间运算,并以分类质量作为离散过程迭代约束条件,实现了信息表中连续属性的离散化。通过C 编写的算法进行数值示例及测试数据库。实验结果表明此算法有效可行。  相似文献   

6.
挖掘关注的语言值关联规则   总被引:1,自引:0,他引:1       下载免费PDF全文
为了解决利用RFCM算法划分数量型属性,并通过组合语言值进行语言关联规则挖掘中出现的规则数量太多,以及难于获得用户真正关注的规则等问题,提出了一种改进的语言值关联规则挖掘算法。通过最大隶属原则将记录在数量型属性上的取值转换为语言值,然后转换成布尔型属性关联规则挖掘问题。同时,给出一个能够度量语言值关联则简洁性和新奇性关注程度(兴趣度)的计算函数,用于减少选取关注语言值关联规则的工作量。采用本文提出的方法对一组实例数据进行实验,得到了关注程度较高的语言值关联规则。所采用的方法能适用于含有大量数量型属性的数据库,并能有效地获取用户关注的规则。  相似文献   

7.
双重区间值聚类挖掘模型   总被引:1,自引:1,他引:0  
提出了双重区间值聚类的数据挖掘模型:首先将每个属性的取值按照领域知识划分为若干类。接着统计每个类在各条“交易”中出现的频率(支持度),最后再按照关联规则挖掘方法进行处理.这种区间值数据挖掘方法与传统的数据挖掘方法相比较,更有实用价值.  相似文献   

8.
认为数据量的巨大和高维、用户交互与先验知识的利用等等是知识发现领域面临的问题和难点。粗糙集理论是一种具有模糊边界的集合理论,它作为研究知识发现的新型工具,能严格地处理不精确数据的分类问题,被广泛应用于不相容决策表中的规则提取过程中。针对粗糙集理论中属性约减和属性值约减这两个重要问题进行了研究,并介绍了数据集中挖分类规则的基本原理,同时利用RS理论中核和核值的概念,提出了一个在数据集中发现没有冗余属性的最小归纳依赖关系并简化决策系统的数据挖掘算法,并应用一简单的例子说明如何在数据库中发现分类规则,实验结果表明此算法可以大大提高系统潜在知识的清晰度。  相似文献   

9.
模糊规则发现算法研究   总被引:3,自引:0,他引:3  
引入最小强度的概念来限制模糊属性集的搜索范围,提出一种能发现强模糊规则的快速算法.此算法利用Apriori算法的搜索技术来发现强模糊规则,因此具有较高的算法效率,并有效地解决了模糊系统的维数灾难问题.在快速算法的基础上,又提出一种能发现固定数目的强模糊规则的划分算法.该算法将数据库划分成多个子数据库,并在于数据库上通过发现划分强模糊属性集来限制全局强模糊属性集的搜索范围.实验表明,划分算法比快速算法更节省时间.  相似文献   

10.
介绍了在数据库知识发现(KDD)中将连续属性离散化的一些方法,并提出使用值差分度量离散化的算法.值差分度量算法原本是用于计算离散属性值间的距离,但实际上将这种方法反过来用于连续属性的离散化也可以有相当好的效果.将其与传统的使用统计量χ2的离散化算法作了比较.  相似文献   

11.
概念学习中连续值型属性的离散化   总被引:1,自引:0,他引:1  
在概念学习中,属性不仅可以为离散值型,还可以为连续值型,因此,连续值型属性的离散化问题是概念学习中的一个重要问题,本给出了基于假设检验的离散化方法的理论依据,并依此提出了一种离散化算法Discrete,实验结果表明,这种方法一有得到较合理的区间划分。  相似文献   

12.
认为数据量的巨大和高维、用户交互与先验知识的利用等等是知识发现领域面临的问题和难点 .粗糙集理论是一种具有模糊边界的集合理论 ,它作为研究知识发现的新型工具 ,能严格地处理不精确数据的分类问题 ,被广泛应用于不相容决策表中的规则提取过程中 .针对粗糙集理论中属性约减和属性值约减这两个重要问题进行了研究 ,并介绍了数据集中挖掘分类规则的基本原理 ,同时利用 RS理论中核和核值的概念 ,提出了一个在数据集中发现没有冗余属性的最小归纳依赖关系并简化决策系统的数据挖掘算法 ,并应用一简单的例子说明如何在数据库中发现分类规则 ,实验结果表明此算法可以大大提高系统潜在知识的清晰度  相似文献   

13.
通过等距处理在数据库的区间值上取样,应用模糊c-方法算法确定正态模糊数的两个参数,借助正态模糊数模型来软化数量属性论域的划分边界,给出正态关联规则的挖掘方法与预测方法,由于文中的方法能将数量属性的正态关联规则的问题转化为布尔属性的关联规则的问题,因此容易被人理解和掌握。  相似文献   

14.
ID3分类算法无法处理连续性数据并且在选择分裂属性时明显倾向于取值多的属性,无法产生准确的规则。基于信息熵的连续数据离散化预处理技术有效地拓展了ID3算法的应用领域,并提出了基于信息增益率的分裂属性选择方法,样例数据测试结果分析表明:该分类算法改正了在选择分裂属性时明显倾向于取值多的属性的缺陷,提高了分类的精度。  相似文献   

15.
目的 讨论连续值决策表的一种属性约简方法.方法 连续值决策表是一种常见的根据实际应用抽象所得的数据库.本文通过对连续值决策表进行预处理--离散化,把它们转化为有序决策表,然后以r度量作为度量标准对转化后所得的有序决策表进行属性约简.结果 与结论可以证明该方法可对连续值决策表有效的进行属性约简,使此类决策表的规则表示简单直观.  相似文献   

16.
模糊ID3算法处理的对象是具有模糊条件属性和模糊决策属性的模糊决策表,它利用平均模糊分类熵作为启发式选择扩展属性,利用模糊置信度作为叶子结点的终止条件.当用模糊ID3算法处理连续值和离散值决策表时,需要对连续值或离散值条件属性进行模糊化.模糊化的关键是模糊测度的确定,但确定合适的模糊测度非常困难,而且模糊化会损失有用的信息.针对这些问题,基于粗糙模糊集技术,提出了一种模糊决策树归纳算法,称为粗糙模糊决策树(RFDT:Rough Fuzzy Decision Tree).RFDT可直接处理离散值模糊决策表,归纳模糊决策树,不需要模糊化的过程.和模糊ID3算法类似,RFDT也分为三步:(1)利用粗糙模糊依赖度作为启发式选择扩展属性;(2)用选择的扩展属性划分样例集合;(3)如果划分的样例集合满足终止条件,则算法终止;否则递归地重复步骤(1)和(2).提出的算法用Kosko模糊熵作为叶子结点的终止条件,并通过一个例子说明了模糊决策树的归纳过程.  相似文献   

17.
一种基于聚类的粗糙集连续属性的离散化算法   总被引:4,自引:0,他引:4  
粗糙集理论是一种新的处理不精确、不完全与不相容知识的数学工具。粗糙集理论只能对离散属性进行处理,而不能处理连续属性。中针对这一缺陷,利用连续数值属性有序性的性质和统计方差理论,提出了一种基于聚类的连续属性离散化算法。运用典型数据将本算法与现有方法进行了比较分析,得到了满意的结果。  相似文献   

18.
针对粗糙集中连续属性需要离散化问题进行了研究.根据数据对象的可分辨性原理构造超立方体,在数据空间上对信息表中的连续属性进行整体离散化处理.根据条件属性与决策属性的一致性关系,依照条件属性在粗糙集边界域中的分类能力来确定条件属性的重要性,在此基础上选取重要划分点对信息表中的连续属性进行局部离散化,同时以信息熵作为迭代约束条件.数值示例和实验表明这种整体与局部相结合的离散化方法是有效可行的.  相似文献   

19.
ID3分类算法无法处理连续性数据并且在选择分裂属性时明显倾向于取值多的属性,无法产生准确的规则.基于信息熵的连续数据离散化预处理技术有效地拓展了ID3算法的应用领域,并提出了基于信息增益率的分裂属性选择方法 ,样例数据测试结果 分析表明:该分类算法改正了在选择分裂属性时明显倾向于取值多的属性的缺陷,提高了分类的精度.  相似文献   

20.
简要介绍了粗糙集连续属性的一种量化算法—基于VDM (ValueDifferenceMetric)度量的划分法 ,并用该算法对实验数据为取自UCI机器学习数据库中心的数据集Iris进行量化 ,再对量化后的属性领域进行灵敏度分析  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号