首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
针对在数据挖掘中,连续属性常常需要预处理问题,应用粗糙集理论对连续属性的不完备问题、离散问题进行了研究,提出了一种连续属性预处理方法。基于条件属性与决策属性间的对应关系完成了不完备数据的填补。依据划分区间的概念、连续属性离散化含义及其本质特征,定义了划分区间的加法运算法则,以此对填补后的信息表进行了划分区间运算,并以分类质量作为离散过程迭代约束条件,实现了信息表中连续属性的离散化。通过C 编写的算法进行数值示例及测试数据库。实验结果表明此算法有效可行。  相似文献   

2.
WILD:基于加权信息损耗的离散化算法   总被引:2,自引:0,他引:2  
现实应用中常常涉及许多连续的数值属性,而目前许多机器学习算法则要求所处理的属性具有离散值。基于信息论的基本原理,提出一种新的有监督离散化算法WILD,它可以看成是决策树离散化算法的一种扩充,其主要改进在于考虑区间内观测值出现的频度,采用加权信息损耗作为区间离散化的测试,以克服决策树算法离散不均衡的问题。该算法非常自然地采用了自底向上的区间归并方案,可以同时归并多个相邻区间,有利于提高离散化算法的速度,实验结果表明该算法能够提高机器学习算法的精度。  相似文献   

3.
ID3分类算法无法处理连续性数据并且在选择分裂属性时明显倾向于取值多的属性,无法产生准确的规则.基于信息熵的连续数据离散化预处理技术有效地拓展了ID3算法的应用领域,并提出了基于信息增益率的分裂属性选择方法 ,样例数据测试结果 分析表明:该分类算法改正了在选择分裂属性时明显倾向于取值多的属性的缺陷,提高了分类的精度.  相似文献   

4.
邓青  薛青  杜楠  付朝博 《科学技术与工程》2021,21(27):11674-11680
离散化是装备模拟训练系统数据预处理的重要组成部分。针对传统数据离散化方法对单个属性依次处理,往往忽视属性间的相关性,造成装备模拟训练系统数据离散化后的误差。提出基于层次聚类和相容度的数据离散化方法。采用逐层泛化构建离散化总体框架,完成对装备模拟训练系统数据混合型决策表处理。设计动态确定簇数的层次聚类,实现对属性的初始整体划分;结合类别属性信息和相容度合并相邻区间,去除冗余的离散划分。实验结果表明,基于层次聚类和相容度的数据离散化方法在区间总数、精度方面有明显优势。  相似文献   

5.
目前常用的离散算法多为单属性离散化算法.利用该类算法对多维连续属性进行离散化时,逐次对单个属性进行离散化,割裂了多维属性之间的关系.基于此提出了一种基于遗传算法和变精度粗糙集的多属性离散化算法.该算法基于变精度粗糙集所具有的较好数据分类容错和抗噪能力,通过变精度粗糙集近似分类精度建立遗传算法适宜度评价函数,并利用遗传算法在多维连续属性候选断点集上寻找最优断点子集.基于UCI数据集比较了所提算法与多种常用的离散化算法的差异,实验结果表明,该算法可以获得相对较好的离散化效果.  相似文献   

6.
ID3分类算法无法处理连续性数据并且在选择分裂属性时明显倾向于取值多的属性,无法产生准确的规则。基于信息熵的连续数据离散化预处理技术有效地拓展了ID3算法的应用领域,并提出了基于信息增益率的分裂属性选择方法,样例数据测试结果分析表明:该分类算法改正了在选择分裂属性时明显倾向于取值多的属性的缺陷,提高了分类的精度。  相似文献   

7.
提出一种基于连续属性离散化的知识分类方法.将条件属性按照重要度由高到低排序,并依照此排序将决策表中各条件属性依次离散化.在对决策表中条件属性的离散化过程中充分考虑已离散化的条件属性及决策属性,离散后的决策表不需要进一步约简.使用了模拟数据和UCI机器学习数据集中的数据进行算法测试,而且与其他离散化算法进行了对比,结果充分证明了新方法的有效性.  相似文献   

8.
一种基于粗糙集理论的连续属性离散化方法   总被引:14,自引:0,他引:14  
基于粗糙集的有关理论,提出了一种新的连续属性离散化方法·首先说明决策属性支持度的概念,再利用决策属性支持度作为反馈信息,提出一种领域独立的基于决策属性支持度的连续属性离散化算法·该算法能在保证决策表原始分类能力不变的前提下,提高约简效率·同时,各个属性拥有较少的分割区间,会使规则集合更加简洁·通过实例分析比较,说明该算法是非常有效的·  相似文献   

9.
传统的分类方法对不平衡数据集进行分类时对数据集中少数类的分类准确率不高,而少数类往往对结果的影响尤为重要.为此提出一种适应于不平衡数据集的改进树扩展型朴素贝叶斯(TANC)算法,该算法首先利用Relief算法对样本中的少数类进行权重分配,然后通过训练数据集,使缺失数据补齐,并通过将属性分割成多个有限区间,使连续数据离散化,将修改后的训练集用以训练TANC,最后通过TANC算法对数据集进行分类.基于UCI标准数据集上的实验结果表明,该算法的整体性能优于TANC算法.  相似文献   

10.
李刚  段隆振  孙焱平 《江西科学》2009,27(2):251-254
提出了一种基于多连续属性的离散化改进算法,在信息增益的离散化算法基础上,将离散化结果加以修正,并结合实例,详细说明该改进算法能更准确的判断出噪声数据、异常数据和错误数据,实现对这些数据的区别对待。  相似文献   

11.
连续属性离散化是数据预处理的关键步骤之一,在实际应用中往往通过高效的启发式算法来计算离散化结果.对基于辅助矩阵和信息熵的两类启发式离散化算法进行实验研究,分别选取每类算法中的5种典型方法,通过系列实验,对两类算法的性能进行对比研究,结果表明:辅助矩阵类算法具有相对较高的样本识别能力,但算法复杂度较高,运行时间更长,较适...  相似文献   

12.
提出了基于断点辨别力的粗糙集离散化算法.通过分析候选断点与决策类之间的相关性,定义了候选断点对决策类的辨别力,并以此作为断点重要性的度量,实现连续属性的离散化.离散化后的决策系统不改变原有的相容性,而且能最大限度地保留有用信息.采用多组数据对此算法的性能进行了检验,并与其他算法做了对比实验.实验结果表明此算法是有效的,而且当候选断点个数增多时仍有较高的计算效率.  相似文献   

13.
基于启发式信息熵的粗集数值属性离散化算法   总被引:1,自引:0,他引:1  
在一致性假设前提下,以数据集的统计性质作为启发式知识,从候选离散点集中选择离散点,根据数据集的期望值和方差来确定搜索最优离散点的区域,提出一种新的基于信息熵粗集数值属性离散化算法,并采用UCI国际标准数据集来验证新算法.新算法与已报道的算法所得到的离散断点集完全一致,决策表的离散化结果也相同,但时间代价不同,新算法比其计算效率提高40%~50%.  相似文献   

14.
样本信息处理中一种属性约简方法的研究   总被引:10,自引:1,他引:10  
为了剔除样本信息中存在的冗余成分和不相容性,同时提取关键信息等,根据样本信息的特点和信息具有粒度的思想,基于粗糙集的2个近似精度科学地定义了条件属性重要性,进而提出一种对样本信息进行属性约简的有效、简便方法.该方法主要包括信息核的求取、可省条件属性的重要性计算和相对属性约简集的确定.其中,为连续属性的离散化处理提供了一种基于模糊相似比原理的快速离散化算法,它能起到剔除模糊噪声的作用.典型实例计算和在油水层识别系统中的实际应用表明,这种属性约简方法的识别准确率可达90%以上,应用效果显著.  相似文献   

15.
在基于χ2统计独立性的离散化算法中,自由度与期望频数的选取直接影响χ2计算的准确性,从而影响离散化的性能.为此,提出了一种基于改进χ2统计的数据离散化算法,提高了基于统计独立性离散化算法的质量.首先,分析了χ2函数中自由度选取的不足,给出了自由度选取的修正方案;其次,根据数据类分布等特点,提出了期望频数的改进方案,克服了不同数据集赋予相同期望频数的缺陷,提高了χ2计算的准确性.实验结果表明,改进的方法显著提高了C4.5决策树与Naive贝叶斯分类器的学习精度.  相似文献   

16.
针对粗糙集中连续属性需要离散化问题进行了研究.根据数据对象的可分辨性原理构造超立方体,在数据空间上对信息表中的连续属性进行整体离散化处理.根据条件属性与决策属性的一致性关系,依照条件属性在粗糙集边界域中的分类能力来确定条件属性的重要性,在此基础上选取重要划分点对信息表中的连续属性进行局部离散化,同时以信息熵作为迭代约束条件.数值示例和实验表明这种整体与局部相结合的离散化方法是有效可行的.  相似文献   

17.
结合聚类的思想与信息增益性质,给出一种基于距离与信息增益相结合的连续属性离散化方法.此方法不仅考虑了属性值之间的序关系,而且考虑了属性值之间的相对大小关系.此算法的一个最大优点是能自动调整离散化过程中的阈值,且能达到所要求的决策表相容度.  相似文献   

18.
维修性小子样验证中先验信息的融合方法   总被引:1,自引:0,他引:1  
研究了在Bayes小子样验证方法中多源先验信息的融合问题。由于维修时间取值具有跳跃性大、范围较宽的特点,采用随机加权法将先验信息表示为先验分布。分别提出了基于均值和基于样本量的先验分布权重因子,在此基础上,建立了基于质量因子计算先验分布权重的模型。通过计算综合先验分布与假设的正态分布的概率密度误差,对其融合后为正态分布的假设进行了检验,同时也提出了准确计算分布模型参数的方法。通过某舰船装备维修性先验信息融合的实例表明了方法的有效性及准确性。  相似文献   

19.
针对传统信息增益(IG)特征选择算法忽略词频分布的缺陷,该文提出一种新的IG特征选择算法.该算法通过引入均衡比和类内词频位置参数,解决了传统IG算法忽略词频分布对分类的弱化问题,修正传统类内词频位置参数,提高特征选择算法的文本分类精度,并将该改进IG特征选择算法用于最大熵模型(ME)对文本进行分类.实验结果表明:该文所提方法在进行文本分类时F1值高于传统IG算法.该文方法的ME分类精度高于K最近邻KNN(K-Nearest Neighbor)算法,说明本文方法是可行的、有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号