共查询到18条相似文献,搜索用时 62 毫秒
1.
一种基于条件熵的粗糙集属性约简算法 总被引:1,自引:0,他引:1
粗糙集(Rough set)理论是一个新的数据挖掘方法,其主要思想是保持分类能力不变的情况下,通过属性约简,达到发掘知识并简化知识的目的。本文在理解和分析基于粗糙集理论的数据挖掘算法基础上针对属性约简提出了一个基于条件熵的启发式算法。 相似文献
2.
文中给出了基于属性值出现的频率的连续属性离散化的一种方法。在离散化问题描述的基础上,利用属性值出现的频率确定频数候选断点,再利用边缘断点算法进一步减少断点数目,达到离散化目的。该方法提高了决策属性关于条件属性的支持度,提高了属性约简的满意度。 相似文献
3.
一种基于粗糙集理论的连续属性离散化方法 总被引:14,自引:0,他引:14
基于粗糙集的有关理论,提出了一种新的连续属性离散化方法·首先说明决策属性支持度的概念,再利用决策属性支持度作为反馈信息,提出一种领域独立的基于决策属性支持度的连续属性离散化算法·该算法能在保证决策表原始分类能力不变的前提下,提高约简效率·同时,各个属性拥有较少的分割区间,会使规则集合更加简洁·通过实例分析比较,说明该算法是非常有效的· 相似文献
4.
一种基于聚类的粗糙集连续属性的离散化算法 总被引:4,自引:0,他引:4
粗糙集理论是一种新的处理不精确、不完全与不相容知识的数学工具。粗糙集理论只能对离散属性进行处理,而不能处理连续属性。中针对这一缺陷,利用连续数值属性有序性的性质和统计方差理论,提出了一种基于聚类的连续属性离散化算法。运用典型数据将本算法与现有方法进行了比较分析,得到了满意的结果。 相似文献
5.
提出一种基于连续属性离散化的知识分类方法.将条件属性按照重要度由高到低排序,并依照此排序将决策表中各条件属性依次离散化.在对决策表中条件属性的离散化过程中充分考虑已离散化的条件属性及决策属性,离散后的决策表不需要进一步约简.使用了模拟数据和UCI机器学习数据集中的数据进行算法测试,而且与其他离散化算法进行了对比,结果充分证明了新方法的有效性. 相似文献
6.
针对在使用粗糙集理论处理决策表时需要事先对连续属性进行离散化处理的问题,提出了一种基于连续属性分布特征的离散化算法.并通过实例分析说明该算法能在保证决策表原始分类能力不变的前提下,获得较少的断点数. 相似文献
7.
孟科 《兰州理工大学学报》2011,37(1):91-94
在对典型的离散化方法分析的基础上,提出一种适用于粗糙集决策表的连续属性离散化处理的通用模型结构;对遗传算法的适应度线性尺度变换作改进,将模拟退火的思想引入遗传算法,提出基于遗传模拟退火算法(GASA)的数据离散化方法,并用UCI机器学习数据库中的Iris和Glass数据集进行验证.实验结果表明,离散化方法通用模型对数据... 相似文献
8.
一种连续属性离散化的新算法 总被引:5,自引:0,他引:5
沈东升 《漳州师范学院学报》2003,16(4):27-30
连续属性的离散化问题是机器学习、数据挖掘等领域中重要研究课题之一,本文深入讨论连续属性离散的各种方法,提出一种基于RS理论和条件信息熵的决策表条件属性离散化算法,计算简单、易实现并以实例加以说明。 相似文献
9.
知识发现过程中连续属性离散化方法研究 总被引:8,自引:0,他引:8
在综合分析知识发现过程中连续属性离散化方法的基础上,提出了一种基于全局聚类分析来处理连续属性离散化问题的方法。实例验证结果表明该方法对知识发现过程中连续属性离散化的划分更为合理。 相似文献
10.
杨海鹏 《湖南城市学院学报(自然科学版)》2020,29(1):60-64
为提高大数据粗糙集挖掘能力,提出基于信息熵的粗糙集连续属性离散检验算法﹒在云计算环境下进行粗糙集连续属性大数据挖掘,采用特征空间重组方法进行粗糙集连续属性离散数据的模糊特征重构,提取粗糙集连续属性离散数据的信息熵,并得到其分布序列特征;对所提取的信息熵进行聚类分析,采用空间决策树模型,获取离散数据闭繁项关联分析度量;通过数据特征权重的决策树分布特征量化集,得到粗糙集连续属性离散数据空间重组;采用大数据挖掘方法,将离散数据空间重组的信息融合,得到优化的粗糙集和连续属性离散数据检验输出;根据粗糙集连续属性的融合结果,实现离散检验优化﹒仿真结果表明:在迭代次数为400时,收敛程度为0.265%,远远高于其它方法,证明采用该方法进行粗糙集连续属性离散检验的数据聚类性较好﹒ 相似文献
11.
12.
基于近似精度和条件信息熵的粗糙集不确定性度量方法 总被引:1,自引:0,他引:1
基于粗糙集理论的基本不确定性度量方法能够度量知识的不确定大小,却不能区分集合粒度划分大小,利用知识的信息熵,并结合粗糙集精度,定义了一种粗糙熵,用于度量粗糙集中的不确定性.证明了该粗糙熵随着划分粒度的变小而单调增加的性质.新的粗糙熵不仅能度量粗糙集的不确定区域大小而且可以度量划分的大小.算例证明了该方法的有效性. 相似文献
13.
粗糙模糊集的关联熵与关联熵系数 总被引:1,自引:0,他引:1
在研究模糊集关联熵和关联熵系数的基础上,将关联熵和关联熵系数的概念引入粗糙模糊集,讨论了它们的主要性质,说明关联熵系数可以用于粗糙模糊集之间相似程度的度量.并通过例子证明了粗糙模糊集的关联熵系数比模糊集的关联熵系数更适合用于在分类知识R下模糊集合之间相似程度的比较. 相似文献
14.
离散化是Rough集理论研究的一个重要内容,目前基于Rough集的离散化算法很难做到高效率和高识别率兼顾.文中分析了基于断点重要性算法和基于属性重要性算法的特点,确定了离散化思路,提出了一种基于Rough集的集成离散化算法.该算法能够有效降低候选断点的数目,快速地实现决策表的离散化.实验结果表明,文中算法保持了与已有算法可比的识别率,且运行效率更高. 相似文献
15.
基于Rough Set理论中的不可分辨性原理,给出两个新的定义属性的最大区分值(Maximum Dis-cernibility Value,MDV)和属性冗余度(Attribute Redundancy Rate,ARR)。在数据预处理阶段,属性的MDV数值用于确定关于自组织映射网络SOM输出单元数量的启发式搜索策略;属性冗余度则用于衡量属性约简结果的信息冗余程度,并以此作为优化SOM网络输出层结构的依据。不依赖于领域经验知识,建立了MDV、SOM、ARR的组合算法模型,实现了Rough Set理论中连续属性的自动离散化计算,并明显提高了属性约简的速度。最后,通过项目实例对全过程进行有效验证。 相似文献
16.
郭志林 《河南科技大学学报(自然科学版)》2010,31(2):90-92,104
针对S-粗集中元素的动态特性,给出了内、外边界和外边界熵的概念,将传统的粗糙度与外边界熵结合进来,提出了一种新的S-粗集不确定性的度量方法,讨论了这一度量的特性,并通过实例说明这一新的度量方法的合理性与简便性。 相似文献
17.
属性约简是个NP难问题,目前已有很多解决方法,但是每种算法由于其自身的局限性,只适用于特定条件下的求解。蚁群算法是较新的仿生优化算法,在解决各类组合优化问题中都取得了很好的效果。提出一种基于Rough集和蚁群算法的属性约简方法,能够克服传统蚁群算法在前期收敛速度慢的问题,并通过实验验证了该方法的有效性。 相似文献
18.
粗糙集理论应用中的离散化方法综述 总被引:8,自引:0,他引:8
粗糙集理论是一种有效处理不确定、不精确、不完备信息的数学工具。但是传统的粗糙集理论只能对数据库中的离散属性进行处理,而绝大多数现实的数据库既包含了离散属性,又包含了连续属性。针对粗糙集理论的这些缺陷,综述了几种比较常用的离散化算法,并在此基础上,引申出一些启发式离散算法。最后指出,现有的离散化算法都会或多或少地损失部分信息,目前还没有确定的评判准则评论哪一种方法更好、更合适;离散化方法的一个有效思想就是“最低限度地减少信息丢失、保持数据分类能力和使最终得到的离散化最小(分类器最小)”的原则。 相似文献