共查询到20条相似文献,搜索用时 15 毫秒
1.
决策表最优特征子集的选择--基于粗集理论的启发式算法 总被引:5,自引:0,他引:5
特征子集选择问题是机器学习的重要问题。而最优特征子集的选择是NP困难问题,因此需要启发式搜索指导求解。基于粗集理论,本文提出了一种新的决策表最优特征子集选择的启发式算法。和以往的方法相比,这种算法简单实用,在一定条件下能够以较高的效率得到最优特征子集。 相似文献
2.
网络的普及和交互电视的应用推动了视频分类的发展,迫切需要一种方便、快速的自动视频分类方法。本研究利用从视频片段中提取的与镜头有关的特征、颜色特征、音频特征和运动特征作为视频内容分类的可计算特征,并基于粗糙集理论,发挥其无需先验信息而从信息系统中分析多余属性的能力和从决策表中抽取规则的能力,对上述可计算特征进行分类形成规则,从而实现对视频片段的分类。 相似文献
3.
针对水声目标小样本识别中样本数目有限而特征数目不断增加,导致分类系统分类性能下降的问题,提出了一种新的自适应免疫特征选择算法(AIFSA).该算法先利用先验知识生成初始种群,接着利用交叉、变异和新的自适应免疫算子指导种群进化,每代中对分类贡献大且选择特征数目少的个体适应度值高.AIFSA具有可以利用先验知识、收敛速度快以及优化特征子集维数小的优点.提取了实测4类水声目标的多域特征,进行特征选择和分类识别仿真实验,结果表明:AIFSA可以选择有效特征子集,在特征维数下降60%的情况下,支持向量机分类器的平均正确分类率下降很小;AIFSA与标准遗传算法相比,收敛快、稳定,所得优化特征子集具有更高的正确分类率和更好的范化性能. 相似文献
4.
在许多实际应用领域,特征随时间逐个流进特征空间并需及时进行在线选择,称为在线流特征选择。现有基于邻域粗糙集的在线流特征选择算法,仅考虑条件属性子集正域中包含的信息,而忽视了边界区域中的信息。基于此,文章提出了一种联合邻域边界的在线流特征选择算法(Joint Neighborhood Boundary for Online Streaming Feature Selection,OFS-JNB)。设计了一种新的计算邻域粗糙依赖度方法,同时,定义在线依赖度分析、在线重要度分析和在线冗余度分析等三种策略选择具有辨别能力的在线候选特征。在8个数据集上的实验显示,该算法能够选择出一个较好的特征子集。同时,在KNN、CART和LSVM分类器下,OFS-JNB算法的平均预测精度都是最优的,且精度值相对稳定。 相似文献
5.
This paper presents a novel ontology mapping approach based on rough set theory and instance selection .In this appoach the construction approach of a rough set-based inference instance base in which the instance selection (involving similarity distance, clustering set and redundancy degree) and discernibility matrix-based feature reduction are introduced respectively; and an ontology mapping approach based on multi-dimensional attribute value joint distribution is proposed. The core of this mapping aI overlapping of the inference instance space. Only valuable instances and important attributes can be selected into the ontology mapping based on the multi-dimensional attribute value joint distribution, so the sequently mapping efficiency is improved. The time complexity of the discernibility matrix-based method and the accuracy of the mapping approach are evaluated by an application example and a series of analyses and comparisons. 相似文献
6.
7.
在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间.特征选择是文本分类的一个核心研究课题.提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法.该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明该方法有较好的准确率和召回率. 相似文献
8.
特征选择是粗糙集理论在数据挖掘等领域中一种重要的应用,如何对动态变化的信息系统进行增量式特征选择是目前粗糙集理论研究的重点。在不完备混合型信息系统中,属性集的不断增加是信息系统动态变化的一种重要形式。首先在不完备混合型信息系统中引入邻域条件熵的概念,并且利用矩阵的方法去表示邻域条件熵;然后针对属性集动态增加的情形,提出矩阵形式的邻域条件熵增量式更新,并且基于这种增量式更新机制给出了相应的增量式特征选择算法;最后,UCI数据集的实验结果表明,所提出的增量式特征选择算法比非增量式特征选择算法具有更高的特征选择性能。 相似文献
9.
在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间。特征选择是文本分类的一个核心研究课题。提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法。该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明该方法有较好的准确率和召回率。 相似文献
10.
特征选择是从与应用有关的特征集合中选取出满足需要的重要性高的最小特征子集的过程,是入侵检测中的一项重要工作.针对现有的入侵检测系统存在的先验知识较少的问题,利用粗糙集中的知识表达系统来描述入侵检测特征集合,并通过计算各个特征的信息熵来确定其相对重要性,最终选择出精简的特征集合,简化了入侵检测训练集合,减少了检测时间并可以有效的提高入侵分类的准确性. 相似文献
11.
现有大多数多标记流特征选择算法在进行特征选择时,往往忽略标记间的相关性,易导致算法预测精度的下降。为解决这一问题,提出一种结合邻域信息和标记相关性的在线多标记流特征选择算法;定义自适应邻域关系解决邻域粗糙集的粒度选择问题,将其推广到多标记学习中;利用互信息计算标记间的相关性得到标记权重;通过邻域粗糙集和标记权重评估特征和标记间的相关性,并设计特征在线重要度分析、在线相关性分析和在线冗余度分析3种指标,以实现在线评价动态候选特征。在7组多标记数据集以及5个评价指标上的实验结果表明,所提算法综合性能较优。 相似文献
12.
WU Ming YAN Puliu 《武汉大学学报:自然科学英文版》2007,12(3):467-470
Feature selection is the pretreatment of data mining. Heuristic search algorithms are often used for this subject. Many heuristic search algorithms are based on discernibility matrices, which only consider the difference in information system. Because the similar characteristics are not revealed in discernibility matrix, the result may not be the simplest rules. Although differencesimilitude(DS) methods take both of the difference and the similitude into account, the existing search strategy will cause some important features to be ignored. An improved DS based algorithm is proposed to solve this problem in this paper. An attribute rank function, which considers both of the difference and similitude in feature selection, is defined in the improved algorithm. Experiments show that it is an effective algorithm, especially for large-scale databases. The time complexity of the algorithm is O(| C |^2|U |^2). 相似文献
13.
文章针对广义多尺度信息系统的知识获取问题,分别研究了协调与不协调广义多尺度决策信息系统的规则提取,阐明了系统协调性与决策规则之间的联系,并给出相关性质。进一步研究了规则提取与特征矩阵之间的联系。并利用矩阵对尺度组合进行刻画,分别给出了协调与不协调的广义多尺度决策信息系统中的最优尺度组合与保持正域不变的最优尺度组合选择的矩阵方法,并且结合实例说明矩阵方法的直观性与简便性。 相似文献
14.
在分析单一、给定的邻域大小设定方法弊端的基础上,提出了基于属性数据标准差的阁值设定方法,并将蚁群优化算法引入到属性约简中,以属性重要度为启发信息,构造了基于邻域粗糙集和蚁群优化的属性约简算法,使用了4个UCI数据集进行约简.实验结果表明,提出的算法在约简的分类精度和约简中属性个数方面具有更好的性能. 相似文献
15.
针对不完整决策系统属性约简算法时间复杂度较高问题,基于正域不变条件下,决策系统分类能力保持不变原则,提出不完整决策系统前向顺序特征选择算法.该算法从约简集为空集开始,根据在约简集合中加入各属性后对正域影响程度大小将属性降序排列,采用顺序前向搜索,选择当前最佳特征加入特征约简集合,确定最佳特征子集.将该算法扩展到基于邻域... 相似文献
16.
改进的差别矩阵及其求核方法 总被引:48,自引:0,他引:48
粗糙集方法提供了一种新的处理不精确、不完全与不相容知识的数学工具.属性约简是粗糙集理论的重要研究内容之一,而现有的很多属性约简算法都是从信息系统(或决策表)的核开始.针对HU利用差别矩阵求解粗糙集中的核方法的错误,叶东毅提出了新的差别矩阵及其求核方法,但计算代价高.为此,给出了改进的差别矩阵定义和求核方法,该方法纠正HU方法的错误,且可有效地降低计算代价. 相似文献
17.
一个新的差别矩阵及其求核方法 总被引:2,自引:0,他引:2
作者针对已有的利用差别矩阵来求粗糙集中核的方法存在的不足,将粗糙集的代数观与信息观结合起来研究,给出一个新的差别矩阵的定义和求核方法. 相似文献
18.
特征选择是机器学习领域中的重要研究问题.作为一种重要的特征选择方法,属性约简正在受到越来越多的关注,在许多应用领域已经得到了广泛应用.文章对基于Rough Sets理论的特征选择算法作了系统的回顾和分析,具体包括启发式属性约简、基于区分矩阵的属性约简和扩展粗糙集模型的属性约简三个方面.此外,论文还给出了粗糙特征选择算法的几种常见应用,并对该领域的进一步发展进行了展望. 相似文献
19.
一种信息系统求核的新方法 总被引:1,自引:0,他引:1
为简化用差别矩阵求核的计算方法,给出了差别矩阵与核关系的定理,并在此基础上给出了一种新的求核方法.新算法从差别矩阵中直接提取出核属性元素并利用该定理的结论给出信息系统中核的构成.经计算,该算法的复杂度为O(n^2√m)。 相似文献
20.
为了获取最小决策规则集,当增加新样本时,传统的方法通常需要对决策表中所有数据重新计算,效率欠佳.从可变精度粗集模型理论出发,讨论了新增记录与已有条件属性等价类的关系及对规则集的影响,在此基础上提出了基于可变精度粗集模型的增量式规则获取算法.通过仿真实验表明,这种增量式算法是可行的. 相似文献