首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 75 毫秒
1.
针对目前基于粗糙集模型的特征选择算法无法直接应用于数值型数据、必须经过离散化过程而造成决策信息丢失的问题,提出了一种基于邻域决策分辨率的特征选择算法。该算法根据邻域信息粒中决策分布与其分类能力间的关系,提出了邻域决策确定性(Nc)来衡量单个信息粒的决策分辨能力;并根据特征向量空间上所有信息粒所具有的Nc累加值,定义了邻域决策分辨率作为特征子集上决策可分辨性的量度,从而将名义型和数值型数据统一在同一特征选择算法框架下。仿真实验和实际应用的结果表明,该算法性能优于目前主流基于邻域粗糙集的特征选择方法。  相似文献   

2.
传统的肿瘤基因选择算法挑选出的特征基因中存在大量噪声基因和冗余基因,从而对基因算法的准确性和分类精度产生影响.针对这一问题,将K-S检验与邻域粗糙集融合成为一种新的特征选择方法.首先,采用累积分布函数计算正负类样本的累积函数值和K-S检验统计量,对照显著性水平下的样本统计量,从而去除冗余基因和噪声基因;然后,使用邻域粗糙集进行约简,对比条件属性重要度得出最优约简结果;最后,对比K-S检验和两种基于K-S检验的特征选择方法得到的冗余度和分类精度,通过实验验证这种方法不仅能准确挑选出具有显著区分能力的肿瘤基因,且效率高具有可行性.  相似文献   

3.
特征选择是数据挖掘的关键过程,特征贡献度评分和特征优选是其核心部分.针对特征贡献度评分,提出一种用变异系数度量类内距离、互信息度量类间距离的CVMI(coefficient of variation and mutual of information)方法,将该算法运用到嵌入式特征选择方法中进行特征优选.实验采用UCI...  相似文献   

4.
针对基因表达谱数据的高维度、低样本和连续型等特点,提出一种结合邻域互信息和自组织映射进行特征基因选取的方法.首先提出一种改进的Relief算法,对基因进行排序生成候选特征集合;然后提出基于邻域互信息的自组织映射算法对生成的候选特征基因进行聚类;最后利用提出的属性重要性系数从每一类簇中选择代表基因组成特征基因子集.实验结果表明,该方法可以快速有效地选取肿瘤特征基因,能获得较好的分类结果.  相似文献   

5.
针对基因表达谱数据的高维度、低样本和连续型等特点,提出一种结合邻域互信息和自组织映射进行特征基因选取的方法.首先提出一种改进的Relief算法,对基因进行排序生成候选特征集合;然后提出基于邻域互信息的自组织映射算法对生成的候选特征基因进行聚类;最后利用提出的属性重要性系数从每一类簇中选择代表基因组成特征基因子集.实验结果表明,该方法可以快速有效地选取肿瘤特征基因,能获得较好的分类结果.  相似文献   

6.
张毅斌  马盈仓 《河南科学》2019,37(4):521-527
多标签特征选择已成为处理多标签数据的重要方法之一.利用一种基于模糊互信息的多标签特征选择算法,通过模糊离散化,给出模糊联合熵和模糊条件熵吸模糊互信息的计算方式.将原先的互信息特征选择算法推广到模糊情形中,提出一种基于模糊互信息的多标签特征选择算法.最后在同一准则下,将模糊互信息与原先的互信息特征选择算法及其他几种经典的特征选择算法进行比较.实验表明,此方法在一定程度上效果优于其他特征选择算法,是一种有效的多标签分类问题的特征选择方法.  相似文献   

7.
基于互信息的Web文档聚类方法   总被引:2,自引:2,他引:0  
由于网络信息的激增,如何充分利用大量的信息,并有效地为Web用户服务成为一个急需解决的问题。相关研究表明利用Web文档聚类的方法可以缩小信息检索的范围,提高查询准确率。通过分析Web文档的特征以及常用Web文档聚类方法的优缺点,提出了一种基于互信息理论的Web文档聚类的方法。在聚类的过程中,计算特征词之间的互信息值,根据阈值判断特征词是否属于同一类别。实验结果表明,该方法与K-Means聚类算法相比较,在准确率和召回率方面均有提高。  相似文献   

8.
针对当前三支聚类方法不能有效处理数值型数据,且三支聚类结果受阈值影响问题,文章基于邻域关系提出了确定合适阈值的三支聚类方法。首先给出了确定最优K值的改进K-means聚类算法。进而基于邻域关系下的下、上近似引入精度,提出了权衡边界域和精度关系的有效性评价指标。应用该指标,给出了确定邻域下、上近似中最佳阈值的构建算法,进而得到三支聚类的核心域和边界域。最后,通过UCI数据集上的实验验证了该方法的可行性,且该方法有效提高了聚类精度。  相似文献   

9.
在许多实际应用领域,特征随时间逐个流进特征空间并需及时进行在线选择,称为在线流特征选择。现有基于邻域粗糙集的在线流特征选择算法,仅考虑条件属性子集正域中包含的信息,而忽视了边界区域中的信息。基于此,文章提出了一种联合邻域边界的在线流特征选择算法(Joint Neighborhood Boundary for Online Streaming Feature Selection,OFS-JNB)。设计了一种新的计算邻域粗糙依赖度方法,同时,定义在线依赖度分析、在线重要度分析和在线冗余度分析等三种策略选择具有辨别能力的在线候选特征。在8个数据集上的实验显示,该算法能够选择出一个较好的特征子集。同时,在KNN、CART和LSVM分类器下,OFS-JNB算法的平均预测精度都是最优的,且精度值相对稳定。  相似文献   

10.
人脸表情特征选择是人脸表情识别研究领域关注的一个热点。基于量子遗传算法与邻域粗糙集理论,文章提出一种新的人脸表情特征选择方法(Feature Selection based on Neighborhood Rough Set Theoryand Quantum Genetic Algorithm,简称FSNRSTQGA),以邻域粗糙集理论为基础,定义了最优特征集的适应度函数来评价表情特征子集的选择效果;并结合量子遗传算法进化策略,提出了一种表情特征选择方法。Cohn-Kanade表情数据集上的仿真实验结果表明了该方法的有效性。  相似文献   

11.
现有大多数多标记流特征选择算法在进行特征选择时,往往忽略标记间的相关性,易导致算法预测精度的下降。为解决这一问题,提出一种结合邻域信息和标记相关性的在线多标记流特征选择算法;定义自适应邻域关系解决邻域粗糙集的粒度选择问题,将其推广到多标记学习中;利用互信息计算标记间的相关性得到标记权重;通过邻域粗糙集和标记权重评估特征和标记间的相关性,并设计特征在线重要度分析、在线相关性分析和在线冗余度分析3种指标,以实现在线评价动态候选特征。在7组多标记数据集以及5个评价指标上的实验结果表明,所提算法综合性能较优。  相似文献   

12.
将二次互信息(mutual information)用作模式分类问题中特征选择的准则,分析了该准则在再生核希尔伯特空间中的几何意义.在二次互信息准则基础上,提出了基于Parzen窗密度估计和后向删除策略的特征选择算法PW-QMI,同时针对大规模数据集的情况给出了基于高斯混合模型的算法GMM-QMI,以减小算法的计算复杂度.通过与相关度算法和SVM-RFE算法的实验比较,证明了该算法在特征选择问题上具有更为稳定的性能.  相似文献   

13.
针对不完整决策系统属性约简算法时间复杂度较高问题,基于正域不变条件下,决策系统分类能力保持不变原则,提出不完整决策系统前向顺序特征选择算法.该算法从约简集为空集开始,根据在约简集合中加入各属性后对正域影响程度大小将属性降序排列,采用顺序前向搜索,选择当前最佳特征加入特征约简集合,确定最佳特征子集.将该算法扩展到基于邻域...  相似文献   

14.
基于条件互信息下聚类的朴素贝叶斯分类算法   总被引:1,自引:0,他引:1  
 采用条件互信息来度量任意2个条件属性之间的关联程度,采用互信息度量各条件属性与类属性间的关联程度,以此作为将各条件属性进行聚类的准则,提出一种新的将条件属性进行聚类的分组技术.同时,结合朴素贝叶斯分类算法,构造了改进的朴素贝叶斯分类模型.通过仿真实验表明该文提出的算法具有较好的分类性能.  相似文献   

15.
根据排序问题的单调先验知识,无监督学习问题中的观测属性之间也具备单调关系;否则该属性与排序无关,为冗余属性.基于排序互信息反应的两属性之间的单调关系,提出用每个属性与其他属性之间的平均互信息,来衡量每个属性与排序学习的相关程度,具有最高的平均互信息即为排序最相关的属性.  相似文献   

16.
在分析单一、给定的邻域大小设定方法弊端的基础上,提出了基于属性数据标准差的阁值设定方法,并将蚁群优化算法引入到属性约简中,以属性重要度为启发信息,构造了基于邻域粗糙集和蚁群优化的属性约简算法,使用了4个UCI数据集进行约简.实验结果表明,提出的算法在约简的分类精度和约简中属性个数方面具有更好的性能.  相似文献   

17.
人脸识别领域中常用Gabor小波系数表示人脸特征.然而,提取的人脸Gabor特征是高维数据,不可避免存在冗余和随机噪声的干扰.为了有效利用Gabor特征进行人脸识别,提出一种新的Gabor特征选取方法.首先计算训练集上的任两张人脸图像的Gabor特征差,生成类内空阃和类外空间.用单个Gabor特征训练筒单两值分类器,以其在类内空间和类外空间的分类错误率作为判据评价该Gabor特征的分类能力.在选取分类错误低的特征的同时还要再评估候选特征与已选特征间的互信息,这样优选出具有无冗余、低误差率的特征.最后对这些优选的Gabor特征进行主成分分析和线性判别分析完成人脸识别.在CAS-PEAL大型人脸数据库上的实验结果表明,所提出的方法不但可大大降低Gabor特征的维数,而且还有效提高了识别精度.  相似文献   

18.
在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间.特征选择是文本分类的一个核心研究课题.提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法.该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明该方法有较好的准确率和召回率.  相似文献   

19.
在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间。特征选择是文本分类的一个核心研究课题。提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法。该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明该方法有较好的准确率和召回率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号