首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
为了得到一个低误分类代价的特征子集,本文通过定义样本间的代价距离并将代价距离引入了现有的特征选择架构,把流形学习和代价敏感特征选择问题相结合得到了一个新的代价敏感特征选择方法,称之为基于流形学习的代价敏感特征选择算法。以前提出的代价敏感特征选择算法在选择特征的过程中只考虑到了特征与误分类代价的关系,并对特征一个一个的进行选择,而本文所提出的代价敏感特征选择算法同时考虑了特征与误分类代价的关系和特征之间内在的判别信息,从而提高了代价敏感特征选择效果。在六个现实世界数据集上的实验证明了本文所提出的算法效果优于现有的相关算法。  相似文献   

2.
数据降维可降低分析处理多维数据的复杂度和成本.特征选择是常见的数据降维方法.传统的特征选择算法更多关注算法的分类性能,忽略了对选择过程中产生的测试代价(Cost-test)的考虑.基于此提出一种新的基于非负分解的代价敏感特征选择方法(NmfCt).NmfCt算法构造的目标函数能够同时约束重建误差最小和测试代价最小,在对数据进行预处理降维的同时,不但能确保较好的分类正确率(Accuracy),而且还能保持较低的测试代价.  相似文献   

3.
在开放动态环境中,在线流特征选择是降低特征空间维度的有效方法 .现有的在线流特征选择算法能够有效地选择一个较优的特征子集,然而,这些算法忽略了类别中可能存在的层次结构.基于此,提出基于层次类别邻域粗糙集的在线流特征选择算法:首先,在邻域粗糙集中引入层次最近异类的邻域关系,避免邻域粒度的选择,借助层次结构计算特征对标记的层次依赖度,推广邻域粗糙集模型以适应层次类别数据;其次,基于层次依赖度提出三个在线特征评价函数,设计了在线相关选择、在线重要度计算和在线冗余更新的层次特征选择框架;最后,在六个层次类别数据集和八个扁平单标记数据集上的实验表明,提出的算法优于现有最先进的在线流特征选择算法.  相似文献   

4.
微钙化簇是乳腺癌一个重要的早期发现,现有的检测技术为了达到高敏感性要求,产生很多假阳性数据.根据微钙化簇特点,提出一种整体和局部相组合的分类识别策略,并根据真假阳性样本错分代价的不同,使用代价敏感SVM方法进行分类学习.在构造分类器模型过程中利用粒子群进行分类器的参数优化及特征集合的选择,以提升分类学习的泛化能力.该算法在保证高敏感性的同时,降低了过多的假阳性数据,并删除了冗余和不相关的特征.实验结果表明,基于粒子群优化的代价敏感SVM组合分类算法提高了传统方法的识别能力.  相似文献   

5.
针对启发式特征选择和特征聚类驱动特征选择方法的不足,研究了决策依赖的特征冗余性问题,提出了一种基于邻域粗糙集的决策依赖特征聚类的高维数据特征选择方法(RDCFS).首先,依据邻域粗糙集模型,设计了一种特征联合依赖度增益度量,刻画数据特征在分类和辨识层面上的冗余性和关联性.其次,构建了一种最优特征簇结构的评估准则和特征冗...  相似文献   

6.
三支决策是近年来提出的一种新的决策理论模型,为了将该模型应用于数据的分类中,提出一种基于三支决策的代价敏感数据分类方法。首先根据三支决策模型,定义一种新形式的误分类代价,并提出相应的最小化误分类代价特征选择算法,然后在该特征选择算法的基础上,提出三支决策模型的代价敏感数据分类算法,该算法将数据分类结果分成三种情形,分别为标记特定类别、不标记特定类别和暂不标记。最后通过仿真实验证明了文中所提出的算法具有更好的代价敏感分类效果。  相似文献   

7.
现有的多标记特征选择一般假设特征空间是固定已知的,然而实际应用中很多特征是需要在提取过程中实时地进行筛选.为此,提出基于邻域交互增益信息的多标记在线流特征选择算法.首先,基于多标记邻域互信息和邻域交互增益信息提出在线相关性分析与在线冗余性分析两种策略来评价特征;其次,基于邻域交互增益信息构建了在线流多标记特征选择的目标优化函数;最后,在六个多标记数据集和四个评价指标上,实验结果证明了该算法的有效性和稳定性.  相似文献   

8.
基于基因表达谱的特征基因提取方法已经成为当今研究肿瘤分子诊断的热点,该文中提出了一种基于邻域不定性信息与记分准则相结合的肿瘤特征基因提取方法,该方法首先通过邻域不定性信息确定每个样本的邻域信息量,然后使用记分准则提取特征基因,最后利用KNN对样本进行分类.通过对白血病和弥漫性大B细胞淋巴瘤基因表达谱数据的特征选择,验证了该文方法的有效性和可靠性.  相似文献   

9.
针对目前基于粗糙集模型的特征选择算法无法直接应用于数值型数据、必须经过离散化过程而造成决策信息丢失的问题,提出了一种基于邻域决策分辨率的特征选择算法。该算法根据邻域信息粒中决策分布与其分类能力间的关系,提出了邻域决策确定性(Nc)来衡量单个信息粒的决策分辨能力;并根据特征向量空间上所有信息粒所具有的Nc累加值,定义了邻域决策分辨率作为特征子集上决策可分辨性的量度,从而将名义型和数值型数据统一在同一特征选择算法框架下。仿真实验和实际应用的结果表明,该算法性能优于目前主流基于邻域粗糙集的特征选择方法。  相似文献   

10.
特征选择是一项重要的数据预处理技术,其目的是在不降低数据分类精度情形下选择一个特征子集,从而对原数据集达到降维的效果,同时也提高学习算法的性能.在邻域粗糙集模型中,传统方法构造出的对象邻域粒未考虑数据的分布问题,使得邻域粒存在一定的误差.首先通过方差来刻画数据的分布,然后根据数据分布提出一种改进的邻域粒,这种改进的邻域粒能够自适应数据的分布,有着较好的优越性,最后将改进邻域粒与邻域模糊熵结合,提出一种特征重要度的评估方式,并给出对应的特征选择算法.实验结果表明,新提出的特征选择算法在特征选择结果、时间消耗和特征子集的分类精度方面都更具一定的优越性.  相似文献   

11.
在数据流分类学习过程中,类不平衡和概念漂移是两大挑战问题.在分析传统特征选择算法和代价敏感学习方法的基础上,将代价敏感学习算法的思想引入特征选择算法中,设计并实现了一种基于代价敏感的Relief F剪枝的数据流分类算法,不仅能删除冗余的特征,而且适应动态变化的数据流环境.与经典的算法进行分析比较,结果表明所提算法可显著提升分类效果.  相似文献   

12.
代价敏感学习是数据挖掘和机器学习领域的重要课题.已有的研究方法多数针对单目标进行优化,并不适用于多目标代价敏感问题的解决.因此通过分析基于粗糙集领域的单目标代价敏感属性约简问题,定义了多目标代价敏感属性约简问题,并设计了一种简单高效的算法.在4个UCI数据集上的实验结果表明,该算法能获得令人满意的帕累托最优解集,以辅助用户进行方案的选择.  相似文献   

13.
大数据背景下,数据量呈指数级增长,三支决策在处理代价敏感问题时动态机制和稳定性不足.针对这个问题,结合F-粗糙集处理动态数据方面的优势,在代价敏感决策表簇中提出基于F-粗糙集和三支决策的平均代价敏感并行约简.首先,从平均决策代价和平均测试代价的角度,定义基于F-粗糙集和三支决策的并行约简;其次,设计基于F-粗糙集和三支决策的平均代价敏感并行约简算法.与基于分类的最小代价约简和基于类特定的最小代价约简比较,实验结果显示,基于F-粗糙集和三支决策的平均代价敏感并行约简可以更好地权衡误分类代价(决策代价)和测试代价,提高分类准确率.研究结果为研究动态决策和代价敏感提供一种新的研究方法和思路.  相似文献   

14.
在许多实际应用领域,特征随时间逐个流进特征空间并需及时进行在线选择,称为在线流特征选择。现有基于邻域粗糙集的在线流特征选择算法,仅考虑条件属性子集正域中包含的信息,而忽视了边界区域中的信息。基于此,文章提出了一种联合邻域边界的在线流特征选择算法(Joint Neighborhood Boundary for Online Streaming Feature Selection,OFS-JNB)。设计了一种新的计算邻域粗糙依赖度方法,同时,定义在线依赖度分析、在线重要度分析和在线冗余度分析等三种策略选择具有辨别能力的在线候选特征。在8个数据集上的实验显示,该算法能够选择出一个较好的特征子集。同时,在KNN、CART和LSVM分类器下,OFS-JNB算法的平均预测精度都是最优的,且精度值相对稳定。  相似文献   

15.
针对邻域粗糙集采用全局邻域求解近似,存在计算时间复杂度高且无法对基因表达谱精确描述的问题,构造了基于主成分分析(PCA)和改进邻域粗糙集(NRS)算法的PNRS模型.首先采用PCA算法获得低维的特征基因空间;然后利用改进的多邻域粗糙集算法进行特征基因选择,即采用欧氏距离计算每列属性邻域值,选取所有属性邻域集合计算邻域决策系统的近似;最后采用启发式搜索算法选择特征基因子集.实验结果表明,PNRS模型能够在选择出较小的基因子集的情况下获得较高的分类精度,从而验证了该方法的有效性.  相似文献   

16.
针对不同故障特征属性交互重叠导致的故障类别辨识困难问题,提出一种基于Manhattan距离作为特征之间相似度信息测度的权值判别拉普拉斯分值特征选择方法.该方法采用Manhattan距离衡量高维特征矢量之间的相似度,并将数据样本标记信息融入权值计算中以增强权值的判别性,提升了LS算法的敏感特征筛选性能.将M-WDLS和主成分分析相结合,提出基于M-WDLS和PCA的转子故障诊断方法.首先提取原始振动信号的时域、频域、时频域特征构造混合域特征集;然后利用M-WDLS选择敏感特征组成敏感特征矩阵;最后对敏感特征矩阵进行PCA降维处理,并将结果输入到K-近邻分类器中进行模式识别.对比实验的结果表明,该方法能有效提取转子系统振动信号的状态特征,有助于提高故障辨识的准确率.  相似文献   

17.
代价敏感学习算法的目的是最小化各种代价总和,与其他学习算法一样,它必须面对过度拟合这个挑战性问题,即分类器可以较好地拟合训练数据,但对测试或实际数据的效果较差.针对代价敏感学习的这些缺点,提出两个克服过度拟合的策略.第一个滤波技术策略针对TCSDT分类建立,滤波后的概率估计值被用于对每个分离属性的潜在误分类代价计算,并延缓潜在大误分类代价的分离属性的优先选择,最后,采用交叉验证方法决定m的值.第二个策略与基于标准错误的Laplace剪枝方法不同,阈值剪枝采用一个预先定义的阈值集合(跟代价有关)来确定决策树的一个叶节点是否被剪除.这两策略可独立或联合用于避免TCSDT分类的数据过度拟合.实验表明,所提出的两算法不但在代价敏感学习中有优势,在非代价敏感学习也具有优势,可以有效地减弱过度拟合,有很强的健壮性,UCI数据集实验结果显示算法的拟合能力平均优于存在方法10%以上.  相似文献   

18.
针对代价敏感学习问题,研究boosting算法的代价敏感扩展。提出一种基于代价敏感采样的代价敏感boosting学习方法,通过在原始boosting每轮迭代中引入代价敏感采样,最小化代价敏感损失期望。基于上述学习框架,推导出两种代价敏感boosting算法,同时,揭示并解释已有算法的不稳定本质。在加州大学欧文分校(University of California,Irvine,UCI)数据集和麻省理工学院生物和计算学习中心(Center for Biological&Computational Learning,CBCL)人脸数据集上的实验结果表明,对于代价敏感分类问题,代价敏感采样boosting算法优于原始boosting和已有代价敏感boosting算法。  相似文献   

19.
代价是现实数据的重要方面.数据的测试代价与数据的误差范围,即数据的粒度紧密相关,而误分类代价又跟测试代价有关,已有的属性选择方法往往忽视了这一点.为了处理这种情况,提出了一种基于误差范围和可变代价的最优属性子集选择方法.首先建立了该方法的理论框架,再设计了相应算法.在该方法中,测试代价和误分类代价根据不同的误差置信水平自适应地生成.再以最小化平均总代价为目标进行属性选择,从而得到最优的属性子集和误差置信水平.实验结果验证了所提方法的有效性.  相似文献   

20.
人脸表情特征选择是人脸表情识别研究领域关注的一个热点。基于量子遗传算法与邻域粗糙集理论,文章提出一种新的人脸表情特征选择方法(Feature Selection based on Neighborhood Rough Set Theoryand Quantum Genetic Algorithm,简称FSNRSTQGA),以邻域粗糙集理论为基础,定义了最优特征集的适应度函数来评价表情特征子集的选择效果;并结合量子遗传算法进化策略,提出了一种表情特征选择方法。Cohn-Kanade表情数据集上的仿真实验结果表明了该方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号