首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
现有大多数多标记流特征选择算法在进行特征选择时,往往忽略标记间的相关性,易导致算法预测精度的下降。为解决这一问题,提出一种结合邻域信息和标记相关性的在线多标记流特征选择算法;定义自适应邻域关系解决邻域粗糙集的粒度选择问题,将其推广到多标记学习中;利用互信息计算标记间的相关性得到标记权重;通过邻域粗糙集和标记权重评估特征和标记间的相关性,并设计特征在线重要度分析、在线相关性分析和在线冗余度分析3种指标,以实现在线评价动态候选特征。在7组多标记数据集以及5个评价指标上的实验结果表明,所提算法综合性能较优。  相似文献   

2.
目前,Fisher Score模型在处理多标记数据时没有考虑样本和整个特征空间之间以及特征和标记之间的关系.提出一种基于互信息的Fisher Score多标记特征选择方法 .首先,在多标记决策系统中考虑整个样本空间对特征选择的影响,根据异类样本与同类样本之间的欧式距离定义权重公式,并在特征空间下对标记赋予权重衡量标记的重要程度.然后,基于互信息理论定义特征与每个标记之间的互信息来计算每个特征和每个标记之间的相关度,将特征与标记之间的相关度与该标记所占的权重相结合来定义特征和标记集之间的总相关度.将Fisher得分与总相关度结合,定义每个特征的新的Fisher得分,进而构建多标记Fisher Score模型.最后,设计了一种基于互信息的Fisher Score多标记特征选择算法.在六个多标记数据集上的实验证明,提出的算法与其他算法相比,其四种评价指标都表现良好,分类性能出色.  相似文献   

3.
现有的多标记特征选择一般假设特征空间是固定已知的,然而实际应用中很多特征是需要在提取过程中实时地进行筛选.为此,提出基于邻域交互增益信息的多标记在线流特征选择算法.首先,基于多标记邻域互信息和邻域交互增益信息提出在线相关性分析与在线冗余性分析两种策略来评价特征;其次,基于邻域交互增益信息构建了在线流多标记特征选择的目标优化函数;最后,在六个多标记数据集和四个评价指标上,实验结果证明了该算法的有效性和稳定性.  相似文献   

4.
针对现有的特征选择模型未涉及特征和标记集之间的相关度,造成分类精度偏低等情况,提出了基于ReliefF和最大相关最小冗余(maximum Relevance and Minimum Redundancy, mRMR)的多标记特征选择.首先,运用互信息计算每个标记和标记集之间的相关度,使用每项相关度占其相关度之和的比例设计了标记权重,由此构建了特征和标记集间的相关度,初选与标记集相关度高的特征;其次,计算对象在特征上的距离,构建了新的特征权值更新公式,基于标记权重改进多标记ReliefF模型.然后,基于互信息和标记权重构建了最大相关性,设计了最小冗余性及其新的最大相关最小冗余评价准则,并将其应用于多标记特征选择,进一步剔除冗余特征;最后,设计了一种基于ReliefF和最大相关最小冗余的多标记特征选择算法,有效提高了多标记分类性能.在8个多标记数据集上测试所提算法的平均分类精度、覆盖率、汉明损失、1错误率和排序损失,实验结果证明了该算法的有效性.  相似文献   

5.
在多标记学习中,现有的最大相关最小冗余(maximum Relevance and Minimum Redundancy, mRMR)算法未充分考虑标记之间以及特征与标记之间的相关性,导致算法分类性能偏弱。文章结合标记权重改进了mRMR算法,提出一种新的多标记特征选择方法。首先,基于标准互信息计算标记与标记之间的关联度,使用每个标记与标记集关联度占所有标记与标记集之间关联度之和的比例,定义标记权重,结合关联度与标记权重构建新的最大相关性公式,进而建立新的mRMR计算公式,使用mRMR算法获取最初的候选特征子集;然后,计算特征与标记之间的标准互信息并结合标记权重,定义特征与标记集之间的相关度,从最初候选特征子集中进一步剔除冗余特征,筛选最优特征子集;最后,设计了一种标记权重和mRMR的多标记特征选择算法。在8个多标记数据集上进行仿真实验,实验结果表明该算法能够有效提高多标记数据的分类性能。  相似文献   

6.
针对多标记学习算法中特征描述粒度导致的标记倾向性问题,大多数研究者从特征与所有标记之间的关联性入手,通过求解得出若干重要特征,并由此构造相应的特征子空间.这种做法会导致有些特征与某个标记有很强的相关性,但与整个标记空间的相关性却并不大,这样的特征丢失易造成分类器精度下降.如果将整个标记空间换成部分标记空间甚至单个标记空间来计算与特征之间的关联性,并把关联性很强的标记分开进行特征选择,就会降低算法的时间开销,提高算法的效率.同时,基于互信息的多标记学习算法多数采用传统熵的方法进行特征选择,由于传统熵不具有补的性质,计算方法较为复杂.引入粗糙熵的度量方法,提出基于粗糙互信息的多标记倾向性k特征核选择算法,实验和统计假设检验都证明该算法是有效的.  相似文献   

7.
特征选择作为处理多标记学习中数据高维性的一种有效方法,得到了众多学者的研究与关注.由于部分特征仅仅与某些标记有着强相关性而与整个标记空间的相关性不强,不能简单通过与标记空间整体的相关性判断取舍.此外,多标记的分布是不平衡的.因此,根据标记密度对标记空间进行划分,并分别进行相关性的判断,同时在不同标记空间进行不同比例的采样.引入具有补的性质的粗糙熵代替传统熵的度量方式,提出了基于粗糙互信息的不平衡多标记特征选择算法,在5个公开数据集上的实验结果表明了算法的有效性.  相似文献   

8.
基于变精度邻域粗糙集的多标记子空间研究   总被引:1,自引:0,他引:1  
多标记学习是目前机器学习中的热点研究问题。本文基于变精度邻域粗糙集探究多标记学习中的特征选择方法,并对所得到的多标记子空间进行了详细的分析。首先提出了基于多标记学习的变精度邻域粗糙集模型,进而给出了一种多标记学习中的特征选择方法。在此基础上,基于不同的精度和邻域能够得到不同的特征选择结果,即不同的特征子空间。该文详细分析了精度和邻域对特征子空间的影响,并将所得到的特征子空间进行集成,详细分析了相应的集成效果。  相似文献   

9.
借鉴邻域粗糙集处理连续型数据的优势,为解决传统谱聚类算法需要人工选取参数的问题,提出基于自适应邻域互信息与谱聚类的特征选择算法。首先,定义各对象在属性下的标准差集合与自适应邻域集,给出自适应邻域熵、平均邻域熵、联合熵、邻域条件熵、邻域互信息等不确定性度量,利用自适应邻域互信息对特征与标签的相关性进行排序。然后,结合共享近邻自适应谱聚类算法,将相关性强的特征聚到同一特征簇内,使不同特征簇内的特征强相异。最后,使用最小冗余最大相关技术设计特征选择算法。在10个数据集上选择特征个数与分类精度的实验结果,验证了所提算法的有效性。  相似文献   

10.
在多标记学习中,特征空间的高维性是多标记学习研究的主要问题。文章通过聚类构建由代表性样本组成新多标记数据,定义了多标记决策系统中样本的分类间隔及样本的差异性概念,在此基础上定义了特征权重,提出一种基于样本差异性的多标记特征选择算法,并用4个指标对4个多标记数据集进行实验评价,对比一些当前流行的特征选择算法,验证了本文所提算法的有效性。  相似文献   

11.
张毅斌  马盈仓 《河南科学》2019,37(4):521-527
多标签特征选择已成为处理多标签数据的重要方法之一.利用一种基于模糊互信息的多标签特征选择算法,通过模糊离散化,给出模糊联合熵和模糊条件熵吸模糊互信息的计算方式.将原先的互信息特征选择算法推广到模糊情形中,提出一种基于模糊互信息的多标签特征选择算法.最后在同一准则下,将模糊互信息与原先的互信息特征选择算法及其他几种经典的特征选择算法进行比较.实验表明,此方法在一定程度上效果优于其他特征选择算法,是一种有效的多标签分类问题的特征选择方法.  相似文献   

12.
应用特征选择处理多标签数据分类时"维度灾难"问题已成为重要研究方向,因此提出一种基于邻域维护准则的特征选择算法(NPFS,feature selection algorithm based on neighborhood preservation criterion)。通过近似基于特征子空间和基于标签空间的2个相似度矩阵来构建相似性维护表达式,再通过线性近似扩展相似性维护公式得到邻域关系维护公式,并计算出邻域关系维护得分(NRPS,neighborhood relationship preserving score)来评估特征子集的重要性,结合贪婪方法设计具有NRPS的多标签特征选择算法(NPFS)。仿真结果表明,对比MMIFS算法和MDMR算法,所提出的算法在平均准确率、覆盖率、汉明损失、1-错误率、排名损失5个性能指标上均有改善。  相似文献   

13.
在开放动态环境中,在线流特征选择是降低特征空间维度的有效方法 .现有的在线流特征选择算法能够有效地选择一个较优的特征子集,然而,这些算法忽略了类别中可能存在的层次结构.基于此,提出基于层次类别邻域粗糙集的在线流特征选择算法:首先,在邻域粗糙集中引入层次最近异类的邻域关系,避免邻域粒度的选择,借助层次结构计算特征对标记的层次依赖度,推广邻域粗糙集模型以适应层次类别数据;其次,基于层次依赖度提出三个在线特征评价函数,设计了在线相关选择、在线重要度计算和在线冗余更新的层次特征选择框架;最后,在六个层次类别数据集和八个扁平单标记数据集上的实验表明,提出的算法优于现有最先进的在线流特征选择算法.  相似文献   

14.
邻域粗糙集是经典粗糙集的一个扩展模型,研究其不确定性度量模型具有重要意义。在邻域粗糙集理论中,当前不确定性度量方面的研究工作主要专注于度量知识空间的粒度大小或边界域尺寸。在邻域系统中,对于目标概念为模糊时的情形,其不确定性不仅来自于邻域粒的边界域,还来自于正域和负域,当前的不确定性度量方法较少考虑这种情形。为此,构建了邻域粗糙模糊集模型,从粒计算的角度出发,进一步提出了多粒度邻域粗糙模糊集模型;针对多粒度邻域粗糙模糊集具有乐观性与悲观性的特点,借鉴Vague集中支持度和反对度的思想,设计了基于模糊度的多粒度模糊熵的不确定性度量方法,不仅符合人类的认知习惯,而且可以有效刻画整个邻域知识空间的结构信息。  相似文献   

15.
为了提高图像分类的准确度,提出基于最小Hausdorff距离的多示例多标记K近邻图像分类方法。该方法通过改善图像包的生成方法,均匀分割并提取图像的颜色和纹理特征,使用最小Hausdorff距离作为包间的距离度量,对多示例多标记K近邻算法进行改进。实验结果表明,该方法提高了分类准确度,减少了运行时间。  相似文献   

16.
基于互信息的多关系朴素贝叶斯分类器   总被引:1,自引:0,他引:1  
为进一步提高多关系朴素贝叶斯方法的分类准确率,分析了已有的剪枝方法,并扩展互信息标准到多关系情况下.基于元组号传播方法和面向元组的统计计数方法,给出了基于扩展互信息标准进行属性选择的方法和步骤,并建立了一种基于扩展互信息的多关系朴素贝叶斯分类器.标准数据集上的实验显示,基于扩展互信息标准进行属性选择,可以在不增加算法时间复杂度的前提下,找到与分类属性最相关的属性,并在仅有极少属性参与分类时,得到较高的分类准确率.Mutagenesis数据集上的实验则显示,这种属性选择可以使多关系问题退化为单关系问题,大大降低了分类代价.  相似文献   

17.
由于多标记学习中的"维度灾难"问题,鉴于判别嵌入式聚类(DEC)算法对数据降维的特点,本文提出了基于DEC算法的多标记学习。该算法在多标记数据集作分类处理之前,采取DEC算法对多标记数据集进行维度约简,从而降低算法复杂度、提高分类性能。实验结果表明,这种基于DEC算法的多标记学习是有效的。  相似文献   

18.
针对基因表达谱数据的高维度、低样本和连续型等特点,提出一种结合邻域互信息和自组织映射进行特征基因选取的方法.首先提出一种改进的Relief算法,对基因进行排序生成候选特征集合;然后提出基于邻域互信息的自组织映射算法对生成的候选特征基因进行聚类;最后利用提出的属性重要性系数从每一类簇中选择代表基因组成特征基因子集.实验结果表明,该方法可以快速有效地选取肿瘤特征基因,能获得较好的分类结果.  相似文献   

19.
针对基因表达谱数据的高维度、低样本和连续型等特点,提出一种结合邻域互信息和自组织映射进行特征基因选取的方法.首先提出一种改进的Relief算法,对基因进行排序生成候选特征集合;然后提出基于邻域互信息的自组织映射算法对生成的候选特征基因进行聚类;最后利用提出的属性重要性系数从每一类簇中选择代表基因组成特征基因子集.实验结果表明,该方法可以快速有效地选取肿瘤特征基因,能获得较好的分类结果.  相似文献   

20.
多标记学习降维方法在实际应用问题中用以处理特征,标记或二者维度较高的数据集,已成为研究热点;针对目前多标记学习降维方法数量众多,种类繁杂而导致缺乏科学分类的问题,从多标记数据降维空间选择的角度,提出将多标记学习降维方法按照特征空间降维,标记空间降维和二者均降维的形式归纳为三类,其中特征空间降维又分为特征降维和特征选择两类问题,分别从独立于和依赖于彼此空间的角度对已有的40余篇文献中的典型多标记学习降维算法的研究现状进行了综述;最后,总结了多标记学习降维方法的研究现状和启示,并提出了未来进一步的研究方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号