首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对现有的特征选择模型未涉及特征和标记集之间的相关度,造成分类精度偏低等情况,提出了基于ReliefF和最大相关最小冗余(maximum Relevance and Minimum Redundancy, mRMR)的多标记特征选择.首先,运用互信息计算每个标记和标记集之间的相关度,使用每项相关度占其相关度之和的比例设计了标记权重,由此构建了特征和标记集间的相关度,初选与标记集相关度高的特征;其次,计算对象在特征上的距离,构建了新的特征权值更新公式,基于标记权重改进多标记ReliefF模型.然后,基于互信息和标记权重构建了最大相关性,设计了最小冗余性及其新的最大相关最小冗余评价准则,并将其应用于多标记特征选择,进一步剔除冗余特征;最后,设计了一种基于ReliefF和最大相关最小冗余的多标记特征选择算法,有效提高了多标记分类性能.在8个多标记数据集上测试所提算法的平均分类精度、覆盖率、汉明损失、1错误率和排序损失,实验结果证明了该算法的有效性.  相似文献   

2.
在多标记学习中,现有的最大相关最小冗余(maximum Relevance and Minimum Redundancy, mRMR)算法未充分考虑标记之间以及特征与标记之间的相关性,导致算法分类性能偏弱。文章结合标记权重改进了mRMR算法,提出一种新的多标记特征选择方法。首先,基于标准互信息计算标记与标记之间的关联度,使用每个标记与标记集关联度占所有标记与标记集之间关联度之和的比例,定义标记权重,结合关联度与标记权重构建新的最大相关性公式,进而建立新的mRMR计算公式,使用mRMR算法获取最初的候选特征子集;然后,计算特征与标记之间的标准互信息并结合标记权重,定义特征与标记集之间的相关度,从最初候选特征子集中进一步剔除冗余特征,筛选最优特征子集;最后,设计了一种标记权重和mRMR的多标记特征选择算法。在8个多标记数据集上进行仿真实验,实验结果表明该算法能够有效提高多标记数据的分类性能。  相似文献   

3.
多标记学习广泛应用于图像分类、疾病诊断等领域,然而特征的高维性给多标记分类算法带来时间负担、过拟合和性能低等问题.基于多粒度邻域一致性设计相应的多标记特征选择算法:首先利用标记空间和特征空间邻域一致性来粒化所有样本,并基于多粒度邻域一致性观点定义新的多标记邻域信息熵和多标记邻域互信息;其次,基于邻域互信息构建一个评价候...  相似文献   

4.
在多标记学习中,特征空间的高维性是多标记学习研究的主要问题。文章通过聚类构建由代表性样本组成新多标记数据,定义了多标记决策系统中样本的分类间隔及样本的差异性概念,在此基础上定义了特征权重,提出一种基于样本差异性的多标记特征选择算法,并用4个指标对4个多标记数据集进行实验评价,对比一些当前流行的特征选择算法,验证了本文所提算法的有效性。  相似文献   

5.
针对多标记学习算法中特征描述粒度导致的标记倾向性问题,大多数研究者从特征与所有标记之间的关联性入手,通过求解得出若干重要特征,并由此构造相应的特征子空间.这种做法会导致有些特征与某个标记有很强的相关性,但与整个标记空间的相关性却并不大,这样的特征丢失易造成分类器精度下降.如果将整个标记空间换成部分标记空间甚至单个标记空间来计算与特征之间的关联性,并把关联性很强的标记分开进行特征选择,就会降低算法的时间开销,提高算法的效率.同时,基于互信息的多标记学习算法多数采用传统熵的方法进行特征选择,由于传统熵不具有补的性质,计算方法较为复杂.引入粗糙熵的度量方法,提出基于粗糙互信息的多标记倾向性k特征核选择算法,实验和统计假设检验都证明该算法是有效的.  相似文献   

6.
数据规模的不断增加,使得为数据库中全部样本做标记变得尤为困难,数据集也因此呈现出了明显的弱标记性.为此,针对大规模少数标记数据集的特征选择问题,基于经典的Relief-F算法,通过综合考虑有标记样本与无标记样本对数据样本近邻的影响,重新定义样本近邻的搜索策略,提出了一种面向符号数据的半监督特征选择算法.为进一步分析新算法的有效性,仿真实验中选取了5组UCI数据集,并引入机器学习中3个常用分类器对新算法和对比算法的特征选择结果的分类性能作了分析和比较,实验结果很好地验证了本文中提出的新算法的有效性和可行性.  相似文献   

7.
特征选择作为处理多标记学习中数据高维性的一种有效方法,得到了众多学者的研究与关注.由于部分特征仅仅与某些标记有着强相关性而与整个标记空间的相关性不强,不能简单通过与标记空间整体的相关性判断取舍.此外,多标记的分布是不平衡的.因此,根据标记密度对标记空间进行划分,并分别进行相关性的判断,同时在不同标记空间进行不同比例的采样.引入具有补的性质的粗糙熵代替传统熵的度量方式,提出了基于粗糙互信息的不平衡多标记特征选择算法,在5个公开数据集上的实验结果表明了算法的有效性.  相似文献   

8.
针对影像分类中少量标记样本问题,提出了基于模糊粗糙集的影像半监督分类算法.首先,通过模糊粗糙集对数据的粗糙性与模糊性进行建模,采用归一化的模糊互信息来度量特征与类别信息的相关性,并利用模糊上下近似度量样本的类别隶属度;然后,结合归一化的模糊互信息改进正则化框架下的特征评价方法,在谱图分析的半监督特征选择框架下实现特征优选;其次,结合近邻约束提高模糊上下近似预测样本类别的准确性,设计基于模糊粗糙集的约束自学习,选择信息量大的未标记样本更新训练样本集;最后,利用新的样本集训练分类器,完成影像分类任务.多组实验表明所提算法能够在少量标记样本的条件下有效提高影像的分类精度.  相似文献   

9.
流标签是当前多标签学习领域中一个较新颖的挑战性问题,存在标签空间未定、标签数量不断增加甚至趋于无穷等问题.在多标签学习的特征选择中,每当有新的标签到达时标签空间都将发生改变,传统的多标签特征选择算法需重新进行特征选择,所以不适用.针对此问题,采用将流标签进行分组批量处理的方式,并考虑标签之间的相关性,提出一种新的流式多标签特征选择方法,考虑分组后每组标签内部潜在的关联结构和不同标签组之间的标签差异性,赋予每组标签不同的权重来计算每个特征与标签空间的模糊互信息.同时,结合mRMR (Max-Relevance and Min-Redundancy)的特征选择策略进行冗余特征的剔除,从而挑选最优的特征子集.该方法同时适用于固定标签空间和流式标签空间中的特征选择问题.最后,选取八个多标签基准数据集,采用四种评价指标与已有相关的多标签特征选择方法进行对比实验,实验结果证明了提出方法的有效性和高效性.  相似文献   

10.
将二次互信息(mutual information)用作模式分类问题中特征选择的准则,分析了该准则在再生核希尔伯特空间中的几何意义.在二次互信息准则基础上,提出了基于Parzen窗密度估计和后向删除策略的特征选择算法PW-QMI,同时针对大规模数据集的情况给出了基于高斯混合模型的算法GMM-QMI,以减小算法的计算复杂度.通过与相关度算法和SVM-RFE算法的实验比较,证明了该算法在特征选择问题上具有更为稳定的性能.  相似文献   

11.
现有大多数多标记流特征选择算法在进行特征选择时,往往忽略标记间的相关性,易导致算法预测精度的下降。为解决这一问题,提出一种结合邻域信息和标记相关性的在线多标记流特征选择算法;定义自适应邻域关系解决邻域粗糙集的粒度选择问题,将其推广到多标记学习中;利用互信息计算标记间的相关性得到标记权重;通过邻域粗糙集和标记权重评估特征和标记间的相关性,并设计特征在线重要度分析、在线相关性分析和在线冗余度分析3种指标,以实现在线评价动态候选特征。在7组多标记数据集以及5个评价指标上的实验结果表明,所提算法综合性能较优。  相似文献   

12.
现有的多标记特征选择一般假设特征空间是固定已知的,然而实际应用中很多特征是需要在提取过程中实时地进行筛选.为此,提出基于邻域交互增益信息的多标记在线流特征选择算法.首先,基于多标记邻域互信息和邻域交互增益信息提出在线相关性分析与在线冗余性分析两种策略来评价特征;其次,基于邻域交互增益信息构建了在线流多标记特征选择的目标优化函数;最后,在六个多标记数据集和四个评价指标上,实验结果证明了该算法的有效性和稳定性.  相似文献   

13.
在解决多标记分类问题的问题转换方法中,二值相关是一种常用的方法,其对于标记间相互独立的假设忽略了标记之间的相关性.多标记分类的分类器链算法通过标记信息在分类器之间的传递考虑了标记间的相关性,从而克服了二值相关算法中标记独立性问题.然而此算法中,分类器链的排序是任意指定的,不同的排序具有不同的分类结果.为了解决这个问题,引入核对齐方法对分类器进行排序并提出了两种算法,其中核对齐是用来衡量两个核函数之间一致性程度的量.一种是最大化特征空间中核函数和标记空间中理想核的凸组合的对齐值,根据每个理想核的权重进行排序,其中理想核是由每个标记定义的.另一种是直接计算核函数与每个理想核的对齐值,根据对齐值进行排序.实验结果表明,提出的基于核对齐的分类器链的多标记学习算法是有效的.  相似文献   

14.
特征选择是从特征集合中选择相关特征子集,方便数据聚类、分类和检索等.现有的无监督特征选择算法是将高维数据映射到低维空间并计算每个特征的得分,选择排名靠前的特征.提出一种基于稀疏聚类的无监督特征选择算法:首先利用流形学习的特征映射思想将高维空间的数据映射到低维空间中,用样本构造近邻图,通过图的嵌入找到低维空间,降维后的空间能保持原始数据集的流形结构.其次,得到的样本嵌入矩阵表示特征的重要性,是区分特征对每一个聚类簇的贡献大小的指标,利用低维空间对高维空间的拟合,构造一个目标函数.最后,目标函数本质是回归问题,求解回归优化问题常用最小角回归算法,使用L_1范数进行稀疏回归计算每个特征的得分,选出得分靠前的特征.在六个现实数据集上的实验结果表明:该算法在聚类精度和互信息上取得了较好的实验结果,能有效地选出重要特征,在降维方面具有良好性能,优于其他对比算法.  相似文献   

15.
为了利用样本的局部结构信息与少量标记样本的类别信息,提出了一种基于局部学习的受限非负矩阵分解算法,并应用于数据表示.为了考虑样本的局部结构信息,通过每个样本邻域构建出的分类器对样本的类别进行预测;同时,还将样本中存在的类别信息作为硬约束,使得相同类别的高维样本在低维表示空间保持一致.算法不仅利用了样本的几何流形结构信息与鉴别结构信息,还考虑了标记样本的类别信息,因此比传统的非负矩阵算法具有更强的鉴别性.在20Newsgroups文本库和ORL人脸库中的实验结果表明了算法能提高分解准确率和归一化互信息.  相似文献   

16.
提出了一种基于互信息扩展的新测度空间加权互信息(SWMI)配准算法.首先使用Harris角点检测对参考图像进行特征区域标记;然后根据对图像配准贡献的不同,对不同特征区域赋予相应权重得到用于计算SWMI的Harris权重函数.实验结果表明:与SWMI配准算法相比,本文算法不需要人工直接干预,有利于实现自动化配准,具有良好...  相似文献   

17.
潘强  张钢  王春茹 《科学技术与工程》2012,12(30):7931-7936
提出了一种考虑包中样本在概念空间中重要度的多示例核学习方法。引入了包中示例对整个样本空间所包含概念的权重向量。通过数量化的手段表示出每个示例从属于每个概念的重要程度。主要步骤如下:a)通过对所有示例进行聚类,得到能够反映多示例包中所含概念的簇;b)借用文本分类中的r-pattern计算得到每个示例对于概念空间中每个概念的权重向量;c)在多示例核中通过余弦相似度结合示例的权重,得到更能反映概念空间特性的多示例概念核。该方法同时考虑了包层次的概念和示例层次的权重,能够有效度量包中示例对于最终包标记的影响,且本身建立在多示例核的基础上,适用于多种多示例学习的场合。在标准数据集和图像数据集上的实验表明,该算法是有效的。  相似文献   

18.
针对现有大多数多标签特征选择算法未能有效去除特征空间冗余特征,同时也忽略了标签差异性的现状,提出一种基于相关性分析的多标签特征选择方法,利用特征之间的相关度对特征进行分组,解决了特征之间的相关性问题.根据样本所对应的标签属性对样本做一个正负类的聚类,对于正样本和负样本所构成的正类簇和负类簇单独确定其聚类个数,并计算原特征到正负类簇中各个类中心的距离,如此便产生了标签特定特征空间;将标签共享的特征空间和标签特定特征空间融合,考虑到多个标签之间的个性和关联性,解决了标签的差异性问题.实验测试表明,相较于现有的多标签特征选择算法,提出的基于相关性分析的多标签特征选择方法在各个分类指标上均有较优的表现,充分证明了该方法的有效性.  相似文献   

19.
针对现有特征选择算法较少同时考虑样本的空间结构和先验知识的不足,提出一种基于结构和约束保持的半监督特征选择方法。该方法采用成对约束作为先验知识,同时考虑局部和非局结构,定义了一种新的特征评价准则——结构和约束保持分值。利用大量的无标记样本来学习样本空间结构,利用少量的成对约束信息来学习类内和类间边缘,所选择的特征子集能较好地保持空间结构信息和类属信息。在多个数据集上的实验结果表明,和现有的几种特征排序选择算法相比,所提方法有较好表现。  相似文献   

20.
现有的多标记降维算法常通过学习标记相关性构建样本间的相似关系,进而提高学习系统的性能.然而,在实际应用中,样本的标记信息可能存在噪声,且部分标记信息可能缺失,因此由样本的标记信息学得的标记相关性可能不准确,无法有效挖掘样本间的相似关系.为了解决该问题,从样本的特征空间与标记空间两个方面构建样本间的相似关系.在利用标记空间学习标记相关性的同时,通过引入特征空间中的概率超图模型,提出一种嵌入样本流形结构与标记相关性的多标记降维算法.在十个多标记数据集和六种评价准则上的实验结果证明了所提算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号