首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 22 毫秒
1.
多标记学习的嵌入式特征选择   总被引:2,自引:0,他引:2  
维数约减是数据挖掘领域的关键技术.传统的降维方法主要解决单标记学习问题.由于多标记学习问题的复杂性,多标记降维方法很少.直接应用未监督的降维方法到多标记学习中,忽略了类标信息.而通过分解多标记问题为单标记问题,应用现有的有监督降维方法到多标记学习中,忽略了类标间的关系.现有的多标记有监督的降维方法是基于依赖最大化的维数约简(multi-label dimensionalityreduction via depen dence maximization,MDDM),它是一种特征抽取的方法.目前还没有多标记的特征选择方法.因为在多标记学习中如何评估特征,是一个很有挑战性的问题.本文提出一个嵌入式的特征选择方法MEFS(multi-label embedded feature selection),其中采用预报风险准则作为特征的评价准则.在公开评测的yahoo网页分类数据集上进行了两个实验:(1)分析多标记学习的性能指标对特征评估的影响;(2)比较MEFS与MDDM,PCA(主成份分析),LPP(局部保留投影)的降维效果,实验显示MEFS的性能优于新近提出的MDDM等一些流行的多标记降维方法.  相似文献   

2.
多标记特征选择已被广泛应用于医疗诊断、模式识别等领域,然而现实中的数据往往存在维数灾难以及标记大量缺失等问题,现有的弱多标记特征选择算法又普遍易受缺失标记和噪声的干扰,使算法模型难以准确地选择重要特征.针对上述问题,提出一种用于弱多标记数据集特征选择的弱监督对比学习方法,旨在缺失和含噪声标记数据集中选择优质特征,同时挖掘少量人工标注数据中潜在的类间对比模式.该方法包括三个步骤:首先,设计一种弱监督预训练策略,通过利用实例相似性以及稀疏学习方法获取每个类标记类属属性,用于恢复缺失标记;其次,引入对比学习策略来捕获少量有标记数据的对比模式来削弱噪声数据的影响;最后,选取10组多标记数据集以及四个评价指标进行实验.实验结果证明,与多个先进多标记特征选择算法相比,提出的方法分类性能更优.  相似文献   

3.
现有的多标记降维算法常通过学习标记相关性构建样本间的相似关系,进而提高学习系统的性能.然而,在实际应用中,样本的标记信息可能存在噪声,且部分标记信息可能缺失,因此由样本的标记信息学得的标记相关性可能不准确,无法有效挖掘样本间的相似关系.为了解决该问题,从样本的特征空间与标记空间两个方面构建样本间的相似关系.在利用标记空间学习标记相关性的同时,通过引入特征空间中的概率超图模型,提出一种嵌入样本流形结构与标记相关性的多标记降维算法.在十个多标记数据集和六种评价准则上的实验结果证明了所提算法的有效性.  相似文献   

4.
在多标记学习中,特征空间的高维性是多标记学习研究的主要问题。文章通过聚类构建由代表性样本组成新多标记数据,定义了多标记决策系统中样本的分类间隔及样本的差异性概念,在此基础上定义了特征权重,提出一种基于样本差异性的多标记特征选择算法,并用4个指标对4个多标记数据集进行实验评价,对比一些当前流行的特征选择算法,验证了本文所提算法的有效性。  相似文献   

5.
由于多标记学习中的"维度灾难"问题,鉴于判别嵌入式聚类(DEC)算法对数据降维的特点,本文提出了基于DEC算法的多标记学习。该算法在多标记数据集作分类处理之前,采取DEC算法对多标记数据集进行维度约简,从而降低算法复杂度、提高分类性能。实验结果表明,这种基于DEC算法的多标记学习是有效的。  相似文献   

6.
特征选择作为处理多标记学习中数据高维性的一种有效方法,得到了众多学者的研究与关注.由于部分特征仅仅与某些标记有着强相关性而与整个标记空间的相关性不强,不能简单通过与标记空间整体的相关性判断取舍.此外,多标记的分布是不平衡的.因此,根据标记密度对标记空间进行划分,并分别进行相关性的判断,同时在不同标记空间进行不同比例的采样.引入具有补的性质的粗糙熵代替传统熵的度量方式,提出了基于粗糙互信息的不平衡多标记特征选择算法,在5个公开数据集上的实验结果表明了算法的有效性.  相似文献   

7.
现有大多数多标记流特征选择算法在进行特征选择时,往往忽略标记间的相关性,易导致算法预测精度的下降。为解决这一问题,提出一种结合邻域信息和标记相关性的在线多标记流特征选择算法;定义自适应邻域关系解决邻域粗糙集的粒度选择问题,将其推广到多标记学习中;利用互信息计算标记间的相关性得到标记权重;通过邻域粗糙集和标记权重评估特征和标记间的相关性,并设计特征在线重要度分析、在线相关性分析和在线冗余度分析3种指标,以实现在线评价动态候选特征。在7组多标记数据集以及5个评价指标上的实验结果表明,所提算法综合性能较优。  相似文献   

8.
在监督学习实际任务中,特征的高维性、标记的动态性和缺失性为监督学习带来严峻的挑战。为解决这些不足,提出流缺失标记环境下的多标记特征选择算法。首先,为解决缺失标记的影响,通过学习标记相关性填补不完整的标记矩阵。其次,利用稀疏学习方法为每个新到达的标记选择类属属性。然后,根据已到达标记的类属属性,通过计算得分选取一个有代表性的特征子集。最后,在11个基准数据集上进行一系列实验表明,所提算法能选择有代表性的特征子集,且分类性能较优。  相似文献   

9.
在多标记学习中,现有的最大相关最小冗余(maximum Relevance and Minimum Redundancy, mRMR)算法未充分考虑标记之间以及特征与标记之间的相关性,导致算法分类性能偏弱。文章结合标记权重改进了mRMR算法,提出一种新的多标记特征选择方法。首先,基于标准互信息计算标记与标记之间的关联度,使用每个标记与标记集关联度占所有标记与标记集之间关联度之和的比例,定义标记权重,结合关联度与标记权重构建新的最大相关性公式,进而建立新的mRMR计算公式,使用mRMR算法获取最初的候选特征子集;然后,计算特征与标记之间的标准互信息并结合标记权重,定义特征与标记集之间的相关度,从最初候选特征子集中进一步剔除冗余特征,筛选最优特征子集;最后,设计了一种标记权重和mRMR的多标记特征选择算法。在8个多标记数据集上进行仿真实验,实验结果表明该算法能够有效提高多标记数据的分类性能。  相似文献   

10.
基于变精度邻域粗糙集的多标记子空间研究   总被引:1,自引:0,他引:1  
多标记学习是目前机器学习中的热点研究问题。本文基于变精度邻域粗糙集探究多标记学习中的特征选择方法,并对所得到的多标记子空间进行了详细的分析。首先提出了基于多标记学习的变精度邻域粗糙集模型,进而给出了一种多标记学习中的特征选择方法。在此基础上,基于不同的精度和邻域能够得到不同的特征选择结果,即不同的特征子空间。该文详细分析了精度和邻域对特征子空间的影响,并将所得到的特征子空间进行集成,详细分析了相应的集成效果。  相似文献   

11.
目前,Fisher Score模型在处理多标记数据时没有考虑样本和整个特征空间之间以及特征和标记之间的关系.提出一种基于互信息的Fisher Score多标记特征选择方法 .首先,在多标记决策系统中考虑整个样本空间对特征选择的影响,根据异类样本与同类样本之间的欧式距离定义权重公式,并在特征空间下对标记赋予权重衡量标记的重要程度.然后,基于互信息理论定义特征与每个标记之间的互信息来计算每个特征和每个标记之间的相关度,将特征与标记之间的相关度与该标记所占的权重相结合来定义特征和标记集之间的总相关度.将Fisher得分与总相关度结合,定义每个特征的新的Fisher得分,进而构建多标记Fisher Score模型.最后,设计了一种基于互信息的Fisher Score多标记特征选择算法.在六个多标记数据集上的实验证明,提出的算法与其他算法相比,其四种评价指标都表现良好,分类性能出色.  相似文献   

12.
传统多标记学习方法通常只考虑和示例相关联的单个特征向量以及无差别地预测全体标签,从而忽视了与示例相似的其他示例及隐含的标签属性,造成输入空间特征信息较少、标签属性被忽略和对大标记空间预测效果差等问题.为解决以上问题,文章转化传统多标记学习任务为多标记学习的序列到序列任务,并由此提出新的多标记学习标签生成神经网络模型(Fea2Lab模型):通过交错的顺序排列示例和相似示例形成链式特征向量序列,来增加输入空间特征信息;通过挖掘标签属性来有差别地预测标签;通过在解码流程中使用全局标签信息,来缓解预测过程中出现的错误标签级联问题.在多个数据集上的实验结果和消融实验表明转化任务和Fea2Lab模型的合理性、可行性及有效性.  相似文献   

13.
多标记学习广泛应用于图像分类、疾病诊断等领域,然而特征的高维性给多标记分类算法带来时间负担、过拟合和性能低等问题.基于多粒度邻域一致性设计相应的多标记特征选择算法:首先利用标记空间和特征空间邻域一致性来粒化所有样本,并基于多粒度邻域一致性观点定义新的多标记邻域信息熵和多标记邻域互信息;其次,基于邻域互信息构建一个评价候...  相似文献   

14.
传统的机器学习主要解决单标记学习,即一个样本仅有一个标记.在生物信息学中,一个基因通常至少具有一个功能,即至少具有一个标记,与传统学习方法相比,多标记学习能更有效地识别生物相关基因组的功能.目前的研究主要集中在监督多标记学习算法.然而,研究半监督多标记学习算法,从已标记和未标记的基因表达数据中学习,仍然是未解决问题.提出一种有效的基因功能分析的半监督多标记学习算法SML_SVM首先,SML_SVM根据PT4方法,将半监督多标记学习问题转化为半监督单标记学习问题,然后根据最大后验概率原则(MAP)和K近邻方法估计未标记样本的标记,最后,用SVM求解单标记学习问题.在yeast基因数据和genbase蛋白质数据上的实验表明,SML_SVM性能比基于PT4方法的MLSVM和自训练MLSVM更优.  相似文献   

15.
对电子鼻中数据分析(包括数据预处理、特征生成、特征降维和分类识别)问题进行研究.首先提出了将消除工频干扰、小波阈值去噪和数据归一化联用的电子鼻数据预处理新方法;然后从相对电导变化率及其微分、积分、曲率和平均数不等式的角度出发生成110维的初始特征空间;接着采用8种特征选择算法综合降维至41维,再利用核熵成分分析提取12维新特征;最后分别采用Softmax回归和改进的BP神经网络进行分类识别.在数据分析的基础上考察实验参数——气路流量和水浴蒸发温度对白酒识别的影响,同时结合主成分分析和线性判别分析得出较佳气路流量为200,sccm、水浴蒸发温度为70,℃;并应用此参数对11种浓香型白酒进行识别,经温湿度补偿后BP神经网络的识别准确率达91.36%.  相似文献   

16.
高阶多标记学习算法能够挖掘所有类别标记之间的关系或标记子集的关系,但在处理错误传播和冗余或错误的类别依赖关系这两个问题上存在弊端。针对此类问题,在链式分类器的基础上,提出稀疏链式多标记学习算法(Sparse Classifier Chains,SCC);为了验证所提出算法的有效性,将其与5种多标记学习算法进行对比,选取8个评价指标来评估算法的性能,在12个标准数据集上进行了实验验证,并利用秩和检验方法来分析所有对比算法之间的相对性能;实验结果表明:稀疏链式多标记学习算法优于所有对比算法,显著优于部分算法,并具有较强的泛化性能。  相似文献   

17.
为了提升标记分布学习在歧义性分类问题上的预测性能,对标记形态上的模糊度进行研究.提出了标记形态模糊度的概念,给出了基于峰度的一种度量方式,探讨了不同模糊程度样本对于分类学习的影响.根据低模糊度数据更有利于学习的研究发现,基于加权低模糊度样本和对齐模糊度损失这两种策略设计了一种新的标记分布学习算法.14个数据集上的十折交...  相似文献   

18.
针对穿戴式跌倒检测中特征属性过多,传统的降维和PCA赋权降维方法仅考虑了单个特征的重要度,未将特征组合的重要性考虑在内的问题,提出一种改进的基于关联规则挖掘的赋权特征选择方法。在特征降维过程中引入关联规则挖掘,根据频繁项集的支持度和置信度为特征赋权,实现特征选择。利用真实的数据集进行对比实验,结果表明:该方法分类的正确率、特异度和灵敏度均高于未经降维的原始数据集和经PCA赋权选择的数据集。该方法不仅能够实现对高维数据的降维,而且考虑了特征间的关联规则,能够得到更为优质的特征向量数据集。  相似文献   

19.
针对多标记学习算法中特征描述粒度导致的标记倾向性问题,大多数研究者从特征与所有标记之间的关联性入手,通过求解得出若干重要特征,并由此构造相应的特征子空间.这种做法会导致有些特征与某个标记有很强的相关性,但与整个标记空间的相关性却并不大,这样的特征丢失易造成分类器精度下降.如果将整个标记空间换成部分标记空间甚至单个标记空间来计算与特征之间的关联性,并把关联性很强的标记分开进行特征选择,就会降低算法的时间开销,提高算法的效率.同时,基于互信息的多标记学习算法多数采用传统熵的方法进行特征选择,由于传统熵不具有补的性质,计算方法较为复杂.引入粗糙熵的度量方法,提出基于粗糙互信息的多标记倾向性k特征核选择算法,实验和统计假设检验都证明该算法是有效的.  相似文献   

20.
多标记学习研究的是一个对象同时具有多个标记的一类复杂问题.文本标注、视频内容标注、图像识别和蛋白质功能的发现等都属于这类任务.与单标记学习问题一样,多标记学习也遭遇到了数据维数大的挑战.针对多标记数据,目前已经设计出一些约简算法,但与单标记约简算法相比,方法数量有限且局限性大.随着大数据时代的到来,收集大量样本越来越容易,但标注收集到的全部样本不切实际.这给想要通过利用粗糙集模型来解决多标记学习问题的研究人员带来了三个挑战:数据维数更高、现有粗糙集的局限性和部分标记决策表的出现.为了解决这三个挑战,提出了面向多标记学习的局部粗糙集模型,并获得了一些有意思的性质.最后,通过利用局部粗糙集模型,设计了一个多标记的启发式约简算法,并在三个公开的多标记数据集上验证了算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号