首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
机器学习中,特征选择可以有效降低数据维度.考虑到流形学习能够保持原始数据的几何结构,l_(2,1)范数能够防止过拟合,提升模型的泛化能力,将二者结合起来可以提高特征选择的效果和效率.结合局部邻域嵌入(LNE)算法和l_(2,1)范数,提出一种新的无监督特征选择方法.其主要思想是:首先利用数据样本和邻域间的距离以及重构系数构造相似矩阵;其次构建低维空间并结合l_(2,1)范数进行稀疏回归;最后计算每个特征的重要性并选出最优特征子集.实验通过与几种典型的特征选择算法做对比,验证了所提算法的有效性.  相似文献   

2.
多标记特征选择已被广泛应用于医疗诊断、模式识别等领域,然而现实中的数据往往存在维数灾难以及标记大量缺失等问题,现有的弱多标记特征选择算法又普遍易受缺失标记和噪声的干扰,使算法模型难以准确地选择重要特征.针对上述问题,提出一种用于弱多标记数据集特征选择的弱监督对比学习方法,旨在缺失和含噪声标记数据集中选择优质特征,同时挖掘少量人工标注数据中潜在的类间对比模式.该方法包括三个步骤:首先,设计一种弱监督预训练策略,通过利用实例相似性以及稀疏学习方法获取每个类标记类属属性,用于恢复缺失标记;其次,引入对比学习策略来捕获少量有标记数据的对比模式来削弱噪声数据的影响;最后,选取10组多标记数据集以及四个评价指标进行实验.实验结果证明,与多个先进多标记特征选择算法相比,提出的方法分类性能更优.  相似文献   

3.
目前,Fisher Score模型在处理多标记数据时没有考虑样本和整个特征空间之间以及特征和标记之间的关系.提出一种基于互信息的Fisher Score多标记特征选择方法 .首先,在多标记决策系统中考虑整个样本空间对特征选择的影响,根据异类样本与同类样本之间的欧式距离定义权重公式,并在特征空间下对标记赋予权重衡量标记的重要程度.然后,基于互信息理论定义特征与每个标记之间的互信息来计算每个特征和每个标记之间的相关度,将特征与标记之间的相关度与该标记所占的权重相结合来定义特征和标记集之间的总相关度.将Fisher得分与总相关度结合,定义每个特征的新的Fisher得分,进而构建多标记Fisher Score模型.最后,设计了一种基于互信息的Fisher Score多标记特征选择算法.在六个多标记数据集上的实验证明,提出的算法与其他算法相比,其四种评价指标都表现良好,分类性能出色.  相似文献   

4.
甘宏 《江西科学》2022,(2):346-350
现有元学习方法的初始模型在训练过程中会偏向于某些任务,从而影响元学习方法的泛化能力。针对以上不足,提出了基于正则化元学习算法(Regularized Meta Learning,REML)用于小样本图像分类。该算法通过在元学习的目标函数中添加正则化项,以阻止元学习的初始模型偏向于部分训练任务,使元学习模型具有更强适应新任务的能力。此外针对元学习过程中涉及二阶求导使得计算量较大的不足,采用一阶导数近似二阶导数,以减小元学习模型训练所需计算量。在mini Image Net、CUB-200和CIFAR-100这3个数据集上进行的实验验证本文算法性能。实验结果表明,提出的算法能够增强元学习的泛化能力,从而提高小样本图像分类的性能,同时减小元学习算法训练参数的计算量。  相似文献   

5.
应用特征选择处理多标签数据分类时"维度灾难"问题已成为重要研究方向,因此提出一种基于邻域维护准则的特征选择算法(NPFS,feature selection algorithm based on neighborhood preservation criterion)。通过近似基于特征子空间和基于标签空间的2个相似度矩阵来构建相似性维护表达式,再通过线性近似扩展相似性维护公式得到邻域关系维护公式,并计算出邻域关系维护得分(NRPS,neighborhood relationship preserving score)来评估特征子集的重要性,结合贪婪方法设计具有NRPS的多标签特征选择算法(NPFS)。仿真结果表明,对比MMIFS算法和MDMR算法,所提出的算法在平均准确率、覆盖率、汉明损失、1-错误率、排名损失5个性能指标上均有改善。  相似文献   

6.
为文本情感分类提出一种改进的机器学习算法。在分析当前主要文本特征选择方法后,把词频和词语情感表现程度融入到信息增益特征选择方法中,从全局和局部2个方面进行特征权重衡量,使用特征空间向量模型对文本进行统一表示,然后利用SVM算法进行训练学习。通过实验发现该算法的查准率和查全率比传统的机器学习算法有所提高,并且得到的分类器具有较好的泛化能力。  相似文献   

7.
针对核熵成分分析算法(kernel entropy component analysis, KECA)为不同的故障选择相同的核参数影响检测效果的问题,提出了一种基于集成核熵成分分析(ensemble kernel entropy component analysis, EKECA)算法的工业过程故障检测方法。首先,选取一系列具有不同宽度参数的核函数将非线性数据投影到核特征空间,选取Rényi熵值贡献较大的特征值和特征向量,得到转换后的得分矩阵,建立多个KECA子模型;然后,将测试数据投影到各KECA子模型上,计算各KECA子模型的统计量,得到检测结果;最后,将各KECA子模型的检测结果利用Bayesian决策进行概率换算,利用集成学习法计算检测结果统一的统计量,判断其是否超出控制限,并将该算法应用于数值例子和TE过程。仿真结果表明,与传统的EKPCA,KECA等算法相比,所提方法有效提高了故障检测率,降低了误报率。新方法解决了传统KECA算法中不同故障核参数的选择问题,为提高KECA算法在非线性工业过程故障检测中的性能提供了参考。  相似文献   

8.
为了更好地预处理未标记数据,大多数基于图正则的无监督特征选择算法通过构造样本的相似性矩阵来删除冗余信息并选择具有代表性的特征子集。这些方法中的大多数图都是用固定数量的近邻数来初始化,忽略了数据分布不均匀的问题。为了解决这个问题,提出了一种基于自适应邻域和自表示正则的无监督特征选择算法(Adaptive neighborhood regularized self-representation, ANRSR)来选择具有代表性和判别性的特征子集。为了保留局部内在结构,该算法将基于自适应邻域的流形正则化运用到自表示模型中,并利用了一种迭代方法来解决此优化问题。最后,选取4种经典的无监督特征选择算法,在几个基准数据集上进行了对比实验,验证所提算法能够选出具有更高聚类精度和互信息的判别性特征子集。  相似文献   

9.
特征选择是机器学习和数据挖掘中的一个关键问题,它可以实现数据维度的约减,从而提高学习模型的泛化能力.近年来,为了提高特征选择算法的性能,集成思想被应用到特征选择算法中,即将多个基特征选择器进行集成.本文从提高特征选择算法对大规模数据处理能力的角度出发,提出了一种基于最小最大策略的集成特征选择方法.它主要包括三个步骤:第一,将原始数据根据类别信息划分成多个相对较小的平衡数据子集;第二,在每一个数据子集上进行特征选择,得到多个特征选择结果;第三,对多个特征选择结果依据最小—最大策略进行集成,得出最终的特征选择结果.通过实验对比了该集成策略与其它三种集成策略对分类准确率的影响,结果表明最小最大集成策略在大部分情况下能够获得较好的性能,且基于最小最大策略的集成特征选择可以有效处理大规模数据.  相似文献   

10.
基于先验知识的三维模型特征选择算法   总被引:1,自引:0,他引:1  
基于内容的三维模型检索被广泛运用于许多研究领域.为了弥补特征提取算法描述模型特征的不足,提高三维模型的检索效果,该文提出了一种基于先验知识的三维模型特征向量动态选择算法.该算法利用查询模型计算各种特征向量的先验知识,然后动态地选择描述能力较强的特征向量计算模型之间的相似度距离.实验采用标准的模型库Princeton shape benchmark(PSB)和多种公认的评价方法,结果显示该算法提高了三维模型的检索效果,优于现有的2种流行的三维模型特征选择算法.  相似文献   

11.
多标签特征选择能够有效去除冗余特征并提升分类精度, 是解决"维数灾难"问题的有效方法. 然而, 已有的多标签特征选择算法是对所有标签选择出相同的特征, 忽略了标签与特征之间的内在联系. 事实上, 每个标签都具有反映该标签特有属性的特征, 即类属特征. 提出一种基于图拉普拉斯的多标签类属特征选择(multi-label label-specific feature selection based on graph Laplacian, LSGL)算法. 对于每个类别标签, 基于拉普拉斯映射获得数据的低维嵌入, 再通过稀疏正则化获得数据空间到嵌入空间的投影矩阵, 接着通过分析矩阵系数确定每个标签相应的类属特征, 最后使用类属特征进行分类. 在 5 个公共多标签数据集上的多标签特征选择与分类实验结果证明了所提算法的有效性.  相似文献   

12.
刘炼  王强  陈浩 《科学技术与工程》2022,22(11):4367-4374
针对传统基于机器学习的电力系统暂态稳定评估方法存在准确率偏低和泛化能力不足的问题,提出了一种基于特征选择和改进随机森林的在线暂态稳定评估方法.首先,通过最大化联合互信息挖掘电网运行数据之间的相关性,筛选出具有代表性的关键特征子集;然后,考虑到电力系统数据库中稳定样本与失稳样本之间的类别不平衡问题,通过改进bootstr...  相似文献   

13.
乳腺肿块检测是防治乳腺癌的有效途径,基于乳腺X射线图像特征模型的极限学习机(ELM)分类算法已被应用于计算机辅助检测乳腺肿块中.针对由于特征间的依赖性导致的ELM学习效率和检测准确度低的问题,提出了基于特征选择ELM的乳腺肿块检测算法.利用影响值选择、序列前向选择和遗传选择等方法进行特征选择,进而利用该结果提高ELM的性能.通过490例来自辽宁省肿瘤医院的乳腺X射线图像的实验表明,基于特征选择ELM的乳腺肿块检测算法能有效提升乳腺肿块检测的效果,其中以遗传选择对ELM性能提升最明显.  相似文献   

14.
机器学习领域中的特征选择算法可简化模型输入,提高可解释性并帮助避免维度灾难及过拟合现象的发生.针对基于封装法进行特征选择时,评价模型通常将搜索出的特征子集直接作为输入,导致算法对特征利用和评估效果受限于评价模型的特征学习能力,限制了对更适特征子集的发现能力等问题,提出一种基于级联森林结构的子集特征预学习封装法.该方法在搜索算法与评价模型之间添加多层级联森林,重构待评价特征子集为高级特征集,降低评价模型模式识别难度,提高对子集性能的评价效果.实验对比了多种搜索算法及评价模型组合,本方法可在保证分类性能的前提下,进一步降低所选特征数量,同时维持了封装法的低耦合性.   相似文献   

15.
为了平衡集成学习中多样性与准确性之间的关系,并提高决策分类器的泛化能力,提出一种基于负相关学习和AdaBoost算法的支持向量机(SVM)集成学习方法.将负相关学习理论融合到AdaBoost-SVM的训练过程中,利用负相关学习理论计算基分类器间的相关性,并根据相关性的值自适应调整基分类器的权重,进而得到加权后的决策分类器.在UCI数据集中进行仿真,结果表明:相较于传统的负相关集成学习算法和AdaBoost-SVM算法,所提出的方法分类准确率更高,泛化能力更好.  相似文献   

16.
为可靠地检出并识别旋转机械设备轴承故障,提出了一种基于小波包分解和无量纲免疫检测器的轴承故障模式识别方法.该方法采用小波包对原始时域信号进行预处理,分别提取原始时域信号和各频带范围内时域信号的无量纲指标,并计算其敏感因子,根据敏感因子选取敏感特征,结合人工免疫阴性选择算法,生成多个敏感特征无量纲免疫检测器,实现对故障进行识别和分类.仿真实验结果表明,所提方法能有效地识别各种轴承故障.  相似文献   

17.
针对Laplacian分值法进行特征选择时过分依赖样本局部结构信息的不足,提出一种改进的基于约束Laplacian分值的半监督特征选择算法。该算法利用样本之间的cannot-link成对约束关系作为全局结构信息,在进行特征选择时,不仅能尽量保持局部结构信息,而且还尽量保持了全局的cannot-link约束关系。基于Yale和PIE(Fave pose,Illamination,Expression dadbase)人脸数据库的实验表明,该算法性能显著优于Laplacian分值法,与Fisher分值法和最新的约束分值法相当,且在稳定性方面优于后者。  相似文献   

18.
以R32与R125为对比制冷剂工质,用基于Lattice-Boltzmann方法的新算法计算了混合制冷剂R410A与R407C的动力粘度.分析了误差,探讨了提高计算精度的方法,提出要选用合适的对比工质,考虑不同组分之间受力等措施来提高精度.结果表明:在选用合适的对比工质后,R410A的平均计算误差5.2%,最大误差7.0%;R407C的平均计算误差5.5%,最大误差8.0%.计算结果说明该方法可以对混合制冷剂动力粘度进行有效计算.  相似文献   

19.
针对现有大多数多标签特征选择算法未能有效去除特征空间冗余特征,同时也忽略了标签差异性的现状,提出一种基于相关性分析的多标签特征选择方法,利用特征之间的相关度对特征进行分组,解决了特征之间的相关性问题.根据样本所对应的标签属性对样本做一个正负类的聚类,对于正样本和负样本所构成的正类簇和负类簇单独确定其聚类个数,并计算原特征到正负类簇中各个类中心的距离,如此便产生了标签特定特征空间;将标签共享的特征空间和标签特定特征空间融合,考虑到多个标签之间的个性和关联性,解决了标签的差异性问题.实验测试表明,相较于现有的多标签特征选择算法,提出的基于相关性分析的多标签特征选择方法在各个分类指标上均有较优的表现,充分证明了该方法的有效性.  相似文献   

20.
针对如何提高网络流量异常行为检测准确率的问题,提出基于网络流时间影响域(TID)的网络流量检测模型.通过分析正常和异常情况下流量网络模型平均度的变化,构建了基于复杂网络平均度指标的网络流量异常检测算法.实验结果表明,基于网络流时间影响域的流量网络模型能合理地描述网络流量间的依赖关系,具有良好的检测性能,同时该网络模型仅需时间戳、源IP、目的IP三维网络特征即可实现,检测方法适用于绝大多数网络类型,检测效率优于其他网络流量异常检测方法,具有较高的普适性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号