首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对现有的特征选择模型未涉及特征和标记集之间的相关度,造成分类精度偏低等情况,提出了基于ReliefF和最大相关最小冗余(maximum Relevance and Minimum Redundancy, mRMR)的多标记特征选择.首先,运用互信息计算每个标记和标记集之间的相关度,使用每项相关度占其相关度之和的比例设计了标记权重,由此构建了特征和标记集间的相关度,初选与标记集相关度高的特征;其次,计算对象在特征上的距离,构建了新的特征权值更新公式,基于标记权重改进多标记ReliefF模型.然后,基于互信息和标记权重构建了最大相关性,设计了最小冗余性及其新的最大相关最小冗余评价准则,并将其应用于多标记特征选择,进一步剔除冗余特征;最后,设计了一种基于ReliefF和最大相关最小冗余的多标记特征选择算法,有效提高了多标记分类性能.在8个多标记数据集上测试所提算法的平均分类精度、覆盖率、汉明损失、1错误率和排序损失,实验结果证明了该算法的有效性.  相似文献   

2.
为了解决不定核Fisher判别分析(IKFDA)在处理高维小样本数据时的病态问题,基于Kreǐn空间提出了两阶段的IKFDA学习框架TP-IKFDA;为了解决不定核典型相关分析(IKCCA)在处理高维小样本数据时的过拟合问题,提出了两阶段的IKCCA学习框架TP-IKCCA.通过不定核主成分分析(IKPCA)进行降维处理,减弱高维特征所带来的负面影响;然后,在降维后的特征空间中进行Fisher判别分析(FDA)或典型相关分析(CCA).真实数据集上的试验结果表明,与IKPCA、IKFDA以及IKFDA的改进算法相比,TP-IKFDA的分类精度明显提高;TP-IKCCA相较于现有的IKCCA模型泛化性能得到了进一步改善.因此,在处理高维小样本数据时,TP-IKFDA和TP-IKCCA的实际泛化性能优于现有的不定核子空间学习技术.  相似文献   

3.
鉴于DNA微阵列数据中无关基因和冗余基因对分类精度和效率的影响,提出一种基于全局和声搜索的特征基因选择方法,首先采用ReliefF算法对微阵列基因数据集排序,取排序靠前的N个基因构成初选基因子集,然后利用全局和声搜索算法选择特征基因.两个公共微阵列数据集上的仿真实验表明,该算法全局搜索能力强,分类精度高,能够有效地剔除噪声和冗余基因,是一种有效的特征基因选择算法.  相似文献   

4.
基于Relief的组合式特征选择   总被引:15,自引:0,他引:15  
ReliefF是公认的效果较好的filter式特征评估方法,但该方法一大缺点是不能辨别冗余特征.提出两种基于Relief的组合式特征选择算法:ReCorre和ReSBSW,这两种算法均首先利用ReliefF算法过滤掉无关特征,然后分别采用相关分析(Correlation)以及顺序后向搜索(SBS)的Wrapper算法去除冗余特征.在实际数据集以及人造数据集上进行了实验,分析比较了Relief,ReCorre以及ReSBSW算法的性能.实验结果得出如下结论:ReliefF方法对无关特征较多的数据集能够很好的降维,但对于实际数据中特征间关系较复杂的情况,只能去掉很少的无关特征,并会去除一部分相关特征,ReliefF不能处理冗余特征,ReCorre可以在ReliefF基础上去除大部分冗余特征.ReSBSW算法可得到较好的泛化性能,但算法计算量很高,不适合大规模数据集.  相似文献   

5.
针对基于线性表示理论的子空间分割方法没有考虑高维小样本数据的非线性性质,借鉴核理论,提出核最小二乘回归子空间分割方法,使子空间分割方法适合高维小样本数据的非线性性质.经6个基因表达数据集和4个图像数据集上的实验,表明该方法是有效的.  相似文献   

6.
利用局部保持投影和稀疏保持投影来刻画数据的本质结构,结合L2,1范数的组稀疏性来选择特征,提出一种新的针对高维小样本数据集的无监督特征选择算法.实验表明:局部和稀疏保持无监督特征选择法是一种有效的无监督特征选择方法;平衡参数对实验结果有较大的影响.  相似文献   

7.
针对传统图像特征降维方法计算量大、 无法去除冗余信息、 未考虑相关性等缺陷, 提出一种结合快速主成分分析(FPCA)和ReliefF算法的图像特征降维方法. 该方法先利用FPCA[KG*6]算法对样本数据进行初次降维, 去除样本中的冗余信息;  再利用ReliefF算法计算样本特征的分类权重, 根据权重对特征进行组合优化. 在算法实现过程中, 采用递归排除策略, 进一步提升了算法特征寻优能力. 仿真实验表明, 利用本文算法优选出的图像特征, 可较好地提高聚类结果, 适合实际工程的应用.  相似文献   

8.
为了消除与分类无关和冗余基因,以提高基因的分类精度和效率,提出一种文化算法框架下混合群智能算法的肿瘤信息基因选择方法.首先采用ReliefF算法初选基因子集,然后利用文化算法框架下混合群智能算法选择最优的信息基因,最后在3个标准肿瘤信息基因数据集对其性能进行测试.仿真结果表明,文化算法框架下混合群智能算法可以有效去掉无用的噪声基因,降低计算复杂度,分类精度均可以达到100%,具有较好的实际应用价值.  相似文献   

9.
集成算法是机器学习领域的研究热点。随机子空间算法是集成算法的一个主要算法。随机子空间生成的特征子集可能含有冗余特征、甚至噪声特征,影响算法的分类精度。为此,本文提出了一种基于互信息的弱随机特征子空间生成算法(WRSMI),有效去除了特征子集中的冗余特征和噪声特征。在UCI数据集上的实验结果表明,WRSMI的分类性能优于随机子空间算法。  相似文献   

10.
建立了一种适用于人脸、步态等生物特征识别的单模态生物特征识别系统.首先,单位化原始生物特征数据,得到新的数据集;然后,利用局部拓扑结构保存映射算法,确定新数据集的内蕴低维子空间;最后,在确定的低维子空间上利用类内距离和执行分类.在这个系统中,局部拓扑结构保存映射算法是一种新颖的子空间学习方法,与其他子空间学习算法相比,判别能力更强,更适合于生物特征识别.此外,对原始数据进行单位化处理以及在确定低维子空间上利用类内距离和执行分类都能有效提高生物特征识别系统性能.实验结果表明:该单模态生物特征识别系统是有效性的.  相似文献   

11.
无线电信号识别在无线电监测中占有重要地位,为了提高信号识别率,针对C波段信号特征数据的特点,提出一种基于ReliefF和聚类的特征选择方法.该算法首先用ReliefF算法去除与分类不相关的特征,再对余下的特征根据相关度强弱进行特征聚类,最后根据特征权重大小和相关度强弱删除冗余特征,选出代表性特征.实验结果表明,该算法有效地减少了数据维数,并且提高了信号识别率.  相似文献   

12.
在多标记学习中,现有的最大相关最小冗余(maximum Relevance and Minimum Redundancy, mRMR)算法未充分考虑标记之间以及特征与标记之间的相关性,导致算法分类性能偏弱。文章结合标记权重改进了mRMR算法,提出一种新的多标记特征选择方法。首先,基于标准互信息计算标记与标记之间的关联度,使用每个标记与标记集关联度占所有标记与标记集之间关联度之和的比例,定义标记权重,结合关联度与标记权重构建新的最大相关性公式,进而建立新的mRMR计算公式,使用mRMR算法获取最初的候选特征子集;然后,计算特征与标记之间的标准互信息并结合标记权重,定义特征与标记集之间的相关度,从最初候选特征子集中进一步剔除冗余特征,筛选最优特征子集;最后,设计了一种标记权重和mRMR的多标记特征选择算法。在8个多标记数据集上进行仿真实验,实验结果表明该算法能够有效提高多标记数据的分类性能。  相似文献   

13.
针对故障特征集维数高以及冗余的问题,提出一种自适应邻域选择的改进局部切空间排列维数约简方法.通过考虑流形的采样密度、局部弯曲度和局部切空间近似偏离角度,自适应构建样本邻域,以保证局部线性度,能提高算法鲁棒性.为提高故障诊断准确率,提出改进Fisher准则的特征评价方法,首先对原始特征集进行特征选择,优选出能表征类间散度大、类内散度小和低冗余的故障特征,然后采用改进的局部切空间排列算法进行特征融合,得到低维的敏感特征子集,并输入到k最近邻分类器进行故障识别.用滚动轴承不同部位、不同故障程度的实验数据验证了该方法的有效性.  相似文献   

14.
基于鉴别主成份分析的基因表达数据特征提取   总被引:1,自引:0,他引:1  
针对高维小样本数据特征提取问题,通过融合主成份分析(PCA)和线性判别分析(LDA),提出一种鉴别主成份分析方法。通过对PCA主成份进行单个线性判别,选择主要反应类间差异的主成份来构造特征空间。对yeast和NCI基因表达数据的实验结果表明:该方法在降维的同时能获得较好的判别特征,且能避免线性判别分析方法的奇异性。在子空间的聚类识别率相比PCA提高了20%以上,且具有较好的可视化效果,说明了用该方法对高维小样本数据进行特征提取的有效性。  相似文献   

15.
针对传统特征选择算法的不足, 提出一种新的特征选择算法. 该算法能综合度量一个特征在类内和类间的重要性, 并在3个不同的数据集上利用2个分类器与5个现有的特征选择方法进行了对比实验. 实验结果表明, 该算法进一步降低了特征向量空间的维度, 并有效提高了分类器的分类性能.  相似文献   

16.
特征选择是高维小样本癌症基因数据分析的首要和关键步骤,但是现有特征选择算法存在特征子集依赖于训练样本且随训练样本不同而变化的问题。为了解决特征选择过程的特征子集不稳定问题,提出一种基于核极限学习机的集成特征选择方法,利用5-折交叉验证划分原始数据,对各训练集继续采用5-折交叉验证进行划分并进行特征选择,以所得5个特征子集之并集作为该训练集的特征子集,构造核极限学习机评价该特征子集的分类性能,以原始数据集5-折交叉验证所得特征子集的平均Jaccard系数评价特征选择算法所选特征子集的稳定性。5个基因数据集的实验测试以及与经典特征选择算法SVM-RFE、LLE Score、ARCO、DRJMIM、Random Forest和mRMR的实验比较表明,本文算法不仅能选择到稳定的特征子集,且所选特征子集具有很好的泛化能力。  相似文献   

17.
精确的癌症分类对于癌症的成功诊断和治疗是必不可少的.半监督维数约减算法在干净的数据集上表现得很好,然而当面临噪声时,当前的大部分算法所构造的邻域结构是拓扑不稳定的.为了克服这一问题,文中提出了一种基于随机子空间的半监督维数约减算法(RSSSDR),将随机子空间与半监督维数约减算法结合起来.在数据集的不同随机子空间上,该算法首先设计多个不同的子图,然后将这些子图联合起来构成一个混合图并在其上进行维数约减.该算法通过最小化局部重构误差来确定邻域图的边权值,在保持癌症数据集局部结构的同时能够保持其全局结构.在公共癌症数据集上的实验结果表明,RSSSDR算法具有较高的分类准确率和较好的参数鲁棒性.  相似文献   

18.
不平衡数据的分类是机器学习的热点问题.传统的分类方法在分类时会倾向于多数类而使得分类精度不高.对不平衡数据集的分类,提出一种基于FCM结合KFDA方法,首先采用FCM算法对样本数据进行聚类,将数据聚类后的样本数据映射到特征空间里,再采用KFDA算法对数据进行分类,可以克服不平衡数据对分类性能的影响.对UCI数据集进行仿真实验,结果表明FCM-KFDA算法可以有效地提高数据识别率.  相似文献   

19.
微钙化簇是乳腺癌一个重要的早期发现,现有的检测技术为了达到高敏感性要求,产生很多假阳性数据.根据微钙化簇特点,提出一种整体和局部相组合的分类识别策略,并根据真假阳性样本错分代价的不同,使用代价敏感SVM方法进行分类学习.在构造分类器模型过程中利用粒子群进行分类器的参数优化及特征集合的选择,以提升分类学习的泛化能力.该算法在保证高敏感性的同时,降低了过多的假阳性数据,并删除了冗余和不相关的特征.实验结果表明,基于粒子群优化的代价敏感SVM组合分类算法提高了传统方法的识别能力.  相似文献   

20.
基于ReliefF的入侵特征选择方法,结合入侵检测数据集类内紧密和类外差距大的特点,通过对入侵特征权重计算的优化,提出一种改进算法:Re-ReliefF算法,解决了网络安全领域数据维度导致处理效率较低的问题.实验结果表明,在安全测试数据集下,改进算法相对传统算法在性能上有一定提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号