首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
针对基因表达谱数据的高维度、低样本和连续型等特点,提出一种结合邻域互信息和自组织映射进行特征基因选取的方法.首先提出一种改进的Relief算法,对基因进行排序生成候选特征集合;然后提出基于邻域互信息的自组织映射算法对生成的候选特征基因进行聚类;最后利用提出的属性重要性系数从每一类簇中选择代表基因组成特征基因子集.实验结果表明,该方法可以快速有效地选取肿瘤特征基因,能获得较好的分类结果.  相似文献   

2.
现有大多数多标记流特征选择算法在进行特征选择时,往往忽略标记间的相关性,易导致算法预测精度的下降。为解决这一问题,提出一种结合邻域信息和标记相关性的在线多标记流特征选择算法;定义自适应邻域关系解决邻域粗糙集的粒度选择问题,将其推广到多标记学习中;利用互信息计算标记间的相关性得到标记权重;通过邻域粗糙集和标记权重评估特征和标记间的相关性,并设计特征在线重要度分析、在线相关性分析和在线冗余度分析3种指标,以实现在线评价动态候选特征。在7组多标记数据集以及5个评价指标上的实验结果表明,所提算法综合性能较优。  相似文献   

3.
最大熵方法中特征选择算法的改进与纠错排歧   总被引:2,自引:0,他引:2  
对应用最大熵原理建立语言模型的特征选取方法作了改进.用特征模板从训练样本中获得候选特征集,应用频次与平均互信息相结合的方法从候选特征集中选取特征.在选择有效特征时,对候选特征集中出现频次大于某一限值的特征或平均互信息很大的特征直接加入有效特征集,且不是每选一个特征都调用参数的求解过程,从而加快了特征选择的速度.将改进的算法应用于文本纠错建议的排歧,实验证明,所改进的特征选择算法有效.  相似文献   

4.
借鉴邻域粗糙集处理连续型数据的优势,为解决传统谱聚类算法需要人工选取参数的问题,提出基于自适应邻域互信息与谱聚类的特征选择算法。首先,定义各对象在属性下的标准差集合与自适应邻域集,给出自适应邻域熵、平均邻域熵、联合熵、邻域条件熵、邻域互信息等不确定性度量,利用自适应邻域互信息对特征与标签的相关性进行排序。然后,结合共享近邻自适应谱聚类算法,将相关性强的特征聚到同一特征簇内,使不同特征簇内的特征强相异。最后,使用最小冗余最大相关技术设计特征选择算法。在10个数据集上选择特征个数与分类精度的实验结果,验证了所提算法的有效性。  相似文献   

5.
数据降维就是将数据集从高维特征空间向低维特征空间的映射.传统的主成分分析(PCA)算法是一种常用的线性数据降维算法.但是耗时太长,降维结果不够好,同时不能满足实际分类要求.为此,通过引入互信息可信度,提出了一种基于互信息综合可信度的主成分分析(MIS-PCA)数据降维算法.该算法首先介绍互信息(MI)、相对互信息可信度(MIR)和绝对互信息可信度(MIA)的思想;然后根据MIA和MIR求解互信息综合可信度(MIS),利用互信息综合可信度进行特征筛选;最后再运用PCA算法对处理后的数据进行降维,并将降维后的数据采用KNN、SVM算法进行分类.对比PCA、E-PCA算法,通过试验表明该方法的降维结果较好、分类精确度较高.  相似文献   

6.
作者讨论了人工神经网络矢量量化在多带激励语音压缩编码算法中的实际应用。采用Kohonen自组织特征映射神经网络技术对语音参数中的谱包络参数进行量化,利用Kohonen自组织特征映射神经网络具有的聚类特性,提出一种初始码本抽取和码本训练的实际算法,训练出具有明显拓扑结构和码本。利用语音的帧间相关性和训练网络的结构特性,提出一种称为“邻域搜索法”的快速码字搜索算法。实验表明,这种矢量量化算法使码卡搜索  相似文献   

7.
提出一种基于自适应邻域参数的拉普拉斯特征映射算法,该算法首先依据采样密度确定每个样本点的自适应邻域参数,然后根据流形弯曲度调整优化邻域参数.实验结果表明,改进后的算法能够取得比拉普拉斯特征映射算法更好的降维效果.  相似文献   

8.
为了更好地预处理未标记数据,大多数基于图正则的无监督特征选择算法通过构造样本的相似性矩阵来删除冗余信息并选择具有代表性的特征子集。这些方法中的大多数图都是用固定数量的近邻数来初始化,忽略了数据分布不均匀的问题。为了解决这个问题,提出了一种基于自适应邻域和自表示正则的无监督特征选择算法(Adaptive neighborhood regularized self-representation, ANRSR)来选择具有代表性和判别性的特征子集。为了保留局部内在结构,该算法将基于自适应邻域的流形正则化运用到自表示模型中,并利用了一种迭代方法来解决此优化问题。最后,选取4种经典的无监督特征选择算法,在几个基准数据集上进行了对比实验,验证所提算法能够选出具有更高聚类精度和互信息的判别性特征子集。  相似文献   

9.
针对邻域粗糙集采用全局邻域求解近似,存在计算时间复杂度高且无法对基因表达谱精确描述的问题,构造了基于主成分分析(PCA)和改进邻域粗糙集(NRS)算法的PNRS模型.首先采用PCA算法获得低维的特征基因空间;然后利用改进的多邻域粗糙集算法进行特征基因选择,即采用欧氏距离计算每列属性邻域值,选取所有属性邻域集合计算邻域决策系统的近似;最后采用启发式搜索算法选择特征基因子集.实验结果表明,PNRS模型能够在选择出较小的基因子集的情况下获得较高的分类精度,从而验证了该方法的有效性.  相似文献   

10.
隐写检测特征维数的增加,不仅增加了分类器训练时间和预测时间,甚至还会造成"维数灾难".因此,为达到特征降维的目的,对空域隐写检测特征选择进行研究,提出了一种基于条件互信息的特征选择算法.该算法首先选取一个与类标签具有最大互信息的特征,接着选取与此特征和类标签具有最大条件互信息的一个特征;然后通过前向寻找方式,从未选择特征子集中循环选取与刚选取特征和类标签具有最大条件互信息的特征,一直到选出规定数目的特征后结束循环.实验结果表明,与其他算法相比,所提算法取得了较好的特征选择效果.  相似文献   

11.
通过研究特征变量与类变量的信息测度和特征子集与类变量之间信息测度计算方法,实现快速的特征选择。将基于扩展熵的信息损失量测度用于度量类变量之间的相关性。为避免计算联合互信息的复杂计算,提出了基于信息损失量的变量相关度增加量计算方法,在保证新增特征可提供更多信息量前提下,同时提高特征选择的速度。最后对UCI的3种分类数据集进行实例分析,利用支持向量机对选择的特征子集进行分类验证,并将分类结果与其它常用特征选择方法进行了比较。结果表明所提出的特征选择方法比现有的特征选择方法更有效。  相似文献   

12.
Mutual information is an important information measure for feature subset. In this paper, a hashing mechanism is proposed to calculate the mutual information on the feature subset. Redundancy-synergy coefficient, a novel redundancy and synergy measure of features to express the class feature, is defined by mutual information. The information maximization rule was applied to derive the heuristic feature subset selection method based on mutual information and redundancy-synergy coefficient. Our experiment results showed the good performance of the new feature selection method.  相似文献   

13.
特征选择是粗糙集理论在数据挖掘等领域中一种重要的应用,如何对动态变化的信息系统进行增量式特征选择是目前粗糙集理论研究的重点。在不完备混合型信息系统中,属性集的不断增加是信息系统动态变化的一种重要形式。首先在不完备混合型信息系统中引入邻域条件熵的概念,并且利用矩阵的方法去表示邻域条件熵;然后针对属性集动态增加的情形,提出矩阵形式的邻域条件熵增量式更新,并且基于这种增量式更新机制给出了相应的增量式特征选择算法;最后,UCI数据集的实验结果表明,所提出的增量式特征选择算法比非增量式特征选择算法具有更高的特征选择性能。  相似文献   

14.
提出了一种由遗传算法和改进互信息公式相结合的特征选择方法.将遗传算法中的特征评价函数换为改进互信息公式来对特征进行选择,结合了过滤式和封装式这2种特征选择方法的优点.实验部分采用另外2种特征选择算法与本文所提方法分别进行特征选择,将这3种方法所得到的特征子集用于概率神经网络、BP神经网络分类器上,通过比较对应的分类精度,检验各种特征选择方法的效果. 实验结果显示,所提出的特征选择方法能更为有效的实现特征选择,所取得的特征子集具有更好的泛化特性.  相似文献   

15.
借鉴基于正则回归的无监督并行正交基聚类特征选择法和最大互信息系数,提出正交基低冗余无监督特征选择法.该方法在正交基下选择具有判别能力的特征,可用最大互信息系数矩阵选择低冗余性的特征子集. 4个图像数据集上的实验结果表明:该方法选择的特征子集可以提高聚类准确率.  相似文献   

16.
针对肿瘤基因数据因维度高和冗余基因较多而导致分类精度低的问题,提出一种基于PCA和信息增益的肿瘤特征基因选择方法.该方法首先使用PCA算法剔除冗余基因,获得预选特征基因子集;然后利用信息增益算法对预选特征基因子集进行优化选取,得到特征基因子集;最后采用不同分类模型对特征基因子集进行仿真实验.实验结果表明,所提方法提高了基因表达谱的分类精度,从而表明致病基因被有效地选取出来.  相似文献   

17.
在分析单一、给定的邻域大小设定方法弊端的基础上,提出了基于属性数据标准差的阁值设定方法,并将蚁群优化算法引入到属性约简中,以属性重要度为启发信息,构造了基于邻域粗糙集和蚁群优化的属性约简算法,使用了4个UCI数据集进行约简.实验结果表明,提出的算法在约简的分类精度和约简中属性个数方面具有更好的性能.  相似文献   

18.
在肿瘤特征基因选择过程中,传统分类方法会选出大量冗余基因,而大量冗余基因会造成分类精度低和时间复杂度较高等问题,为了解决上述问题,提出一种结合信噪比过滤法与随机森林算法的肿瘤特征基因选择方法.该方法包含两个过程:首先使用信噪比过滤法剔除原始特征空间中的无关和冗余基因,从而获得与分类属性相关性较高的基因,选择出分类能力较强的预选特征子集;其次使用随机森林算法对特征基因子集进行分类,最终获得分类结果.实验结果显示,该算法可以快速有效地选择出肿瘤特征基因,并具有较高的分类精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号