首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 75 毫秒
1.
信息增益是最有效的特征选择方法之一,但在处理不平衡数据集时其分类性能却急剧下降。针对这一不足,文章从三个方面对传统信息增益进行改进,提出一种改进的信息增益特征选择方法。首先,去除特征项不出现因子以降低对分类的干扰;其次,引入最大词频比因子以抑制低频词的干扰;最后,融入类内词频分布差异离散度和类间分布差异加权离散度因子以衡量特征项在类内和类间的分布差异。在不平衡数据集上的实验结果表明,改进的信息增益不仅可以从很大程度上改善少数类的分类性能,也使总体分类性能得到了明显提升。  相似文献   

2.
在现有的对于属性选择所做工作的基础上,提出了一种基于信息增益和遗传算法的属性选择方法。通过实验结果与其他的属性选择方法的比较,发现这种基于最基于信息增益和遗传算法的属性选择方法能够从一定程度上提高属性选择算法的效率。  相似文献   

3.
随着对脂肪肝超声图像识别的深入研究,越来越多的识别特征被提出来。而特征之间的相关性造成干扰信息,使得识别率反而下降。文中基于超声射频信号提取特征参数,通过两独立样本均数的t检验和主成分分析法,从10个特征参数中,组合前三个特征值的特征向量得到组合特征。前三个特征值的累积贡献率达97.86,在去冗余的同时,保留了绝大部分的原始信息。将改进方法应用于脂肪肝超声图像的识别,平均识别率从选用所有特征的75.63提高到了88.99。  相似文献   

4.
在人脸识别中,基于PCA和粗糙集的联合自寻优特征选择算法首先利用PCA对人脸图像进行人脸特征的提取和约简,在此基础上利用粗糙集的自寻优约简方法进一步得到能充分体现人脸信息的最小人脸特征集合。实验证明此算法应用于人脸识别中不仅大大减少了特征的数量以及分类过程中的运算量,还有效的提高了人脸识别的正确率和减少了识别时间,并且对于一定范围内的不同取样的训练具有一定的稳定性。  相似文献   

5.
基于传统信息增益特征选择算法,通过提出类内分散度与类间集中度的概念,结合传统信息增益算法,解决了信息增益算法因忽略特征项的分布而导致的性能下降问题,提高了信息增益算法的效率.使用改进的特征选择算法进行垃圾邮件过滤实验,在不同的分类器下,与传统的特征选择算法进行对比,实验结果表明,改进的特征选择算法性能较优.  相似文献   

6.
地基云图自动分类识别对于天气现象的诊断和预报具有重要意义。以地基云图为研究目标,首先在提取云图灰度共生矩阵和Gabor变换特征的基础上计算云图的多纹理组合特征,然后采用主成分分析法对组合特征进行数据降维,获取最终鉴别特征。通过对积雨云,高积云和层积云三类地基云图进行分类识别的实验结果表明,该方法可以同时提高云图分类的精度和效率。  相似文献   

7.
以肿瘤基因表达谱指导肿瘤的分类是目前机器学习领域的一个研究热点.对多类别肿瘤分类中的关键问题——特征基因选择方法进行了研究,提出了混合式特征基因选择策略.该策略首先利用7种特征选择算法提取与分类高度相关的基因,随后采用SSiCP算法消除冗余基因.实验是在肺癌的多类别基因表达谱数据集上完成的.实验比较了7种特征选择算法的性能,发现CFS算法加SSiCP算法的混合式基因选择策略可以获得数量较少的特征基因集,在训练集和独立测试集均有较高的准确度.所获得的最精简基因集中的部分基因据文献报道与肺癌的发生发展密切相关.实验结果证实了混合式特征基因选择策略的有效性.  相似文献   

8.
复杂疾病一般由多个基因共同作用发生,单个基因的效应微小,为了更好地研究基因互作对复杂疾病的影响,提出了一种基于基因的信息增益模型。信息增益在分类系统中指变量为分类带来信息的多少,带来的信息越多,该变量对分类越重要。该模型从一个整体基因的所有单核苷酸多态性位点(single nucleotide polymorphism,SNP)出发,采用病例-对照数据来检测基因互作对疾病的影响。由于基因是功能表达的最小单位,与基于SNP的交互作用分析方法相比,该模型更能从生物学的角度解释疾病的遗传机制。最后,采用模拟数据和类风湿性关节炎疾病的真实数据进行实验,并与基于SNP的熵模型以及基于基因的核典型相关分析模型(kernel canonical corelation based U statistic,KCCU)两种模型比较,结果均验证了该模型的有效性。  相似文献   

9.
应用特征项分布信息的信息增益改进方法研究   总被引:3,自引:0,他引:3  
在特征项分布不平衡的情况下,传统信息增益算法的分类性能会急剧下降,针对此缺陷提出了一种利用特征项分布信息来改进信息增益公式的计算方法。通过计算特征项分布信息来判定特征项是否存在不平衡性,并利用此信息来平衡特征项不出现时对分类精度的影响。通过实验验证,改进后的计算方法整体上比传统的信息增益算法具有更好的性能。  相似文献   

10.
为文本情感分类提出一种改进的机器学习算法。在分析当前主要文本特征选择方法后,把词频和词语情感表现程度融入到信息增益特征选择方法中,从全局和局部2个方面进行特征权重衡量,使用特征空间向量模型对文本进行统一表示,然后利用SVM算法进行训练学习。通过实验发现该算法的查准率和查全率比传统的机器学习算法有所提高,并且得到的分类器具有较好的泛化能力。  相似文献   

11.
通过研究特征变量与类变量的信息测度和特征子集与类变量之间信息测度计算方法,实现快速的特征选择。将基于扩展熵的信息损失量测度用于度量类变量之间的相关性。为避免计算联合互信息的复杂计算,提出了基于信息损失量的变量相关度增加量计算方法,在保证新增特征可提供更多信息量前提下,同时提高特征选择的速度。最后对UCI的3种分类数据集进行实例分析,利用支持向量机对选择的特征子集进行分类验证,并将分类结果与其它常用特征选择方法进行了比较。结果表明所提出的特征选择方法比现有的特征选择方法更有效。  相似文献   

12.
根据排序问题的单调先验知识,无监督学习问题中的观测属性之间也具备单调关系;否则该属性与排序无关,为冗余属性.基于排序互信息反应的两属性之间的单调关系,提出用每个属性与其他属性之间的平均互信息,来衡量每个属性与排序学习的相关程度,具有最高的平均互信息即为排序最相关的属性.  相似文献   

13.
针对高维小样本大噪声的基因芯片数据,提出一种基于主元分析与k-近邻距离的特征基因选择与去噪方法.首先利用主元分析法获取低维投影空间中的模式特征,依据各个基因贡献率大小排序,选择贡献率大的基因为特征基因,进而利用k-近邻距离来消除野值噪声以获得稳定高效的分类精度.实验结果表明:提出的特征基因选择与去噪方法,使得特征基因分类精度更高、性能更稳定.  相似文献   

14.
针对目前大规模基因数据集中存在大量的噪声和冗余基因这一问题,提出了一种基于置换检验的两步基因特征选择算法。该算法首先采用方差分析过滤噪声基因,然后采用相关系数过滤冗余基因,最后结合置换检验的方法,可以高效、自主地处理大规模基因数据集。采用PAM(prediction analysis for microarrays)分类器,在RSCTC 2010 Discovery Challenge提供的12个竞赛数据集作基因特征选择与分类实验,实验结果表明,提出的算法能够选择高分辨、低冗余的基因子集,与目前其他基因特征选择算法相比,可以提高分类器性能。  相似文献   

15.
文本分类中的类别信息特征选择方法   总被引:3,自引:0,他引:3  
随着网上电子文档的急剧增长,文本分类技术在信息检索中的应用变得日益重要.特征维数增加会使样本统计特性的评估变得更加困难,从而降低分类嚣的泛化能力,出现“过学习”的现象.因此,文档特征的选择和提取是文本分类的必要前提.提出一种基于类别信息的特征选择方法,谊方法在尽量保留文档信息的同时,考虑了文档的类别信息.实验表明,这种方法的分类性能比较好,特别是在微平均指标上,与OCFS以及卡方统计量相比有较大幅度的提高.  相似文献   

16.
人脸识别领域中常用Gabor小波系数表示人脸特征.然而,提取的人脸Gabor特征是高维数据,不可避免存在冗余和随机噪声的干扰.为了有效利用Gabor特征进行人脸识别,提出一种新的Gabor特征选取方法.首先计算训练集上的任两张人脸图像的Gabor特征差,生成类内空阃和类外空间.用单个Gabor特征训练筒单两值分类器,以其在类内空间和类外空间的分类错误率作为判据评价该Gabor特征的分类能力.在选取分类错误低的特征的同时还要再评估候选特征与已选特征间的互信息,这样优选出具有无冗余、低误差率的特征.最后对这些优选的Gabor特征进行主成分分析和线性判别分析完成人脸识别.在CAS-PEAL大型人脸数据库上的实验结果表明,所提出的方法不但可大大降低Gabor特征的维数,而且还有效提高了识别精度.  相似文献   

17.
在基于LDA的短文本分类基础上进行改进,提出信息增益结合LDA的短文本分类方法.该方法采用信息增益计算词汇对于文本分类的贡献度,提高"作用词"的权重,过滤掉"非作用词",最后对过滤后的短文本进行LDA主题建模,并采用中心向量法建立文本类别模型.实验证明,该方法随着作用词比例的减少,分类性能有较大的提高.  相似文献   

18.
在基于LDA的短文本分类基础上进行改进,提出信息增益结合LDA的短文本分类方法.该方法采用信息增益计算词汇对于文本分类的贡献度,提高"作用词"的权重,过滤掉"非作用词",最后对过滤后的短文本进行LDA主题建模,并采用中心向量法建立文本类别模型.实验证明,该方法随着作用词比例的减少,分类性能有较大的提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号