首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
KNN文本分类算法中的特征选取方法研究   总被引:1,自引:0,他引:1  
曹勇  吴顺祥 《科技信息》2006,(12):26-28
对基于中文的文本分类过程进行了介绍,重点介绍了文本分类中几种特征选取的方法,详细介绍了KNN分类算法,最后介绍了文本分类的评估方法并通过实验测试对比了几种特征选择的方法在基于KNN技术的文本分类中的使用效果.  相似文献   

2.
数据降维可降低分析处理多维数据的复杂度和成本.特征选择是常见的数据降维方法.传统的特征选择算法更多关注算法的分类性能,忽略了对选择过程中产生的测试代价(Cost-test)的考虑.基于此提出一种新的基于非负分解的代价敏感特征选择方法(NmfCt).NmfCt算法构造的目标函数能够同时约束重建误差最小和测试代价最小,在对数据进行预处理降维的同时,不但能确保较好的分类正确率(Accuracy),而且还能保持较低的测试代价.  相似文献   

3.
以肿瘤基因表达谱指导肿瘤的分类是目前机器学习领域的一个研究热点.对多类别肿瘤分类中的关键问题——特征基因选择方法进行了研究,提出了混合式特征基因选择策略.该策略首先利用7种特征选择算法提取与分类高度相关的基因,随后采用SSiCP算法消除冗余基因.实验是在肺癌的多类别基因表达谱数据集上完成的.实验比较了7种特征选择算法的性能,发现CFS算法加SSiCP算法的混合式基因选择策略可以获得数量较少的特征基因集,在训练集和独立测试集均有较高的准确度.所获得的最精简基因集中的部分基因据文献报道与肺癌的发生发展密切相关.实验结果证实了混合式特征基因选择策略的有效性.  相似文献   

4.
用于文本挖掘的特征选择方法TFIDF及其改进   总被引:11,自引:0,他引:11  
文章使用TFIDF特征选择方法对数据源进行预处理,建立了空间矢量模型,为文本分类提供了便利的数据结构.通过分类结果测试该特征选择方法的精确度.根据实验结果分析TFIDF的优缺点,并提出改进的方法.  相似文献   

5.
文本分类特征选择是文本自动分类中首先要解决的重要问题。主要介绍了11种文本分类特征选择的方法,并选择其中的4种进行实验分析。实验结果说明:好的特征选择,对于提高文本分类的效率和效果至关重要。  相似文献   

6.
采用朴素贝叶斯分类器进行文本分类时,特征选择方法的好坏直接影响到分类器的性能.本文提出一种最大判别(MD)特征选择算法,由训练得到N个类的概率分布后,通过对样本进行测试并得到其特征向量d中每个特征词区分类别的能力,并构造出了一个新的特征向量ε用于分类,使得从中选取的部分特征词具有最大的类别区分能力.仿真结果表明,与cMFD,CSFS和CMFS三种特征选择算法相比,MD特征选择算法能在选取较少特征词情况下,获得更高的分类精度.  相似文献   

7.
基于特征贡献度的特征选择方法在文本分类中应用   总被引:1,自引:0,他引:1  
在目前的文本分类问题中,特征选择方法被认为是提高分类精度和效率的一种有效方法.提出了一种基于特征贡献度FCD(feature contribution degree)的特征选择方法,本方法将某个特征对于类别之间区分能力的贡献度大小作为该特征被选取的条件,特征对于某一类别的FCD值为特征在该类中出现的文档数与在所有类别中出现的文档数的比值.对该方法进行了实验,并与一些常用的特征选择方法进行了比较,实验结果表明该方法具有更好的分类效果.  相似文献   

8.
采用颜色纹理及光谱特征的木材树种分类识别   总被引:2,自引:0,他引:2  
针对木材分类特征的繁多,同科属木材种间差异小,单纯依靠一种特征分类易误识等特点,提出了一种基于模糊BP综合神经网络的新型木材树种分类识别方法.该方法使用分类特征的模糊化处理,充分考虑木材的分类特征本身存在的不确定性;同时使用一种特征级数据融合方法,该综合神经网络包括颜色特征、主要和次要纹理特征和光谱特征4个BP子网络;并用散度进行光谱特征波段的特征选择,还运用遗传算法对网络结构进行优化处理,提高了该综合神经网络的收敛性和稳定性.实验时针对东北地区常见的5种树种(白松、樟子松、落叶松、杨木和桦木)木材进行分类测试,实验结果表明,5种树种木材的混合识别率达到89%,具有较好的分类识别精度.  相似文献   

9.
人脸识别中一种新的Gabor特征提取方法   总被引:3,自引:3,他引:3  
为了有效利用Gabor特征进行人脸识别,提出一种新的Gabor特征提取方法.首先利用类别可分离性判据评价Gabor展开系数的分类能力,选择最有利于识别的Gabor展开系数构造新的Gabor特征、然后对人脸不同局部位置处采样点的分类能力进行评价,选择分类能力最强的位置提取特征点、最后就新的Gabor特征对光照和表情变化的适应性进行测试.实验结果表明,新的特征提取方法能够在小样本条件下有效提高识别率,减少特征数量,并对环境变化具有一定的适应能力.  相似文献   

10.
在自动文本分类系统中,特征选择是有效降低文本向量维数的一种方法.在分析常用的一些特征选择的评价函数的基础上,提出了一种新的特征选择方法.在标准中文网页数据集上的分类实验表明,该方法提高了文本分类的准确率.  相似文献   

11.
DNA序列特征提取方法研究   总被引:3,自引:0,他引:3  
针对DNA序列分类问题提出了两种特征提取方法,利用可分支持向量分类机间隔大、推广能力强的原理建立了DNA序列特征提取方法优劣的评价标准,利用该标准把本文的两种特征提取方法进行了比较,且跟以往的DNA序列特征提取方法进行了比较.实验表明,提出的两种特征方法得到的DNA序列特征完全能够代表DNA序列,对已知分类样本的预测率为100%,且此特征提取方法有很强的推广能力.  相似文献   

12.
特征选择作为模式识别领域的研究热点,是一种重要的降维方法.对于连续型特征,目前主要采用离散化方法或特征分类能力的"相关性"评估进行特征选择.引入区间数相似度的概念,提出一种连续型特征选择方法.该方法以区间数相似度为基础,定义每个特征的属性相似度,以此作为特征选择的启发信息,对特征全集进行排序,选择特征子集,实现特征选择.相关实验表明了该方法的有效性.  相似文献   

13.
本文在仔细分析特征选择思想的基础上,将特征选择过程嵌入到学习机里面,提出了一种基于改进支持向量机的特征选择算法(Feature selection via Modified Support Vector Machines),该方法通过对特征的权重进行排序来实现特征选择.利用可以将特征选择过程和学习过程有机地统一起来,实验表明,与其它方法比较,该方法能够达到比较好的效果.  相似文献   

14.
关于文本特征抽取新方法的研究   总被引:57,自引:1,他引:56  
该文研究了已有和最新的各种基于评估函数的特征筛选方法 ,评价了它们的优缺点和适用范围 ,并实现了一种用评估函数代替 TFIDF法中 IDF函数进行分类的新算法。然后进一步从如何放宽特征独立性假设 ,利用等级关系的角度探讨了对特征筛选可能的改善  相似文献   

15.
特性选择是文本分类、机器学习以及模式识别领域的重要问题之一.特征选择能在保证数据完整性的情况下减少高维数据的特征维数,同时提高分类的精度.以往提出的基于同义词词林的特征选择方法虽然能有效避免提取出的特征值在概念上的重复性,但并未考虑到权值最优的特征向量构成的子集可能并非是最优的.为了解决此问题,结合同义词和遗传算法,提出了一种新的基于同义词词林的文本特征选择方法.该方法首先对特征词进行同义词过滤、合并,在降低特征向量维度的同时避免了同义词带来的影响.然后采用改进的遗传算法选出具有较好适应度值的特征向量.实验结果表明,这种方法较之以往提出的方法,在保证特征选择准确率的基础上能明显地减小特征向量的维度.  相似文献   

16.
通过研究特征变量与类变量的信息测度和特征子集与类变量之间信息测度计算方法,实现快速的特征选择。将基于扩展熵的信息损失量测度用于度量类变量之间的相关性。为避免计算联合互信息的复杂计算,提出了基于信息损失量的变量相关度增加量计算方法,在保证新增特征可提供更多信息量前提下,同时提高特征选择的速度。最后对UCI的3种分类数据集进行实例分析,利用支持向量机对选择的特征子集进行分类验证,并将分类结果与其它常用特征选择方法进行了比较。结果表明所提出的特征选择方法比现有的特征选择方法更有效。  相似文献   

17.
魏海平 《科学技术与工程》2012,12(12):3002-3004
随着Internet技术的飞速发展,网页上存在着各种各样、类目繁多的信息,因此网页分类技术就显得越来越有意义。本文使用向量空间模型(VSM)来表示网页文本,提出了一种改进X2的文本特征选择方法,最后通过支持向量机方法进行分类。实验结果表明,相对于传统的X2文本分类统计方法,改进后的特征选择方法的分类效果要好于传统的X2统计方法。  相似文献   

18.
文本聚类的关键是对高维的特征集进行降维.本文对常用的一些特征选择、特征抽取等主流特征降维方法进行了介绍,分析了它们各自的特点及其适用范围.  相似文献   

19.
在基于惯性传感器人体行为识别的研究中,特征选择的作用是挑选相关特征,以提高分类性能,去除冗余特征以降低计算复杂度。针对传统的过滤式特征选择方法仅使用一种相关度量系数筛选特征效果不佳的问题,提出一种改进的基于最大相关与最小冗余(mRmR)准则的特征选择方法。该方法在基于mRmR准则下,采用多种相关度量系数融合的方式,在考虑分类类别的条件下,分析待挑选特征与已选特征间的相关性对特征筛选可能产生的积极影响,以去除部分冗余、不相关特征,进而得到初选特征子集;然后利用二进制数对筛选后的特征编码,通过遗传算法搜索最优或次优特征子集。分别使用SVM和KNN分类器对7种日常行为进行分类。实验结果表明,与其他几种方法相比,该方法对实验分类的7种行为有最高的总体平均识别精度,通过SVM和KNN分类的各行为总体平均识别精度分别达到了97.02%和95.73%,与传统的mRmR方法相比,分别提高了13.72%和9.92%。  相似文献   

20.
集成学习中特征选择技术   总被引:1,自引:0,他引:1  
集成学习和特征选择是当前机器学习领域中的研究热点.集成学习通过重复采样可产生个体学习器之间差异度,从而提高个体学习器的泛化能力,特征选择应用到集成学习可进一步提高集成学习技术的效果,该研究有3个方面:数据子集的特征选择、个体学习器的选择和多任务学习.该文对近几年集成学习中特征选择技术的研究进行回顾,尤其对以上3个方面的研究分别进行总结,提出一些共性的技术指导以后的研究.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号