首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
特征选择是机器学习领域中的基本问题之一,在大规模数据处理中至关重要.目前大多数特征选择方法以单一值作为特征的分类能力评价标准,本文提出基于子类问题分类能力的特征选择方法,该方法用特征对各子类问题的分类能力及其加权平均值来度量特征的分类能力,既能保证总分类能力强的特征被选择,也能保证对子类问题分类能力强但总分类能力不强的特征被选择.将该方法与已有的3个特征选择方法在4个公开的基因表达数据集上进行比较,结果表明该方法是有效的,且可以提高分类预测准确率.  相似文献   

2.
在自动文本分类系统中,特征选择是有效降低文本向量维数的一种方法.在分析常用的一些特征选择的评价函数的基础上,提出了一种新的特征选择方法.在标准中文网页数据集上的分类实验表明,该方法提高了文本分类的准确率.  相似文献   

3.
文档分类之特征选择方法的实验比较   总被引:2,自引:1,他引:1  
在自动化信息处理中,由于大量信息是基于文字表达的,使得文本分类成为其核心任务之一.其中,相比较其他分类算法,基于类中心的文档分类方法凭借其极高的效率和较好的性能得到了更广泛的应用.然而,该分类方法的性能很大程度上取决于文本的特征空间表示.在此将4种较大差异的特征选择方法作为预处理方法,构造适合类中心点分类的特征空间,对它们的性能进行分析.实验表明,基于支持向量机的特征选择方法不仅有较好的最低错误率,并且对选择的特征数目不敏感,因此我们推荐在实际应用中使用基于支持向量机的特征选择方法作为基于类中心的文档分类算法的预处理.  相似文献   

4.
在肿瘤特征基因选择过程中,传统分类方法会选出大量冗余基因,而大量冗余基因会造成分类精度低和时间复杂度较高等问题,为了解决上述问题,提出一种结合信噪比过滤法与随机森林算法的肿瘤特征基因选择方法.该方法包含两个过程:首先使用信噪比过滤法剔除原始特征空间中的无关和冗余基因,从而获得与分类属性相关性较高的基因,选择出分类能力较强的预选特征子集;其次使用随机森林算法对特征基因子集进行分类,最终获得分类结果.实验结果显示,该算法可以快速有效地选择出肿瘤特征基因,并具有较高的分类精度.  相似文献   

5.
基于特征贡献度的特征选择方法在文本分类中应用   总被引:1,自引:0,他引:1  
在目前的文本分类问题中,特征选择方法被认为是提高分类精度和效率的一种有效方法.提出了一种基于特征贡献度FCD(feature contribution degree)的特征选择方法,本方法将某个特征对于类别之间区分能力的贡献度大小作为该特征被选取的条件,特征对于某一类别的FCD值为特征在该类中出现的文档数与在所有类别中出现的文档数的比值.对该方法进行了实验,并与一些常用的特征选择方法进行了比较,实验结果表明该方法具有更好的分类效果.  相似文献   

6.
一种改进的特征选择方法在文本分类系统中的应用   总被引:1,自引:0,他引:1  
在介绍文本分类的背景及传统基于向量空间模型特征选择不足之处的同时,提出了不同特征选择方法相结合的文本分类模型.该模型首先对文本进行分析,把文本表示成向量空间的形式.文本在经过预处理后,按一定规则提取关键词的提取中增加了对名词短语的识别.特征选择的方法上,结合了文档频数和互信息量,并对他们进行了改进.实验结果表明,使用新方法进行分类所得到的分类精度得到了一定的提高.关键词,  相似文献   

7.
一种基于朴素贝叶斯分类的特征选择方法   总被引:11,自引:0,他引:11  
由于朴素贝叶斯文本分类中的独立假设前提,使得在特征选择步骤能否准确有效地选出能代表文本的特征显得尤为重要,而特征选择标准中的MI标准与TFIDF标准其优缺正好互补,因此在用朴素贝叶斯文本分类方法中的多项式模型实现了一个web页面分类系统-WEBCAT的基础上,提出将MI标准与TFIDF标准结合进行特征选择.实验显示:用改进的方法可以更准确地选出能代表文本的特征,文本分类结果也比单独使用TFIDF标准或单独使用MI标准进行特征选择的分类结果更加精确.  相似文献   

8.
针对目前特征选择算法应用于数据分类精度不理想的问题, 提出一种基于最大相关最小冗余的特征选择算法, 该算法结合特征选择算法和聚类分析算法对特征进行处理, 将分类中冗余的特征去除. 利用支持向量机对一组心脏病患者实际测量得到的数据进行分类实验, 实验结果表明, 该方法可有效筛选影响分类的特征, 进而提高分类准确率.  相似文献   

9.
针对传统信息增益(IG)特征选择算法忽略词频分布的缺陷,该文提出一种新的IG特征选择算法.该算法通过引入均衡比和类内词频位置参数,解决了传统IG算法忽略词频分布对分类的弱化问题,修正传统类内词频位置参数,提高特征选择算法的文本分类精度,并将该改进IG特征选择算法用于最大熵模型(ME)对文本进行分类.实验结果表明:该文所提方法在进行文本分类时F1值高于传统IG算法.该文方法的ME分类精度高于K最近邻KNN(K-Nearest Neighbor)算法,说明本文方法是可行的、有效的.  相似文献   

10.
提出一种基于子问题分类能力的特征选择算法,利用互信息度量特征对子问题的分类能力,根据特征的判别结构互补确定目标特征子集.该算法既会选择总分类能力强的特征,也会选择子问题分类能力强的特征.将该算法与已有的6个特征选择算法在6个公开的数据集上进行比较实验,结果表明,所提算法的性能优于其他特征选择算法.  相似文献   

11.
针对多尺度目标检测中特征图特征混淆和特征丰富程度不足的问题,提出一种基于多尺度特征选择与融合的目标检测算法。设计了一个特征选择模块来分离出不相关的特征,并结合特征金字塔网络形成特征选择网络结构,降低特征图中不同尺度目标的局部特征对当前尺度特征的干扰;提出一种浅层特征融合方法,将浅层特征逐级融合到较深层级特征中,解决特征图的特征不够丰富问题。结合特征选择架构和浅层特征融合架构,在PASCAL-VOC2007数据集上进行测试,结果mAP达到了80.1%。相较于基础的单阶段目标检测(single shot detection, SSD),所提算法的网络性能可提高2.9%,且在一些小目标和遮挡目标的检测效果上有明显的提升。通过对比和消融实验,证明了所提方法的有效性。  相似文献   

12.
文本特征选择是自然语言处理中的关键问题。针对文本特征的高维性和稀疏性问题,在过滤式特征选择算法文档-逆文档评率(term frequency-inverse document frequency, TF-IDF)的基础上,提出了用遗传算法对文本特征进行优化选择,使其最大程度地贴合后续的文本分类算法,在保证文本分类精确度的同时,降低特征维度以缩减预测时间。实验显示,该算法与单一的过滤式文本特征选择算法相比,能够有效减少所选文本特征数量(即降低特征维度),能有效提高文本的分类能力。  相似文献   

13.
为了提高模糊粗糙集特征选择算法的计算效率,在每次迭代过程中通过不断缩减样本和特征的搜索范围,提出了一种新的模糊粗糙集特征选择算法.为了减少样本的搜索范围,利用样本对决策类下近似隶属度的单调性,构建样本的筛选机制,用以筛除当前所选特征子集已保持决策类下近似隶属度的样本;为了缩减特征的搜索范围,采用特征冗余性概念,构建特征搜索机制,用以移除已被确定为冗余的特征;通过融合样本筛选机制和特征搜索准则,设计模糊粗糙集特征选择的高效算法.数值实验表明,所提算法具有高效性和有效性.  相似文献   

14.
多标签特征选择能够有效去除冗余特征并提升分类精度, 是解决"维数灾难"问题的有效方法. 然而, 已有的多标签特征选择算法是对所有标签选择出相同的特征, 忽略了标签与特征之间的内在联系. 事实上, 每个标签都具有反映该标签特有属性的特征, 即类属特征. 提出一种基于图拉普拉斯的多标签类属特征选择(multi-label label-specific feature selection based on graph Laplacian, LSGL)算法. 对于每个类别标签, 基于拉普拉斯映射获得数据的低维嵌入, 再通过稀疏正则化获得数据空间到嵌入空间的投影矩阵, 接着通过分析矩阵系数确定每个标签相应的类属特征, 最后使用类属特征进行分类. 在 5 个公共多标签数据集上的多标签特征选择与分类实验结果证明了所提算法的有效性.  相似文献   

15.
A New Approach of Feature Selection for Text Categorization   总被引:1,自引:0,他引:1  
This paper proposes a new approach of feature selection based on the independent measure between features for text categorization. A fundamental hypothesis that occurrence of the terms in documents is independent of each other, widely used in the probabilistic models for text categorization (TC), is discussed. However, the basic hypothesis is incom plete for independence of feature set. From the view of feature selection, a new independent measure between features is designed, by which a feature selection algorithm is given to ob rain a feature subset. The selected subset is high in relevance with category and strong in independence between features, satisfies the basic hypothesis at maximum degree. Compared with other traditional feature selection method in TC (which is only taken into the relevance account), the performance of feature subset selected by our method is prior to others with experiments on the benchmark dataset of 20 Newsgroups.  相似文献   

16.
特征选择作为模式识别领域的研究热点,是一种重要的降维方法.对于连续型特征,目前主要采用离散化方法或特征分类能力的"相关性"评估进行特征选择.引入区间数相似度的概念,提出一种连续型特征选择方法.该方法以区间数相似度为基础,定义每个特征的属性相似度,以此作为特征选择的启发信息,对特征全集进行排序,选择特征子集,实现特征选择.相关实验表明了该方法的有效性.  相似文献   

17.
基于免疫克隆选择算法的特征选择   总被引:12,自引:0,他引:12  
提出了一种基于免疫克隆选择算法的特征选择方法.特征选择可以被看成是一个组合优化问题,利用免疫克隆选择算法快速收敛于全局最优的特性,加快搜索到最优特征子集的速度,为后续模式分类提供良好的判别依据.实验结果表明算法在保持甚至提高分类精度的同时,有效地降低了特征维数.与基于遗传算法特征选择的结果相比较,在有限代数内,该算法能收敛到更优的特征子集,从而验证了算法的有效性及其应用潜力.  相似文献   

18.
针对现有大多数多标签特征选择算法未能有效去除特征空间冗余特征,同时也忽略了标签差异性的现状,提出一种基于相关性分析的多标签特征选择方法,利用特征之间的相关度对特征进行分组,解决了特征之间的相关性问题.根据样本所对应的标签属性对样本做一个正负类的聚类,对于正样本和负样本所构成的正类簇和负类簇单独确定其聚类个数,并计算原特征到正负类簇中各个类中心的距离,如此便产生了标签特定特征空间;将标签共享的特征空间和标签特定特征空间融合,考虑到多个标签之间的个性和关联性,解决了标签的差异性问题.实验测试表明,相较于现有的多标签特征选择算法,提出的基于相关性分析的多标签特征选择方法在各个分类指标上均有较优的表现,充分证明了该方法的有效性.  相似文献   

19.
为了解决机械故障诊断中的特征选择问题,利用免疫克隆选择算法,提出了一种结合交叠区异点统计和相关性分析的免疫克隆特征选择方法,可有效地去除不相关特征和冗余特征.基于空间分布的交叠区异点,设计了交叠区异点统计的优化指标;基于J散度距离,设计了一种冗余特征的评估指标;基于免疫克隆选择算法,结合交叠区异点统计优化指标和冗余特征评估指标,提出了一种免疫克隆特征选择新算法.仿真和实际工程应用的结果表明:文中提出的方法比常用的特征选择方法更加有效,选出的特征分类精度更高,特征子集更小,更能满足故障诊断的需求.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号