首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 149 毫秒
1.
为解决多类分类问题,在分析SVM决策树分类器及存在问题的基础上,通过引入类间可分离性测度,并将其扩展到核空间,提出一种改进的SVM决策树分类器。实验表明了该分类算法对提高分类正确率的有效性。  相似文献   

2.
一种新的 SVM 决策树   总被引:3,自引:0,他引:3       下载免费PDF全文
SVM在小训练样本、高维情况下具有很好的泛化性能,但它不适用于多类分类.本文分析基本的SVM和多类SVM分类器,重点讨论了SVM决策树,提出了一种结点分类器类集合划分方案来构造SVM决策树.实验结果表明,以这种方法构造的SVM决策树分类器分类性能较好.  相似文献   

3.
多类分类问题是我们经常遇到的问题,常用的方法是将多类问题转化为若干个二类问题,然后利用二类支持向量机(support vector machine,SVM)进行分类,如一对余SVM,一对一SVM,决策树SVM等.在这些方法中,大都没有考虑所生成的多个分类器之间的可靠性和重要性问题.为了改进这一点,本文以一对余SVM为例,提出了两种基于可靠性测度的多类分类算法,算法的思想可用于一对一SVM,决策树SVM等其他多种分类器中.为了检验所提算法的有效性,本文进行了比较试验,实验结果表明所提算法不仅提高了分类准确度,而且具有更为广泛的推广能力.  相似文献   

4.
基于随机森林的文本分类模型研究   总被引:1,自引:1,他引:1  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造. 当森林中决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reuter21578数据集上的实验表明,分类效果比较好,性能比较稳定,将其同C4.5, KNN, SM0, SVM 4种典型的文本分类器进行了比较,结果显示它的分类性能胜于C4.5,同KNN, SMO和SVM方法相当.  相似文献   

5.
为了提升传统随机森林算法的分类精度,本文首先对传统随机森林模型中的决策树根据分类性能评价指标AUC值进行降序排列,从中选取出AUC值高的决策树,计算这些决策树之间的相似度并生成相似度矩阵,然后根据相似度矩阵对这些决策树进行聚类,从每一类中选出一棵AUC最大的决策树组成新的随机森林模型,从而达到提升传统随机森林算法分类精度的目的。通过UCI数据集的实验表明,改进后的随机森林算法分类精度上最大提高了2.91%。  相似文献   

6.
本文提出了基于分离程度的SVM决策树的焊缝缺陷分类识别方法。首先对X射线焊缝图像进行缺陷特征提取,然后结合聚类的思想,定义了分离程度,每次将分离程度最大的缺陷类分离出来,成功解决了传统欧氏距离不能处理的类交叉分类情况,得到了累积误差更小的决策树。将基于分离程度的二叉树的多类SVM算法运用于X射线焊接缺陷图像的分类识别,通过计算机仿真,表明该方法比其它SVM多分类算法在分类精度和识别效果方面有明显的提高。  相似文献   

7.
为了提升传统随机森林算法的分类精度,首先对传统随机森林模型中的决策树根据分类性能评价指标AUC(area under curve)值进行降序排列,从中选取出AUC值高的决策树,计算这些决策树之间的相似度,并生成相似度矩阵;然后根据相似度矩阵对这些决策树进行聚类。从每一类中选出一棵AUC最大的决策树组成新的随机森林模型,从而达到提升传统随机森林算法分类精度的目的。通过UCI(university of Californialrvine)数据集的实验表明,改进后的随机森林算法在分类精度上最大提高了2.91%。  相似文献   

8.
为使支持向量机(SVM)更加适用于在线文本分类应用,利用SVM在小训练样本集条件下仍有高泛化能力的特性,结合文本特征向量在特征空间中具有聚类性的特点,提出一种用语义中心集代替原训练样本集作为训练样本和支持向量的SVM语义SVM.文中给出了语义中心集的生成步骤、语义SVM的在线学习算法框架,以及基于SMO算法的在线学习算法的实现.实验结果表明,相对于标准SVM,语义SVM及其在线学习算法不仅在线学习速度和分类速度有数量级提高,而且在分类准确率方面具有一定优势.  相似文献   

9.
基于FOA-SVM的中文文本分类方法研究   总被引:2,自引:0,他引:2  
中文文本分类方法直接影响分类性能,支持向量机(SVM)在处理文本分类这种高维问题上有明显的优势.SVM的分类精度取决于核函数的核参数和惩罚参数,本文提出了一种用果蝇优化算法(FOA)获取SVM参数的FOA-SVM方法.将FOA-SVM用于中文文本分类,实验结果表明,FOA-SVM能得到较高的分类准确率,在文本分类上表现较强的鲁棒性.  相似文献   

10.
朴素贝叶斯算法和SVM算法在Web文本分类中的效率分析   总被引:3,自引:0,他引:3  
为分析对比朴素贝叶斯算法和SVM算法在Web文本分类中的效率及其适用的范围,构建了一个Web分类系统,此分类系统将已分类的Web网页作为训练集,利用分类算法构建Web分类器,通过Web测试集评价两类算法在Web文本分类中的性能体现,为Web文本分类算法选择提供一定的参考依据.  相似文献   

11.
基于基尼的模糊kNN分类器   总被引:2,自引:0,他引:2  
随着网络的发展,大量的文档涌现在网上,自动文本分类成为处理海量数据的关键技术。在众多的文本分类算法中,kNN算法被证明是最好的文本分类算法之一。对于大多数文本分类来说,文本预处理是文本分类的瓶颈,文本预处理的好坏直接影响着分类的性能。在此介绍了一种新的文本预处理算法——基于基尼的文本预处理算法。同时采用模糊集理论改进kNN的决策规则。这两者的结合使得模糊kNN比传统的kNN表现出更好的分类性能。实验结果证明这种改进是有效的,可行的。  相似文献   

12.
根据词条聚合和决策树原理,提出了一种文本分类的新方法.决策树分类方法具有出色的数据分析效率和容易抽取易于理解的分类规则等优势,但只能应用于维数较低的特征空间.本方法将与各个类别相关程度相似的词条聚合为一个特征,有效地降低了向量空间的维数,然后再使用决策树进行分类,从而既保证了分类精度又获得了决策树易于抽取分类规则的优势.  相似文献   

13.
针对传统SVM无法适应文本数据库随着时间不断更新的问题,通过对新增文本集的KKT条件的分析,研究了加入新增文本集后支持向量集的变化,提出了使用增量SVM进行文本分类的算法,并通过实验验证了通过该算法得到的分类器和传统分类器有着相似的分类能力和泛化能力.  相似文献   

14.
为了提高文本标记和分类的效率,提出了基于概念语义相关性和LDA的文本自动标记算法(Text Mark Label,TML),用以代替人工标记的文本分类标记. 该算法在概念语义相关性计算的基础上,使用LDA(Latent Dirichlet Allocation)提取文本的主题表示,通过计算文本主题从属于各分类目录的期望从而实现文本自动标记. 为验证TML算法的效果,在标准文本分类数据集上使用文本分类器进行有监督文本分类实验. 为对比数据集和分类器对分类效果的影响,在3个数据集(WebKB、Reuters-21578、20-NewsGroup)上分别使用3种不同的分类器(Rocchio、KNN、SVM)进行实验. 实验结果表明:TML算法有效地提高了文本分类效率及文本标记效率.  相似文献   

15.
基于最大熵模型的文本分类算法对不同测试文档的训练结果相差较大.利用Boosting机制改进基于最大熵模型的分类算法,以提高该分类算法的稳定性.实验结果表明,该改进方法可以有效改善基于最大熵模型分类算法的稳定性,且分类精度也有一定的提高.  相似文献   

16.
针对WWW的HTML结构,采用TFE表示,给出一种新的TFE实现方法,在此基础上,探讨了基于向量空间模型的词元权重函数的构造方法,描述了权重函数,研究了先前比较典型权重函数,把整个文档作为一个空间,提出一种更有效的文本权重调整方法,试验结果表明,该算法对文本分类的准确率有明显提高。  相似文献   

17.
为了简化计算,提高分类速度,在支持向量机分类基础上,将sigmoid核函数与云模型相结合,提出了一种简单的核函数的实现方法。这种方法不仅提高了SVM文本分类能力,而且明显地减少了平均的CPU执行时间。  相似文献   

18.
基于随机森林的文本分类模型研究   总被引:3,自引:0,他引:3  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造.当森林中的决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reuter21578数据集上的实验表明,分类效果比较好,性能比较稳定,将共同C4.5,KNN,SM0,SVM4种典型的文本分类器进行了比较,结果显示它的分类性能胜于CA.5,同KNN,SMO和SVM方法相当.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号