首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
随着互联网的迅速发展,对网页正确分类显得越来越重要。网页分类的一个难点就是特征空间的维数比较大,支持向量机(SVM)分类方法显示出比其它分类方法更好的性能,但是训练样本时却花费了比其它算法更多的时间。本文提出了一种基于选择最确信的词来预测一个文本的类别的特征提取方法,通过中文文本实验,结果表明在不降低分类准确性的前提下,缩短了训练时间。  相似文献   

2.
在保证分类性能的前提下,如何从大量的训练样本集合中选择重要样本子集,是模式分类中的一个重要问题.基于该问题提出了一种新的样本选择算法,并将该算法应用于文本分类,在标准文档集Reuters-21578、复旦文档集和20newsGroup新闻组文档集上进行了实验.实验结果表明:该方法能有效地选取边界样本,且采用SVM和KNN分类能得到较好的分类结果,尤其是在不均衡文档集上效果更佳.  相似文献   

3.
由于特征评判在敏感特征提取和支持向量机在小样本学习方面的突出优势,提出了一种基于特征评判与最小二乘支持向量机的混合智能分类模型.该模型对各传统特征指标所组成的联合特征集进行评判,计算评判因子,并根据评判因子的大小选取敏感特征作为最小二乘支持向量机的输入特征,实现对不同类别的自动识别.工程实例表明,该模型具有很强的鲁棒性,能够从大量的特征指标中筛选出有效的敏感特征,准确进行分类.同时,该模型在故障诊断等领域均具有普遍适用性.  相似文献   

4.
一种新的多类SVM方法及其在文本分类中的应用   总被引:2,自引:6,他引:2  
提出一种将SVM扩展到多类文本分类问题的新方法,此方法有增量模式及批模式两种应用途径。其中,批模式提供了一种其他多类SVM替代方法;而增量模式在重复利用原有模型的基础上将新增类别的知识信息以增量方式更新到分类系统,整个分类器不需要全部重新学习,需要的计算量较小。实验表明增量方法大大减少新类增加时分类器更新所需要的学习步骤和时间;两种模式的分类效果与其他方法相当。  相似文献   

5.
为克服传统的模糊支持向量机隶属度函数都是基于样本与类中心距离进行设计所带来的局限性问题,提出了基于样本到超平面距离的新隶属度函数设计方法。该方法从支持向量机的回归本质出发,通过更加合理地设计隶属度函数,提高支持向量机的回归的泛化鲁棒能力。仿真结果证明,该方法具有更好的鲁棒性,提高了模糊支持向量机的泛化能力。  相似文献   

6.
针对基因芯片数据量大、样本数低和基因维数高的特点,提出了一种对基因芯片数据进行多步骤降维处理的分类方法.第一步,采用基因表达差异显著性分析方法(SAM)筛选得到差异表达基因子集.第二步,采用支持向量机(SVM)分类器对该差异表达基因子集进行进一步的分类降维.将该方法用来处理大肠癌和白血病数据集,得到了数量较少而分类能力较强的特征基因子集.实验结果证明该方法可以快速有效地筛选肿瘤特征基因.  相似文献   

7.
样本分类规则提取是基因表达谱数据挖掘工作中的重要内容,提取肿瘤病理组织与正常组织的样本分类规则具有重要的生物学意义与临床诊断价值.针对该问题,基于机器学习与数据挖掘技术,研究了用于区分肿瘤与正常组织样本的分类规则提取问题.首先,利用改进的Relief算法生成候选特征子集,并以支持向量机作为样本分类模型,利用交叉验证方法在训练集上评估候选特征子集的样本分类能力,确定分类特征基因集合;然后,利用CART(classification and regression trees)学习算法构建决策树获得样本分类规则;最后,对所得规则进行了分析和解释.  相似文献   

8.
在属性均值聚类(AMC)与支持向量机(SVM)的基础上,提出了一个新的模式分类算法——基于(属性)聚类的属性支持向量机算法(AMC-ASVM)。主要思想是利用属性均值聚类网络得到的具有概率信息(权重)的样本,来训练属性支持向量机,从而得到分类器。这种方法结合了属性聚类的稳定性与属性支持向量机可以利用加权样本的优点,适合处理具有强噪声的数据。另外,该方法也可以看作是堆近邻分类法的自然推广。在实验部分,将其用于结肠癌基因表达数据的处理。实验结果显示了AMC-ASVM在一定程度上优于最近邻,Boosting,堆近邻,SVM等方法。  相似文献   

9.
以肿瘤基因表达谱指导肿瘤的分类是目前机器学习领域的一个研究热点.对多类别肿瘤分类中的关键问题——特征基因选择方法进行了研究,提出了混合式特征基因选择策略.该策略首先利用7种特征选择算法提取与分类高度相关的基因,随后采用SSiCP算法消除冗余基因.实验是在肺癌的多类别基因表达谱数据集上完成的.实验比较了7种特征选择算法的性能,发现CFS算法加SSiCP算法的混合式基因选择策略可以获得数量较少的特征基因集,在训练集和独立测试集均有较高的准确度.所获得的最精简基因集中的部分基因据文献报道与肺癌的发生发展密切相关.实验结果证实了混合式特征基因选择策略的有效性.  相似文献   

10.
基因表达谱数据分布不平衡、噪声巨大,当用σ值很小的二阶软间隔高斯核支持向量机分类的时候,容易使大多数训练数据被分到占统治地位的类中。因此,B rown等认为,为了分别控制两类错误数,可以在核矩阵K中增加对角矩阵λn+NI。通过选择合适的λ,可以使属于占统治地位的类的样本上产生较小的拉格朗日乘子;而处于次要地位的类的样本上产生较大的拉格朗日乘子。但是,目前没有统一的方法选择λ。因此,提出了一种根据b值确定λ的最优值的方法。实验表明,该方法的分类效果在同等条件下好于传统的方法。  相似文献   

11.
Using gene expression data to discriminate tumor from the normal ones is a powerful method. However, it is sometimes difficult because the gene expression data are in high dimension and the object number of the data sets is very small. The key technique is to find a new gene expression profiling that can provide understanding and insight into tumor related cellular processes. In this paper, we propose a new feature extraction method based on variance to the center of the class and employ the support vector machine to recognize the gene data either normal or tumor. Two tumor data sets are used to demonstrate the effectiveness of our methods. The results show that the performance has been significantly improved.  相似文献   

12.
用于不平衡数据分类的模糊支持向量机算法   总被引:1,自引:0,他引:1  
作为一种有效的机器学习技术,支持向量机已经被成功地应用于各个领域.然而当数据不平衡时,支持向量机会产生次优的分类模型;另一方面,支持向量机算法对数据集中的噪声点和野点非常敏感.为了克服以上不足,提出了一种新的用于不平衡数据分类的模糊支持向量机算法.该算法在设计样本的模糊隶属度函数时,不仅考虑训练样本到其类中心距离,而且考虑样本周围的紧密度.实验结果表明,所提模糊支持向量机算法可以有效地处理不平衡和噪声问题.  相似文献   

13.
提出一种基于遗传算法优化的变分模态分解(variational mode decomposition,VMD)-支持向量机(support vector machine,SVM)方法来识别机床角度头故障特征。首先采用遗传算法对VMD算法的输入参数进行优化,将优化后的VMD算法用于振动信号的分解,得到各本征模态函数(IMF)后,求得对应的能量熵;然后通过SVM算法筛选出有效故障数据,再利用峭度和相关系数相结合的方法将其中的IMF筛选出来并重构信号;最后,对该信号作频谱分析,分析相关特征信息,识别并诊断出故障。根据仿真和实验结果,所提方法对于故障角度头的有效信号筛选正确率高,对于噪声抑制效果良好,特征提取快速有效,可用于机床故障诊断领域。  相似文献   

14.
支持向量机的一个边界样本修剪方法   总被引:1,自引:0,他引:1  
支持向量机仅仅由支持向量所决定,而支持向量来自于边界的样本,如果样本集中存在较多的噪音或孤立点,特别是两类样本过分交叉,都会降低支持向量机的推广能力。为了改善支持向量机的推广性能,文章提出一个支持向量机的边界样本修剪方法:首先对边界样本进行抽取,然后用RemoveOnly算法对边界样本进行修剪,修剪后的边界样本就是最终的支持向量机训练样本。实验结果表明,修剪方法可以让支持向量机的推广能力有不同程度的提高。  相似文献   

15.
提出一种基于遗传算法优化的变分模态分解(variational mode decomposition, VMD)-支持向量机(support vector machine, SVM)方法来识别机床角度头故障特征。首先采用遗传算法对VMD算法的输入参数进行优化,将优化后的VMD算法用于振动信号的分解,得到各本征模态函数(IMF)后,求得对应的能量熵;然后通过SVM算法筛选出有效故障数据,再利用峭度和相关系数相结合的方法将其中的IMF筛选出来并重构信号;最后,对该信号作频谱分析,分析相关特征信息,识别并诊断出故障。根据仿真和实验结果,所提方法对于故障角度头的有效信号筛选正确率高,对于噪声抑制效果良好,特征提取快速有效,可用于机床故障诊断领域。  相似文献   

16.
基于免疫遗传优化支持向量机的普米语孤立词语谱图分类方法,首先利用短时傅里叶变(STFT)生成普米语孤立词语谱图;其次,提取普米语孤立词语谱图的二值特征;最后,利用免疫遗传优化支持向量机实现语谱图的分类.实验结果表明:普米语孤立词语谱图分类预测准确率为88%~91%.基于免疫遗传优化支持向量机的语谱图分类比基于语音信号分类效果更好.  相似文献   

17.
结合了基因表达数据类内和类间表达差异的信息,提出一种新的基因选择算法,利用它选择出来的特征基因表达作为支持向量机的输入特征向量,对四个常用数据集进行分类,结果表明,该方法可以显著提高分类精度,同时通过对选取出来的特征基因在相关信号通路上的分析,表明该方法能够得到更多的肿瘤相关基因,具有很强的鲁棒性和很高的精确度.  相似文献   

18.
【目的】通过研究随机森林(random forest, RF)特征筛选对单木树种分类精度的影响,以及多源遥感数据协同下单木树种分类的有效性,分析不同特征对单木树种分类的影响程度。【方法】以东北林业大学帽儿山实验林场中林施业区的两块100 m×100 m样地为研究对象,首先,以机载激光雷达(LiDAR,light detection and ranging)和多光谱遥感CCD(charge coupled device)影像为数据源,分别基于机载LiDAR数据提取高度、强度和树冠大小等共37个特征,基于CCD影像提取光谱和纹理共21个特征;其次,以随机森林方法进行特征筛选,之后以随机森林和支持向量机(support vector machine, SVM)两种非参数分类器,结合不同数据源和特征,采用12种分类方案,利用总体精度(overall accuracy, OA)、用户精度(user’s accuracy, UA)和生产者精度(producer’s accuracy, PA)对分类结果进行对比与精度评价。【结果】经随机森林特征筛选后,分类结果优于未进行特征筛选的结果,总体精度可以平均提高3.47%,使用机载LiDAR和CCD影像协同分类相较于仅使用CCD影像总体精度平均提高6.07%。【结论】随机森林特征筛选可以优化特征,减少特征冗余,提高分类精度;多源数据结合也可以提高分类精度;在多源数据结合时,光谱特征最重要,LiDAR提取的强度特征相较于高度特征更稳定。  相似文献   

19.
Support vector machine(SVM) is an important classification tool in the pattern recognition and machine learning community,but its training is a time-consuming process.To deal with this problem,we propose a novel method to mine the useful information about classification hidden in the training sample for improving the training algorithm,and every training point is assigned to a value that represents the classification information,respectively,where training points with the higher values are chosen as candidate support vectors for SVM training.The classification information value for a training point is computed based on the classification accuracy of an appropriate hyperplane for the training sample,where the hyperplane goes through the mapped target of the training point in feature space defined by a kernel function.Experimental results on various benchmark datasets show the effectiveness of our algorithm.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号