首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对中文网页文本分类中特征降维方法和传统信息增益方法的缺陷和不足做出优化改进,旨在有效提高文本分类效率和精度.首先,采取词性过滤和同义词归并处理对特征项进行初次特征降维,然后提出改进的信息增益方法对特征项进行特征加权运算,最后采用支持向量机(SVM)分类算法对中文网页进行文本分类.理论分析和实验结果都表明本方法比传统方法具有更好的性能和分类效果.  相似文献   

2.
针对兼类文本分类的问题,本文提出了一个对不带任何类别标记的文本进行准确分类的方法。首先利用SVM的1-a-1兼类文本分类算法为不带类别标记的文本进行初始分类,不能准确分类的处于类属模糊区的文本让训练好的NBC分类器再分类。实验结果表明,可得到较准确的分类结果。  相似文献   

3.
提出了一种基于小波变换和支持向量机(SVM)在数字图像中定位文本的方法.对图像进行小波变换,并在低频概貌和高频能量空间应用SVM提取文本的纹理特征,由SVM来决定当前的像素是文本类还是非文本类.因为SVM的分类结果可能存在噪声或错误,用形态学去噪和计算纹理能量的方法对SVM的分类结果进行后处理.小波变换和SVM的结合,不仅降低了输入空间样本的数量,而且利用了SVM适合于高维空间工作的特点,提高了文本提取的效率.实验结果表明,提出的方法可以快速有效地定位数字图像中的文本区域.  相似文献   

4.
针对不良文本的过滤问题,提出一种基于主题分类的文本过滤方法,通过对文本信息进行向量化,引人文本特征抽取技术,筛选出针对文本内容的最优的特征项集合,利用SVM分类技术,来判断文本的态度和立场,达到内容审查过滤的目的.并利用DSP在硬件上加以实现,实验表明该方法同传统的过滤方法相比具有较高的准确率和召回率,且过滤时间大幅减少.  相似文献   

5.
文本标签作为一种文本关键词,能够简化科技政策中有效信息的挖掘。本文从科技政策类别角度,将标签类别分为科技投入、知识产权、农村科技和税收四类,针对传统SVM算法的缺点和标签数据不平衡的缺点,结合欧式距离思想,提出一种带有惩罚因子的ESVM科技政策文本标签分类方法。最后,对比SVM和ESVM两种分类方法,验证了本文方法在处理科技政策文本标签数据上的有效性。  相似文献   

6.
一种新的多类SVM方法及其在文本分类中的应用   总被引:2,自引:6,他引:2  
提出一种将SVM扩展到多类文本分类问题的新方法,此方法有增量模式及批模式两种应用途径。其中,批模式提供了一种其他多类SVM替代方法;而增量模式在重复利用原有模型的基础上将新增类别的知识信息以增量方式更新到分类系统,整个分类器不需要全部重新学习,需要的计算量较小。实验表明增量方法大大减少新类增加时分类器更新所需要的学习步骤和时间;两种模式的分类效果与其他方法相当。  相似文献   

7.
随着互联网的迅速发展,对网页正确分类显得越来越重要。网页分类的一个难点就是特征空间的维数比较大,支持向量机(SVM)分类方法显示出比其它分类方法更好的性能,但是训练样本时却花费了比其它算法更多的时间。本文提出了一种基于选择最确信的词来预测一个文本的类别的特征提取方法,通过中文文本实验,结果表明在不降低分类准确性的前提下,缩短了训练时间。  相似文献   

8.
文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别,文本分类是文本挖掘的一个重要内容。本文分别介绍了文本分类技术和支持向量机的概念,并阐述了支持向量机(SVM)在文本分类中的应用及其发展趋势。  相似文献   

9.
支持向量机在大类别数分类中的应用   总被引:24,自引:0,他引:24  
研究支持向量机在大类别数分类中的应用;结合二叉决策树的基本思想提出一种基于支持向量机(support vector machine,SVM)的大类别数分类解决方法,即SVM决策树方法,对不同背景下可选用的SVM决策树的结构进行了讨论,分析了SVM决策树的特点,并对其识别错误率进行数学进行,结果表明该方法可降低平均分类错误率,对实际应用中的多类分类问题提供新的途径。  相似文献   

10.
文本分类是机器学习重要任务之一,如何对文本信息进行有效分类组织,对用户查找并获取有用信息具有重要作用。针对新闻文本分析,提出了一种基于集合运算特征提取及Stacking策略的新闻多分类方法,该方法基于集合运算的方法来提取文本特征,采用Stacking策略,使用SVM以及贝叶斯方法来对文本进行分类。与典型同类方法对比,在复旦大学文本分类数据集上的实验结果表明,该方法随着样本数增加,各分类指标逐渐升高并趋于稳定。  相似文献   

11.
针对稀疏文本特征纬度高、特征稀疏程度大的特点,根据词、文档和所属类别的关系,建立训练样本的特征概率分布函数,通过基于内容的滤波器去除背景噪声和非关键词后,利用特征分类方法对稀疏文本进行分类.用线性回归的分类方法与其他传统分类方法进行了比较,结果表明,该特征分类方法能够有效提高稀疏文本的分类精度,尤其是与线性分类中的岭回归方法相结合时,分类精度更高.  相似文献   

12.
提出一种基于数据关系(Data Relationship,DR)的多分类支持向量机(Support Vector Machine,SVM)学习算法(Multi-Classification SVM Algorithm Based on Data Relationship,DR-SVM).DR-SVM算法根据每类数据的关系(如向量积等)获取子学习嚣的冗余信息,从而优化多分类器组,然后通过经典的SVM算法训练分类器组.算法在简化分类器组的同时可对多类数据分类问题获得满意的泛化能力,在标准数据集上的实验结果表明,与经典的SVM多分类方法相比,DR-SVM具有更好的泛化性能,尤其对单个类别精度要求较高的数据尤其有效.  相似文献   

13.
为了在提高文本分类效率和提升分类速度间进行平衡,综合考虑SVM决策树的深度、均衡度、构造方式、类内样本数、类间相似度等对分类结果的影响,提出针对海量文本多分类问题的SVM决策树构建算法.在大规模语料库上的文本分类实验表明,该算法可在一定程度上提升分类效果,同时可以大幅减少训练和测试时间,方法可行且适应性强.  相似文献   

14.
TF-IDF方法是文本向量化过程中一种常用的特征项权重计算方法,衡量的是特征项在整个文档集中的重要性.针对文本分类过程中TF-IDF方法未能体现特征项对类别的区分能力和对类别的代表性问题,基于文档类别,结合特征项的类间区分度和类内贡献度,提出一种改进的TF-IDF权重计算方法,并采用KNN和SVM模型对改进后算法的分类性能进行了验证.实验结果表明,与传统的TF-IDF方法相比,改进后的权重计算方法不仅在整个测试数据集上能够取得较高的宏平均精确率、宏平均召回率和宏平均F1,而且使测试数据集绝大部分类别的分类性能得到了较大提升.因此,改进后的TF-IDF权重计算方法是有效且可行的.  相似文献   

15.
基于支持向量机语义分类的两种图像检索方法   总被引:2,自引:0,他引:2  
为了更好的解决基于内容的图像检索问题,提出了2种基于语义的图像检索方法.第1种是基于支持向量机(SVM)语义分类的图像检索方法.该方法首先提取训练图像库的底层特征信息,然后利用SVM对所提取的特征进行训练,构造多分类器.在此基础上,利用分类器对测试图像自动分类,得到图像属于各个类别的概率,实现图像检索.第2种是利用图像自动标注方法进行检索.在基于语义的图像自动标注中,先对训练集进行人工标注,对测试图像利用SVM分类器进行分类,并找到与该图像最相似的N张构成图像集,对该图像集的标注进行统计,找到关键词,从而提供概念化的图像标注以用于检索.通过在标准图像检索库和自建图像库上的实验结果表明,以上2种基于语义的图像检索方法是高效的.  相似文献   

16.
为了实现对大量的网络信息的正确分类以便使用户迅速获取所需信息,提出一种新的网页内容分类算法,该算法将遗传算法(GA)与支持向量机(SVM)结合起来,利用遗传算法良好的寻优能力优化SVM的分类性能。在由新闻网页文本构成的数据集上的仿真实验结果表明,GA和SVM融合的算法能够有效提高SVM的分类性能,新算法的分类正确率相比基本的SVM有非常显著的提高。由此证明,提出的基于GA的SVM改进算法是有效的,能够用于对大量网络信息的分类问题中。  相似文献   

17.
引入柯尔莫格洛夫复杂性理论来描述邮件的特征,采用信息距离理论衡量邮件的相似程度,采用支持向量机(SVM)算法对邮件进行分类,提出了一种高准确率的垃圾邮件识别方法.相对于传统的垃圾邮件识别方法,该方法不需要对垃圾邮件进行邮件分割,省略邮件头分析和正文分析,可以准确地刻画垃圾邮件的主要特征,具有运算简单高效的特点.测试结果表明:该方法对文本邮件的分类准确率高达99%以上,有效提高了垃圾邮件识别的准确率.  相似文献   

18.
基于FOA-SVM的中文文本分类方法研究   总被引:2,自引:0,他引:2  
中文文本分类方法直接影响分类性能,支持向量机(SVM)在处理文本分类这种高维问题上有明显的优势.SVM的分类精度取决于核函数的核参数和惩罚参数,本文提出了一种用果蝇优化算法(FOA)获取SVM参数的FOA-SVM方法.将FOA-SVM用于中文文本分类,实验结果表明,FOA-SVM能得到较高的分类准确率,在文本分类上表现较强的鲁棒性.  相似文献   

19.
基于特征贡献度的特征选择方法在文本分类中应用   总被引:1,自引:0,他引:1  
在目前的文本分类问题中,特征选择方法被认为是提高分类精度和效率的一种有效方法.提出了一种基于特征贡献度FCD(feature contribution degree)的特征选择方法,本方法将某个特征对于类别之间区分能力的贡献度大小作为该特征被选取的条件,特征对于某一类别的FCD值为特征在该类中出现的文档数与在所有类别中出现的文档数的比值.对该方法进行了实验,并与一些常用的特征选择方法进行了比较,实验结果表明该方法具有更好的分类效果.  相似文献   

20.
目标的雷达散射截面(RCS)包含了丰富的目标类别信息,如何有效利用目标RCS特征对空间目标的雷达识别具有重要意义.文中提取中心矩作为特征向量,采用主分量分析(PCA)进一步进行特征压缩,利用支撑矢量机(SVM)分类算法来实现识别.基于实测数据的仿真实验结果表明,该方法具有较好的识别性能和推广能力.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号