首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 320 毫秒
1.
贝叶斯算法在文本分类时需要进行特征提取,传统特征提取算法存在特征提取不够准确,进而导致分类效率不高。为解决此问题,提出一种基于滑动窗口的特征选取方法,该方法能扩大特征的选取范围。实验表明,改进后的方法可以有效地提高文本的分类精度。  相似文献   

2.
自动文本分类中类别特征提取是文本分类中的关键,传统特征提取算法存在特征提取不够准确,进而导致分类精度不高.为解决此问题,本文提出了一种有效的特征提取方法一基于滑动窗口的特征提取方法,用来构成文本分类的模型,该方法能扩大特征的提取范围.实验表明,改进后的分类模型可以有效地提高文本的分类精度。  相似文献   

3.
自动文本分类中类别特征提取是文本分类中的关键,传统特征提取算法存在特征提取不够准确,进而导致分类精度不高。为解决此问题,本文提出了一种有效的特征提取方法——基于滑动窗口的特征提取方法,用来构成文本分类的模型,该方法能扩大特征的提取范围。实验表明,改进后的分类模型可以有效地提高文本的分类精度。  相似文献   

4.
文中介绍了使用核覆盖算法进行中文文本分类.研究了采取不同的特征选取方法、利用核覆盖算法进行文本分类的区别.通过实验,除互信息外的其它几种特征选取方法在核覆盖算法分类过程中均取得了较优的实验结果,可看出核覆盖算法在文本分类中是一个不错的方法.  相似文献   

5.
为了降低原始文本特征空间的维数,获得较高的分类精度与执行效率,对多种文本特征提取方法进行了研究,如卡方、互信息、信息增益、主成分分析(PCA)等。针对传统文本特征抽取方法存在的精度不高、执行效率低等问题,提出了一种基于分块主成分分析的文本特征提取算法。该算法通过K-均值词聚类进行特征词分块,再对各分块实施PCA操作抽取出更具代表性的特征项,最后使用支持向量机分类器对文本进行分类。实验结果表明:分块主成分分析的分类指标F_(β=1)达到了88.7%,执行时间为353 s,能够有效提高文本分类精度与执行效率。  相似文献   

6.
提出了一种基于机器学习的Web文本自动分类的信息检索解决方案。采用层次约束法完成文本自动抓取功能,文本频度与词条频度相结合的文本特征选择算法实现特征提取,并采用特征加权技术进一步提高文本分类性能。该算法不仅实现中文文本的自动分类,有效地提高Web信息检索的精度,而且能大大降低人工二次浏览筛选的工作量,还可用于电子政务和电子商务信息的自动分类。  相似文献   

7.
张鸿彦 《科学技术与工程》2013,13(10):2704-2709
特征具有高维、稀疏性。为提高了文本自动分类准确率,针对PCA提取特征需要对大规模文本进行批处理,影响文本的准确率等,提出一种基于增量主元分析方法(CCIPCA)和最二小乘向量机(LSSVM)相结合的文本自动分类算法(CCIPCA-LSSVM)。首先通过互信法选择文本特征,然后采用CCIPCA高维文本特征进行提取,降低特征维数,消除冗余特征,最后采用LSSVM对提取特征进行学习,并通过粒子群算法对分类器优化,建立最优文本自动分类模型。仿真结果表明,相对于其它文本分类算法,CCIPCA-LSSVM提高了文本分类准确率和召回率,解决了文本特征提取过程存在的难题。  相似文献   

8.
一种基于VSM文本分类系统的设计与实现   总被引:10,自引:0,他引:10  
阐述了一个基于改进向量空间模型的中文文本分类系统的设计与实现 ,包括对该系统的结构、预处理、特征提取、训练算法 ,分类算法等关键技术的介绍 .通过引入结构层次权重系数来改进文本特征项权重 ,同时提出一种新的训练算法和文本相似度域值计算方法 .实验结果证明 :该分类系统能有效地提高文本分类效果 ,开放性测试的平均准确率在 80 %以上 ,且平均查全率达到了 86 % .  相似文献   

9.
特征选择是文本分类中的关键步骤,对分类结果产生直接的影响。本文分析了人工鱼群算法的觅食行为、群聚行为和追尾行为等基本原理。结合维吾尔文文本特征提取原理,提出了一种改进的人工鱼群算法,并将其运用到维吾尔文文本特征提取当中。为了加快鱼群的收敛速度,引入了主动改变视野的策略,同时,为了避免算法陷入局部最优,还在算法中加入了变异策略。将特征选择后的样本集输入到不同的分类器中进行仿真实验。实验结果表明:改进的人工鱼群算法能够使分类的准确率达到94.5%。  相似文献   

10.
KNN文本分类算法中的特征选取方法研究   总被引:1,自引:0,他引:1  
曹勇  吴顺祥 《科技信息》2006,(12):26-28
对基于中文的文本分类过程进行了介绍,重点介绍了文本分类中几种特征选取的方法,详细介绍了KNN分类算法,最后介绍了文本分类的评估方法并通过实验测试对比了几种特征选择的方法在基于KNN技术的文本分类中的使用效果.  相似文献   

11.
在肿瘤特征基因选择过程中,传统分类方法会选出大量冗余基因,而大量冗余基因会造成分类精度低和时间复杂度较高等问题,为了解决上述问题,提出一种结合信噪比过滤法与随机森林算法的肿瘤特征基因选择方法.该方法包含两个过程:首先使用信噪比过滤法剔除原始特征空间中的无关和冗余基因,从而获得与分类属性相关性较高的基因,选择出分类能力较强的预选特征子集;其次使用随机森林算法对特征基因子集进行分类,最终获得分类结果.实验结果显示,该算法可以快速有效地选择出肿瘤特征基因,并具有较高的分类精度.  相似文献   

12.
传统的决策树方法在实际应用中存在很多不足,如生成树规模过大,抗噪性较差等,因此,提出了将变精度粗糙集和混合变量集算法应用于决策树分类中,通过变精度和混合属性集分类减小树的规模和过度拟合问题,降低了噪声数据对属性选择的影响,并通过实验证明该算法与传统的算法相比具有较大的优越性。  相似文献   

13.
基于分块的网页主题信息自动提取算法   总被引:3,自引:0,他引:3  
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.  相似文献   

14.
一种基于特征选择的面向对象遥感影像分类方法   总被引:2,自引:1,他引:1  
针对GF—1多空间分辨率遥感数据空间信息丰富,传统影像分类方法无法满足实际应用需要的问题,提出了一种基于特征选择的面向对象遥感影像分类方法——object-RJMC算法,即在影像分割及特征提取的基础上,运用Relief F算法和J-M(Jeffries-Matusita)距离算法去除无关及冗余特征,筛选出适于各类别分类的特征,然后利用CART算法建立分类规则,完成分类过程。以GF-1号2 m、8 m和16 m空间分辨率的三组影像进行算法验证,并与object-CART和pixel-CART影像分类方法进行对比分析。实验结果显示object-RJMC算法的分类精度均高于object-CART和pixel-CART算法的分类精度;且对高空间分辨率的影像分类效果要优于对中低空间分辨率影像的分类效果。该算法减少了特征选择及规则建立的人工干预,克服了以像素为单位的分类算法中由于缺少空间邻域信息而产生孤立、离散、不连通分类结果的问题,可有效地提高GF-1遥感影像分类精度。  相似文献   

15.
针对传统信息增益(IG)特征选择算法忽略词频分布的缺陷,该文提出一种新的IG特征选择算法.该算法通过引入均衡比和类内词频位置参数,解决了传统IG算法忽略词频分布对分类的弱化问题,修正传统类内词频位置参数,提高特征选择算法的文本分类精度,并将该改进IG特征选择算法用于最大熵模型(ME)对文本进行分类.实验结果表明:该文所提方法在进行文本分类时F1值高于传统IG算法.该文方法的ME分类精度高于K最近邻KNN(K-Nearest Neighbor)算法,说明本文方法是可行的、有效的.  相似文献   

16.
在进行数据库访问的过程中,由于受到很多不确定性因素的干扰,使数据库中存在大量噪声,影响了数据库访问的效率。提出一种引入高阶累积量的数据库访问特征选择算法,依据高阶累积量两个统计独立随机过程之和的累积量等于各个随机过程累积量之和的性质,对数据库进行去噪处理。在此基础上,采用SVM无监督算法实现数据库访问特征选择。仿真实验结果表明,采用所提算法进行数据库访问特征选择,不仅具有较高的特征选择精度,而且特征选择效率也明显高于传统算法,同时特征选择结果所含冗余特征低于传统算法,验证了所提算法在数据库访问特征选择方面的性能。  相似文献   

17.
蚁群优化算法凭借其正反馈机制和强大的搜索能力被广泛地应用于各类优化问题求解上.本文试图将蚁群优化算法应用于特征选择领域并提出了新的量子化信息素蚁群优化(quantized pheromone ant colony optimization, QPACO)特征选择算法.相比于其他基于蚁群优化算法的特征选择算法,QPACO算法中采用了量子化信息素的启发式策略,改变了传统的信息素更新策略,因此避免了在搜索特征时的局部最优问题.实验采用了KNN分类器来指导学习过程,利用源于UCI数据库的多组数据集进行了相关的测试,实验结果表明,QPACO算法在分类精度、精确率、召回率和维度缩减率等方面均具有良好的性能.  相似文献   

18.
基于元启发式算法--乌鸦搜索算法(CrSA), 提出一种改进的基于乌鸦搜索算法的特征选择算法(IFSCrSA), 以解决目前特征选择问题中存在的不足. 通过与传统的机器学习特征选择算法和基于进化计算的特征选择算法进行比较, 结果表明, IFSCrSA能在数据集中选择辨识度较强的特征, 不仅大幅度降低了特征子集的规模, 而且提高了分类准确率.  相似文献   

19.
一种组合型中文文本分类特征选择方法   总被引:2,自引:1,他引:1  
根据基于频数分布和基于互信息的特征选择模式的特点,将传统的tf-idf因子以及基于互信息的特征选择方法分别进行了改进,并在此基础上提出了一种新的组合型特征选择方法。试验结果表明,该算法提高了文本分类的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号