首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
文本分类中基于核的非线性判别   总被引:3,自引:0,他引:3  
针对文本分类问题中的特征降维问题,改进最大散度差鉴别准则,引入核变换作为前处理,使最大散度差鉴别准则可适用于更广泛的文本分类情形. 提出一种基于核的非线性鉴别方法用于文本特征抽取. 借助于核变换解决了散度差准则在用于文本分类时线性可分性较差的问题. 在最低限度减少信息损失的前提下实现了特征维数的大幅度减缩. 文本分类试验结果表明,这种非线性方法与无核的最大散度差方法相比,F1值提高了4.7%, 具有明显的效率上的优势.  相似文献   

2.
文本自动分类技术是随着网络信息化而发展起来的。它的作用是将各地海量的电子资源通过网络联系在一起,实现资源共享。本文通过对自动分类技术的类型及基本概念的概述,提出了自动分类中两种重要的算法技术。  相似文献   

3.
为了解决文本自动分类问题,从解决支持向量机模式支持限制问题入手,以级连概念为指导思想,构造了多层级连式支持向量机模型,提出一种文本自动分类算法,以便处理多个模式的分类问题。由于支持向量机本质上是一种非线性数据处理工具,对于复杂的两类模式分类问题已表现出良好的适应性,而且支持向量机用于模式识别不存在局部极小值问题,且不需进行网络迭代训练,求解速度明显高于神经网络。通过以CNKI文档数据为例进行算法实践,试验结果表明支持向量机用于模式分类的实现步骤比较简单,不需要长时间的训练过程,只需根据初始样本在空间的分布特性求解最优超平面(即找出支持向量),进而确定决策函数,然后即可泛化推广识别其他待识别的同类样本。  相似文献   

4.
田苗苗 《松辽学刊》2008,29(1):54-56
本文对决策树数据挖掘方法进行分析和比较,并应用该分类方法对网页文本进行分类,仿真实验结果证明决策树算法在文本分类研究领域有着广阔的应用前景.  相似文献   

5.
KNN算法是一种应用广泛的人工智能算法,在文本分类应用中,简单有效,易于实现.但是,KNN分类的时间复杂度与训练样本数量成正比,而且,训练样本分布密度的不均匀性将导致分类准确性的下降.本文在KNN算法的基础上,提出一种改进算法.算法分析了训练样本的分布密度,通过裁减高密度区域训练样本,降低样本数量,调节训练样本分布,达到提高分类准确性的目的.实验证明,基于密度的改进KNN文本分类算法在降低时间复杂度的同时,还具有较好的准确率和召回率.  相似文献   

6.
基于文本表示的特征项权值确定方法研究   总被引:4,自引:2,他引:4  
文本表示中特征项的权值确定方法决定了文本特征的提取,在很大程度上影响了文本分类的准确率,通过系统总结常用的几种特征项权值的确定方法,并逐一比较分析和研究,提出了一种性能较好的确定方法——据位定权函数,经实验验证据位定权函数确实能够有效地提高文本分类的准确性。  相似文献   

7.
基于支持向量机的文本分类技术研究   总被引:2,自引:2,他引:0  
介绍了文本分类的基本过程,讨论了常用的文本分类方法如K-最近邻分类算法K-NN(K-Nearest Neighbors,K-NN)、朴素贝叶斯分类算法NB(Naive Bayesian Classifier,NB)、决策树分类算法DT(Decision Trees,DT),并探讨了基于支撑向量机SVM(Support Vector Machines,SVM)的文本分类基本原理及方法.  相似文献   

8.
网络智能文本分类系统的研究与实现   总被引:2,自引:0,他引:2  
介绍了文本自动分类的基本原理及相关的算法 ,提出了一种基于网络的智能文本分类系统的基本框架 ,并详细地阐述了实现它的关键技术  相似文献   

9.
一种文本分类数据挖掘的技术   总被引:7,自引:0,他引:7  
挖掘的理论和应用研究是数据挖掘领域一个新的重要分支,介绍了一种文本数据挖掘方法. 首先,论述了文本挖掘的意义和重要性,探讨了文本挖掘的定义和文本分类的一些形式,然后讨论了一个以数据预处理、特征提取、特征表示和特征匹配等文本分类的一些关键理论问题,并给出了一个基于该方法的文本分类系统的实验结果,实验结果表明了该方法的可行性.  相似文献   

10.
Web文本分类是Web数据挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,本文提出一种综合粗糙集与支持向量机的Web文本分类模型,利用粗糙集的属性约简方法,减少支持向量机训练数据的维数,提高Web文本分类的性能与效率.  相似文献   

11.
随着我国现代科技的快速发展,文本分类逐渐在信息化技术与数字化技术领域得到重视。利用计算处理系统处理文本信息,能够有效提升文本分类的质量与效率,提升数据信息的利用率,从而促进信息化技术的普及。而支持向量机是处理文本内容,加强文本分类速度,并通过文档建模、中文分词、分类器评估等形式,构建出的行之有效的统计语言模型,它可以推动文本分类工作的发展。本文结合国内外研究现状,探析文本分类内涵及支持向量机原理,提出基于支持向量机的文本分类算法。  相似文献   

12.
文本分类规则的提取和优化是衡量文本分类系统适应性能和分类能力的主要指标.在基于粗糙集和模糊聚类理论的文本分类系统中,结合粗集理论及不完备信息系统理论,提出了分类规则的提取和优化方法,通过实验和分析,产生用户满意的约简规则,从而能够快捷迅速地指导新文本的分类,提高系统的适应性能和分类能力.  相似文献   

13.
针对当前基于深度学习的金融文本分类模型严重依赖于标记数据的问题,提出了一种基于跨领域迁移的AM-AdpGRU金融文本分类模型,通过学习相关领域数据的分类准则将其迁移到目标领域数据。AM-AdpGRU模型首先利用深度网络自适应来克服源领域和目标域之间数据分布差异导致的迁移损失,使得即使数据分布发生变化时模型也无需重构;然后利用注意力机制建立了目标域对源领域的特征选择机制,使得模型对源领域的注意力可以集中在与目标域相似性更高的部分。在公开的跨域情感评论Amazon数据集和SemEval-2017的Microblog金融数据集上进行了实验,将AM-AdpGRU模型与其他方法进行比较,结果表明AM-AdpGRU模型的分类平均准确性相对于其他模型有了显着提升。  相似文献   

14.
针对现有Web新闻文本分类方法准确率低且不能适应文本类型变化的问题,提出一种基于进化模糊规则的Web新闻文本挖掘和分类方法.首先,对每篇Web文本进行术语提取,并利用词频-逆向文档频率(TF-IDF)算法过滤掉一些具有较低描述能力的术语.然后,基于计算收集到的新的新闻文本内容与类别之间的余弦距离,利用eClass0分类器创建和更新模糊规则的数量和属性.最后,根据模糊规则推理和余弦距离进行文本分类.实验结果表明,该方法具有较高的正确分类率,且能够自适应Web新闻文本类别的变化.  相似文献   

15.
在智能算法优化分类器参数时,经常采用加权方式将分类率和特征数目作为单目标优化。为提高分类性能和解决权值设定问题,本文提出一种基于MOABC算法的分类器设计,将分类率和特征数目作为两个优化目标,并通过相关数据进行验证。结果表明,通过多目标优化可以得出多组最优解,供决策者选择,并且分类效果明显优于作为单目标处理时所得的结果。  相似文献   

16.
决策树分类ID3算法研究   总被引:1,自引:0,他引:1  
张桂杰  王帅 《松辽学刊》2008,29(3):135-137
分类是数据挖掘的重要内容之一,在许多领域得到广泛应用,现已有多种分类方法,其中决策树分类法在海量数据环境中应用最为广泛,本文分析了决策树分类ID3算法的原理,给出构造决策树的基本算法,指出ID3算法构造决策树的优缺点,针对ID3算法倾向于取值较多的测试属性的缺点,引入一个参数来约束属性选择,给出一种优化算法.  相似文献   

17.
为了得到核Bayes函数作为分类器的核主元分析(KPCA)与核Fisher判据分析(KFDA)的算法模式稳定性,利用Rademacher复杂度的概念及相关定理,推导出了核Bayes函数Rademacher复杂度的界以及其作为分类器的算法发生错误分类的概率的界,说明了模式稳定性与样本长度、降维矩阵的维数等关系,提出了两种衡量模式稳定性的直观指标,误分差和百分比和误分均值偏离度.仿真结果不仅验证了几个定理,也表明所提出的衡量指标是有效的、可行的.  相似文献   

18.
设计了一种基于VSM模型的动态文本分类器,它能针对文本的不同类别建立不同的特征子空间,各特征子空间之间相互独立,同时能将文本分类中常用的2个评估指标召回率和精确率转化为正确分类率和错分率;考察了特征子空间的维数和判定界值对这2个指标的影响.该动态文本分类器能对用户输入的文本流进行动态分类.  相似文献   

19.
针对统计方法不能从语义理解的角度进行文本分类的问题,提出了利用概念层次网络概念知识进行文本分类的方法,包括两部分:依据概念进行特征选取以及根据类别关联度分类. 在特征选取时,通过计算概念与类别的区分度挖掘出类别核心概念,并采用类别核心概念对特征项进行精选. 依据类别核心概念相关的类别语义信息,提出了文档与类别关联度的计算方法,并根据类别关联度来判断文本类别. 实验表明,该方法可有效降低特征空间维数,在提高分类效率的同时保证了分类效果,F1值略有提高. 与SVM、KNN和Bayes分类器对比,当特征项数目较少时,该方法的F1值明显高于其他3种方法,综合分类效果与SVM相当,优于KNN和Bayes.  相似文献   

20.
网络化与信息化社会具有信息海量化和用户需求个性化的特点,如何通过有效手段过滤掉与目标用户不相关的信息,筛选出对用户有用、能满足用户需求的信息成为信息研究领域的重要课题。本文针对协同过滤中存在的评分数据稀疏性与推荐准确度问题,提出了一种基于项目特征值分类与空缺元素填充的协同过滤算法。实验结果表明,改进的协同过滤算法能有效的缓解评分数据稀疏性对推荐结果的负面影响,在一定程度上提高了推荐的准确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号