首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 46 毫秒
1.
文中介绍了使用核覆盖算法进行中文文本分类.研究了采取不同的特征选取方法、利用核覆盖算法进行文本分类的区别.通过实验,除互信息外的其它几种特征选取方法在核覆盖算法分类过程中均取得了较优的实验结果,可看出核覆盖算法在文本分类中是一个不错的方法.  相似文献   

2.
田苗苗 《松辽学刊》2008,29(1):54-56
本文对决策树数据挖掘方法进行分析和比较,并应用该分类方法对网页文本进行分类,仿真实验结果证明决策树算法在文本分类研究领域有着广阔的应用前景.  相似文献   

3.
一种文本分类数据挖掘的技术   总被引:7,自引:0,他引:7  
挖掘的理论和应用研究是数据挖掘领域一个新的重要分支,介绍了一种文本数据挖掘方法. 首先,论述了文本挖掘的意义和重要性,探讨了文本挖掘的定义和文本分类的一些形式,然后讨论了一个以数据预处理、特征提取、特征表示和特征匹配等文本分类的一些关键理论问题,并给出了一个基于该方法的文本分类系统的实验结果,实验结果表明了该方法的可行性.  相似文献   

4.
基于文本表示的特征项权值确定方法研究   总被引:4,自引:2,他引:4  
文本表示中特征项的权值确定方法决定了文本特征的提取,在很大程度上影响了文本分类的准确率,通过系统总结常用的几种特征项权值的确定方法,并逐一比较分析和研究,提出了一种性能较好的确定方法——据位定权函数,经实验验证据位定权函数确实能够有效地提高文本分类的准确性。  相似文献   

5.
随着我国现代科技的快速发展,文本分类逐渐在信息化技术与数字化技术领域得到重视。利用计算处理系统处理文本信息,能够有效提升文本分类的质量与效率,提升数据信息的利用率,从而促进信息化技术的普及。而支持向量机是处理文本内容,加强文本分类速度,并通过文档建模、中文分词、分类器评估等形式,构建出的行之有效的统计语言模型,它可以推动文本分类工作的发展。本文结合国内外研究现状,探析文本分类内涵及支持向量机原理,提出基于支持向量机的文本分类算法。  相似文献   

6.
KNN算法是一种应用广泛的人工智能算法,在文本分类应用中,简单有效,易于实现.但是,KNN分类的时间复杂度与训练样本数量成正比,而且,训练样本分布密度的不均匀性将导致分类准确性的下降.本文在KNN算法的基础上,提出一种改进算法.算法分析了训练样本的分布密度,通过裁减高密度区域训练样本,降低样本数量,调节训练样本分布,达到提高分类准确性的目的.实验证明,基于密度的改进KNN文本分类算法在降低时间复杂度的同时,还具有较好的准确率和召回率.  相似文献   

7.
基于支持向量机的文本分类技术研究   总被引:2,自引:2,他引:0  
介绍了文本分类的基本过程,讨论了常用的文本分类方法如K-最近邻分类算法K-NN(K-Nearest Neighbors,K-NN)、朴素贝叶斯分类算法NB(Naive Bayesian Classifier,NB)、决策树分类算法DT(Decision Trees,DT),并探讨了基于支撑向量机SVM(Support Vector Machines,SVM)的文本分类基本原理及方法.  相似文献   

8.
Web文本分类是Web数据挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,本文提出一种综合粗糙集与支持向量机的Web文本分类模型,利用粗糙集的属性约简方法,减少支持向量机训练数据的维数,提高Web文本分类的性能与效率.  相似文献   

9.
文本分类规则的提取和优化是衡量文本分类系统适应性能和分类能力的主要指标.在基于粗糙集和模糊聚类理论的文本分类系统中,结合粗集理论及不完备信息系统理论,提出了分类规则的提取和优化方法,通过实验和分析,产生用户满意的约简规则,从而能够快捷迅速地指导新文本的分类,提高系统的适应性能和分类能力.  相似文献   

10.
网络智能文本分类系统的研究与实现   总被引:2,自引:0,他引:2  
介绍了文本自动分类的基本原理及相关的算法 ,提出了一种基于网络的智能文本分类系统的基本框架 ,并详细地阐述了实现它的关键技术  相似文献   

11.
设计了一种基于VSM模型的动态文本分类器,它能针对文本的不同类别建立不同的特征子空间,各特征子空间之间相互独立,同时能将文本分类中常用的2个评估指标召回率和精确率转化为正确分类率和错分率;考察了特征子空间的维数和判定界值对这2个指标的影响.该动态文本分类器能对用户输入的文本流进行动态分类.  相似文献   

12.
针对当前基于深度学习的金融文本分类模型严重依赖于标记数据的问题,提出了一种基于跨领域迁移的AM-AdpGRU金融文本分类模型,通过学习相关领域数据的分类准则将其迁移到目标领域数据。AM-AdpGRU模型首先利用深度网络自适应来克服源领域和目标域之间数据分布差异导致的迁移损失,使得即使数据分布发生变化时模型也无需重构;然后利用注意力机制建立了目标域对源领域的特征选择机制,使得模型对源领域的注意力可以集中在与目标域相似性更高的部分。在公开的跨域情感评论Amazon数据集和SemEval-2017的Microblog金融数据集上进行了实验,将AM-AdpGRU模型与其他方法进行比较,结果表明AM-AdpGRU模型的分类平均准确性相对于其他模型有了显着提升。  相似文献   

13.
针对统计方法不能从语义理解的角度进行文本分类的问题,提出了利用概念层次网络概念知识进行文本分类的方法,包括两部分:依据概念进行特征选取以及根据类别关联度分类. 在特征选取时,通过计算概念与类别的区分度挖掘出类别核心概念,并采用类别核心概念对特征项进行精选. 依据类别核心概念相关的类别语义信息,提出了文档与类别关联度的计算方法,并根据类别关联度来判断文本类别. 实验表明,该方法可有效降低特征空间维数,在提高分类效率的同时保证了分类效果,F1值略有提高. 与SVM、KNN和Bayes分类器对比,当特征项数目较少时,该方法的F1值明显高于其他3种方法,综合分类效果与SVM相当,优于KNN和Bayes.  相似文献   

14.
随着Internet网络的高速发展,海量的未标签文档和相对少量的已标签文档是当前Web文档的一个普遍情形,如何有效的利用少量的已标签文档去聚类海量的未标签文档,从而更好地获取有价值的信息,即半监督学习问题,已成为当前研究的热点.本文针对目前Web文本挖掘领域的无监督学习算法的检测率不高,而监督学习算法需要大量的标签数据又不易获得的问题,将半监督中的标签绑定技术与优化球形k-均值聚类算法相结合进行Web文本挖掘,并使用真实的测试数据对Web文本挖掘系统进行实验.结果表明本文方法对有价值文本具有较高检测率及较低的误报率,整体检测性能优于基于监督和无监督学习的Web文本挖掘算法.  相似文献   

15.
提出了利用小波神经网络提取图像中文本信息的新颖方法.原图像经过离散小波变换分解成4个子频带,文本区域的高频子频带与非文本区域的不同,所以可利用其差异计算出3个特征值作为人工神经网络的输入值,然后用基于BP算法构建的人工神经网络来训练待测的文本区域.文本区域的人工神经网络输出值不同于非文本区域的输出值,因此可利用一阈值来判定其是否为文本区域.最后,将可检测的文本区域经过扩张运算后便可得到正确的文本区域.  相似文献   

16.
提出一种新的非线性判别方法,亦称堆球法,可用于机械故障诊断及质量控制.给出了这种方法的算法,分析了其基本性质.该方法简单且适用面广,程序实现容易.应用于滚动轴承滑动擦伤诊断的实例也表明了其有效性与实用性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号