首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 968 毫秒
1.
田苗苗 《松辽学刊》2008,29(1):54-56
本文对决策树数据挖掘方法进行分析和比较,并应用该分类方法对网页文本进行分类,仿真实验结果证明决策树算法在文本分类研究领域有着广阔的应用前景.  相似文献   

2.
针对常用的文本数据挖掘系统在处理海量文本数据时时间效率较低的问题,论文提出了一种基于改进Hadoop云平台的海量文本数据挖掘方法.该方法首先将传统Hadoop云平台进行改进以适应海量文本数据挖掘的需要,然后将海量文本数据集和挖掘任务分解到该改进平台上的多台计算机上并行处理,从而实现了一个基于改进Hadoop云平台的海量文本数据挖掘平台,并通过对10 000篇新闻材料组成的实验数据集进行挖掘验证了该平台的有效性和高效性.  相似文献   

3.
文中介绍了使用核覆盖算法进行中文文本分类.研究了采取不同的特征选取方法、利用核覆盖算法进行文本分类的区别.通过实验,除互信息外的其它几种特征选取方法在核覆盖算法分类过程中均取得了较优的实验结果,可看出核覆盖算法在文本分类中是一个不错的方法.  相似文献   

4.
针对现有Web新闻文本分类方法准确率低且不能适应文本类型变化的问题,提出一种基于进化模糊规则的Web新闻文本挖掘和分类方法.首先,对每篇Web文本进行术语提取,并利用词频-逆向文档频率(TF-IDF)算法过滤掉一些具有较低描述能力的术语.然后,基于计算收集到的新的新闻文本内容与类别之间的余弦距离,利用eClass0分类器创建和更新模糊规则的数量和属性.最后,根据模糊规则推理和余弦距离进行文本分类.实验结果表明,该方法具有较高的正确分类率,且能够自适应Web新闻文本类别的变化.  相似文献   

5.
针对统计方法不能从语义理解的角度进行文本分类的问题,提出了利用概念层次网络概念知识进行文本分类的方法,包括两部分:依据概念进行特征选取以及根据类别关联度分类. 在特征选取时,通过计算概念与类别的区分度挖掘出类别核心概念,并采用类别核心概念对特征项进行精选. 依据类别核心概念相关的类别语义信息,提出了文档与类别关联度的计算方法,并根据类别关联度来判断文本类别. 实验表明,该方法可有效降低特征空间维数,在提高分类效率的同时保证了分类效果,F1值略有提高. 与SVM、KNN和Bayes分类器对比,当特征项数目较少时,该方法的F1值明显高于其他3种方法,综合分类效果与SVM相当,优于KNN和Bayes.  相似文献   

6.
基于优化的文档频和粗糙集的特征选择方法   总被引:3,自引:2,他引:1  
特征选择是文本分类的一个核心研究课题.首先给出了一个基于最小词频的文档频方法,然后把粗糙集引入进来并提出了一个属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择方法.该综合方法首先使用基于最小词频的文档频方法进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.  相似文献   

7.
在文本分类中,互信息是一种被广泛应用的特征选择方法,但是该方法仅考虑了特征的文档频而没有考虑特征的词频,导致它经常倾向于选择出现频率较低的特征.为此,提出了一个新的文档频并把它引人到互信息方法中,从而获得了一种优化的互信息方法,该优化的互信息方法不但考虑了特征的文档频而且还考虑了特征出现的词频,实验结果表明该优化的互信息方法性能良好.  相似文献   

8.
文本分类规则的提取和优化是衡量文本分类系统适应性能和分类能力的主要指标.在基于粗糙集和模糊聚类理论的文本分类系统中,结合粗集理论及不完备信息系统理论,提出了分类规则的提取和优化方法,通过实验和分析,产生用户满意的约简规则,从而能够快捷迅速地指导新文本的分类,提高系统的适应性能和分类能力.  相似文献   

9.
基于文本表示的特征项权值确定方法研究   总被引:6,自引:2,他引:4  
文本表示中特征项的权值确定方法决定了文本特征的提取,在很大程度上影响了文本分类的准确率,通过系统总结常用的几种特征项权值的确定方法,并逐一比较分析和研究,提出了一种性能较好的确定方法——据位定权函数,经实验验证据位定权函数确实能够有效地提高文本分类的准确性。  相似文献   

10.
针对某市公安110接处警文本描述进行案件分类的需求,参考现有文本分类方法在其他行业的应用,搭建了应用于警情描述的文本分类系统.通过论证常见分类网络适用场合及其优缺点,结合对警情数据中案件描述特征的分析,提出了基于改进卷积循环神经网络的模型,该模型优化了关键特征提取过程,弥补了现有模型短文本局部特征提取不足的缺陷.实验表明,该模型的准确率比常见分类模型提升了2%~3%,且能够有效保证数据局部特征的关联性,可以对案件描述所对应的案件类型进行准确分类,从而提高公安接处警平台的自动化效率.  相似文献   

11.
在分析决策树算法及遗传算法的基础上,提出了一种将两种算法结合起来挖掘分类规则的新方法.实验证明,它不仅解决了数据挖掘中的“碎片”问题,同时还提高了分类的准确率.  相似文献   

12.
随着Internet网络的高速发展,海量的未标签文档和相对少量的已标签文档是当前Web文档的一个普遍情形,如何有效的利用少量的已标签文档去聚类海量的未标签文档,从而更好地获取有价值的信息,即半监督学习问题,已成为当前研究的热点.本文针对目前Web文本挖掘领域的无监督学习算法的检测率不高,而监督学习算法需要大量的标签数据又不易获得的问题,将半监督中的标签绑定技术与优化球形k-均值聚类算法相结合进行Web文本挖掘,并使用真实的测试数据对Web文本挖掘系统进行实验.结果表明本文方法对有价值文本具有较高检测率及较低的误报率,整体检测性能优于基于监督和无监督学习的Web文本挖掘算法.  相似文献   

13.
Web文本分类是Web数据挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,本文提出一种综合粗糙集与支持向量机的Web文本分类模型,利用粗糙集的属性约简方法,减少支持向量机训练数据的维数,提高Web文本分类的性能与效率.  相似文献   

14.
时态数据采掘中的时态型与时间粒度研究   总被引:10,自引:0,他引:10  
研究了时态型与时间粒度的有关理论,提出了时态型、时间粒度、粗时间粒度、基时态型、基时间粒度和基准时间等概念,并研究了它们在刻画绝对时间的关系,最后给出一个一类简单频繁事件式发现的例子,对于研究时态数据采掘具有重要意义。  相似文献   

15.
ID3算法在分类数据挖掘中应用广泛,但其在对大规模训练样本集进行挖掘时,占用主存空间较大,且执行效率不高.运用属性约简和分组计数方法对训练样本集进行数据缩减,得到数据规模较小的新训练样本集,然后再运用ID3算法对新训练样本集进行分类挖掘.整个执行过程全部使用现代数据库技术和存储过程编程加以实现.实验表明,通过改进设计提高了ID3算法的执行效率,增强了算法的扩展性.  相似文献   

16.
提出了一种基于多分类-关联规则的快速分类算法——FCMAR,该算法在建立频繁模式树(FP-tree)时裁减掉不能生成频繁规则的项目,因而可减少FP-tree的节点数目,有效地降低时间和空间复杂度,实验结果表明该算法是有效可行的.  相似文献   

17.
研究了Windows操作系统中内核钩子的保护原理,并针对交互式反汇编器交叉引用功能的不足,提出了一种深层次内核钩子挖掘算法.首先用该算法挖掘出指定内核函数的内部调用以及包含钩子的内核函数的所有被调用位置,然后用Python编写基于函数调用原理的挖掘算法,最后用C++编写过保护实验的驱动程序.研究结果表明:过保护实验是成...  相似文献   

18.
KNN算法是一种应用广泛的人工智能算法,在文本分类应用中,简单有效,易于实现.但是,KNN分类的时间复杂度与训练样本数量成正比,而且,训练样本分布密度的不均匀性将导致分类准确性的下降.本文在KNN算法的基础上,提出一种改进算法.算法分析了训练样本的分布密度,通过裁减高密度区域训练样本,降低样本数量,调节训练样本分布,达到提高分类准确性的目的.实验证明,基于密度的改进KNN文本分类算法在降低时间复杂度的同时,还具有较好的准确率和召回率.  相似文献   

19.
介绍了数据挖掘中分类分析的过程及剪枝原理,给出了在实际应用的例子.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号