首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
KNN算法是一种应用广泛的人工智能算法,在文本分类应用中,简单有效,易于实现.但是,KNN分类的时间复杂度与训练样本数量成正比,而且,训练样本分布密度的不均匀性将导致分类准确性的下降.本文在KNN算法的基础上,提出一种改进算法.算法分析了训练样本的分布密度,通过裁减高密度区域训练样本,降低样本数量,调节训练样本分布,达到提高分类准确性的目的.实验证明,基于密度的改进KNN文本分类算法在降低时间复杂度的同时,还具有较好的准确率和召回率.  相似文献   

2.
文本自动分类技术是随着网络信息化而发展起来的。它的作用是将各地海量的电子资源通过网络联系在一起,实现资源共享。本文通过对自动分类技术的类型及基本概念的概述,提出了自动分类中两种重要的算法技术。  相似文献   

3.
空间数据分类算法大部分基于单表,将多关系数据挖掘的分类技术用于构建空间数据对象的分类模型,特别是元组ID传播技术使得空间数据对象可以高效表征包括领域属性和空间位置的完整特征,从而使得分类依据更客观。实验表明SCrossMine算法可以获取较高的分类精度,同时分类结果也能较好不同类别对象的空间分布格局。  相似文献   

4.
设计了一种基于VSM模型的动态文本分类器,它能针对文本的不同类别建立不同的特征子空间,各特征子空间之间相互独立,同时能将文本分类中常用的2个评估指标召回率和精确率转化为正确分类率和错分率;考察了特征子空间的维数和判定界值对这2个指标的影响.该动态文本分类器能对用户输入的文本流进行动态分类.  相似文献   

5.
董贺  荣光怡 《松辽学刊》2008,29(4):107-108
分类算法是数据挖掘中的最重要的技术之一.通过对当前提出的最新的具有代表性的分类算法,从预测精度、学习效率、健壮性等方面进行深入的分析和比较,总结每类算法的各方面特性,从而便于研究者对已有的算法进行改进,提出具有更好性能的新的分类算法,同时方便使用者在应用时对算法的选择和使用.  相似文献   

6.
介绍了数据挖掘中分类分析的过程及剪枝原理,给出了在实际应用的例子.  相似文献   

7.
提出了一种基于多分类-关联规则的快速分类算法——FCMAR,该算法在建立频繁模式树(FP-tree)时裁减掉不能生成频繁规则的项目,因而可减少FP-tree的节点数目,有效地降低时间和空间复杂度,实验结果表明该算法是有效可行的.  相似文献   

8.
田苗苗 《松辽学刊》2008,29(1):54-56
本文对决策树数据挖掘方法进行分析和比较,并应用该分类方法对网页文本进行分类,仿真实验结果证明决策树算法在文本分类研究领域有着广阔的应用前景.  相似文献   

9.
基于支持向量机的文本分类技术研究   总被引:2,自引:2,他引:0  
介绍了文本分类的基本过程,讨论了常用的文本分类方法如K-最近邻分类算法K-NN(K-Nearest Neighbors,K-NN)、朴素贝叶斯分类算法NB(Naive Bayesian Classifier,NB)、决策树分类算法DT(Decision Trees,DT),并探讨了基于支撑向量机SVM(Support Vector Machines,SVM)的文本分类基本原理及方法.  相似文献   

10.
网络智能文本分类系统的研究与实现   总被引:2,自引:0,他引:2  
介绍了文本自动分类的基本原理及相关的算法 ,提出了一种基于网络的智能文本分类系统的基本框架 ,并详细地阐述了实现它的关键技术  相似文献   

11.
GenExtractor是一个新的基于Web的生物信息挖掘系统,该系统通过Internet对网上生物学数据库中的生物序列数据和基因表达数据进行挖掘,在指定的人染色体区域内搜寻具有特定功能的基因.该系统可为分子生物学家寻找候选基因、收集相关信息等提供有效帮助.通过对人DNA修复基因的查寻,验证了该系统的实用效果.  相似文献   

12.
在分析决策树算法及遗传算法的基础上,提出了一种将两种算法结合起来挖掘分类规则的新方法.实验证明,它不仅解决了数据挖掘中的“碎片”问题,同时还提高了分类的准确率.  相似文献   

13.
在概述Web挖掘以及Web日志挖掘的相关领域的发展和技术及其理论基础上,详细研究了Web日志挖掘的预处理技术,Web日志挖掘利用数据挖掘技术分析和挖掘网络日志,获取网站使用情况的有价值模式,应用于个性化服务、网站设计和商业决策等方面.通过将日志挖掘的结果与最优路径算法将结合,进一步优化网站,设计出拥有最优路径拓扑结构的网站,使优化后的网站更具优势,在同类网站中能够脱颖而出.  相似文献   

14.
针对如何减少关联分类方法中冗余规则,增加FOIL算法的规则数,以提高分类准确率,提出了一种结合关联与FOIL算法的分类方法,并称之为ACFA.首先,以类支持度和自信度为度量提取长度为1和2的规则,其次,利用Apriori算法挖掘出频繁2-项集F2,然后在频繁2-项集F2申挑选满足条件的频繁项建立候选集,最后在候选集上运用FOIL算法来产生分类规则.实验表明算法ACFA不但有效减少了关联分类方法中冗余的规则,并大大增加了FOIL算法的规则数,提高了分类的准确率.  相似文献   

15.
本文介绍了用FoxBase+2.10设计的文本文件闲读器.该阅读器具有前后翻页、翻行的功能,稍加扩充也可具有查找、打印等功能.  相似文献   

16.
一个基于频繁项集的时态数据挖掘算法   总被引:5,自引:0,他引:5  
研究了基于频繁项集的一个时态效据挖掘算法。首先,引进了基于频繁项集关联规则的概念,性质,然后,给出了基于时态约束关联规则的相关概念的定义和性质分析。最后,给出了在时态效据库中挖掘具有时态约束的最大频繁项集,并在此频繁项集生成时态关联规则的算法,由此导出了一种具有一定意义的时态关联规则挖掘方法,这种方法可以崩于商品销售。股票价格等问题的知识发现,最后讨论了该算法在股票效据分析上的一个应用。  相似文献   

17.
随着Internet网络的高速发展,海量的未标签文档和相对少量的已标签文档是当前Web文档的一个普遍情形,如何有效的利用少量的已标签文档去聚类海量的未标签文档,从而更好地获取有价值的信息,即半监督学习问题,已成为当前研究的热点.本文针对目前Web文本挖掘领域的无监督学习算法的检测率不高,而监督学习算法需要大量的标签数据又不易获得的问题,将半监督中的标签绑定技术与优化球形k-均值聚类算法相结合进行Web文本挖掘,并使用真实的测试数据对Web文本挖掘系统进行实验.结果表明本文方法对有价值文本具有较高检测率及较低的误报率,整体检测性能优于基于监督和无监督学习的Web文本挖掘算法.  相似文献   

18.
,分析了仿生学应用于空间数据挖掘的必要性及可行性;阐述了神经网络、遗传算法和基因表达式编程的应用研究;探讨了空间数据挖掘仿生学方法以及空间数据挖掘仿生学方法的未来发展.  相似文献   

19.
懒散关联分类针对每个待分类实例的特征进行分类关联规则的挖掘,通常能取得较高的准确率。然而,由于某些数据集中存在一些质量不好的特征,将影响懒散关联分类的准确率。此外,分类耗时较长是懒散关联分类另一个缺点。针对上述问题,提出了一种基于信息熵的懒散关联分类算法。该算法以信息熵度量属性值的质量,仅选取每个待分类实例中最好的k个属性值,将得到规模较小且与待分类实例紧密相关的训练子集,从中高效挖掘到高质量的规则。实验表明,与懒散关联分类相比,基于信息熵的懒散关联分类方法提高了分类准确率,并极大减少了运行时间。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号