首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
KNN算法是一种应用广泛的人工智能算法,在文本分类应用中,简单有效,易于实现.但是,KNN分类的时间复杂度与训练样本数量成正比,而且,训练样本分布密度的不均匀性将导致分类准确性的下降.本文在KNN算法的基础上,提出一种改进算法.算法分析了训练样本的分布密度,通过裁减高密度区域训练样本,降低样本数量,调节训练样本分布,达到提高分类准确性的目的.实验证明,基于密度的改进KNN文本分类算法在降低时间复杂度的同时,还具有较好的准确率和召回率.  相似文献   

2.
分类算法是数据挖掘、机器学习和模式识别中一个重要的研究领域.单一的分类算法一般会得到不同的分类结果,多分类器融合算法可以将各分类器的结果进行集成来提高系统的分类性能.该文提出一种多分类器融合算法进行分类分析,结果证明该算法在解决目标分类中具有优越性.  相似文献   

3.
基于频带能量和相同步的运动意识任务分类研究   总被引:1,自引:0,他引:1  
提出了基于信号频带能量和相同步作为脑电特征向量,实现对左右手运动意识任务的分类方法.用线性判别式算法对左右手运动想象脑电模式进行识别,识别正确率最高达到了86.43%,与只用特定频带能量作为脑电特征分类结果相比,效果更好.为大脑运动意识任务的分类提供了新思路.  相似文献   

4.
针对多类分类问题中样本数量分布不均衡和测试速度较慢两种情况,本文提出了两个基于闭球的二叉树多类支持向量机算法:MEB-MCSVM-1和MEB—MCSVM-2.算法利用最小闭球来协调样本数量间的不均衡性,利用球心进行最远距离聚类或最近-最远距离聚类,构建二叉树结构,使二又树的每个节点代表】个二类支持向量机.为了检验所提算法的有效性,本文从需要训练的SVM个数、训练时间和测试时间三个方面对五种算法1-v-1,1-v-r,MEB-MCS—VM-0,MEB-MCSVM-1和MEB—MCSVM-2进行了比较分析,结果表明本文所提方法对解决多类分类问题中样本数目不均匀和测试速度较慢这两种情况有明显的优势,实用性更强.  相似文献   

5.
将alman滤波算法与BP算法相结合,提出一种用于模式分类的多层感知机模型和学习算法,并对计算实例进行了计算机模拟实验,实验结果表明,这种算法适用于非线性模式分类,且具有较快的收敛速度。  相似文献   

6.
传统的分类算法通常设置统一的最小置信度提取规则.如果训练数据集是不平衡的数据,统一置信度的分类算法在小类的准确率不高.本文提出了一种基于训练集类分布的多置信度不平衡数据分类算法CBMI.在CBMI算法中,根据训练数据中类的分布设置不同的最小置信度提取规则,小类置信度的临界值比大类置信度低.此外,算法CBMI综合三种度量选择“好”的属性值.实验结果表明,基于多置信度不平衡数据分类算法CB—MI提高了小类数据分类的正确率.  相似文献   

7.
田苗苗 《松辽学刊》2008,29(1):54-56
本文对决策树数据挖掘方法进行分析和比较,并应用该分类方法对网页文本进行分类,仿真实验结果证明决策树算法在文本分类研究领域有着广阔的应用前景.  相似文献   

8.
针对如何减少关联分类方法中冗余规则,增加FOIL算法的规则数,以提高分类准确率,提出了一种结合关联与FOIL算法的分类方法,并称之为ACFA.首先,以类支持度和自信度为度量提取长度为1和2的规则,其次,利用Apriori算法挖掘出频繁2-项集F2,然后在频繁2-项集F2申挑选满足条件的频繁项建立候选集,最后在候选集上运用FOIL算法来产生分类规则.实验表明算法ACFA不但有效减少了关联分类方法中冗余的规则,并大大增加了FOIL算法的规则数,提高了分类的准确率.  相似文献   

9.
针对分类中如何有效利用负关联模式提高分类准确率,提出了一种基于正负关联模式的分类算法.利用类Apriori算法挖掘包含正项或/和负项且项与项之间互相关联的正负关联模式来产生分类规则.为提高挖掘效率,先找出能覆盖训练集的信息熵最小k个正,负项.然后,把这k个正/负项分别与其他项进行连接得到相应的正负关联模式.实验表明,该算法有效减少了挖掘的规则数,极大减少了挖掘时间,并提高了分类准确率.  相似文献   

10.
在数据量很大时,原有的数据分类方法变得失效。因此提出一种新的基于抽样的数据分类算法PSS,并提出三种PSS并行化算法AS,HS和VS算法。在相同的数据量下,PSS算法比传统的sPRINT算法具有更好的性能。实验结果表明,PSS算法及其并行化算法是一种高效的数据分类算法,尤其适用于解决海量数据库中的数据分类问题。  相似文献   

11.
决策树分类ID3算法研究   总被引:1,自引:0,他引:1  
张桂杰  王帅 《松辽学刊》2008,29(3):135-137
分类是数据挖掘的重要内容之一,在许多领域得到广泛应用,现已有多种分类方法,其中决策树分类法在海量数据环境中应用最为广泛,本文分析了决策树分类ID3算法的原理,给出构造决策树的基本算法,指出ID3算法构造决策树的优缺点,针对ID3算法倾向于取值较多的测试属性的缺点,引入一个参数来约束属性选择,给出一种优化算法.  相似文献   

12.
基于Web挖掘的个性化服务   总被引:3,自引:0,他引:3  
协同过滤和基于内容的过滤等传统个性化服务技术存在不能处理大规模数据、需要用户输入主观的评价信息、只能利用静态的统计特征等缺陷.最近提出基于Web使用挖掘和Web内容挖掘的个性化服务体系结构,在此基础上进一步引入了Web结构挖掘,统称为基于Web挖掘的个性化服务体系结构;给出了通过聚类算法获取总体使用特征、内容特征和结构特征及其一致化表示的方法;提供了通过总体使用特征、内容特征和结构特征实现个性化服务的途径.  相似文献   

13.
时态数据采掘中的时态型与时间粒度研究   总被引:10,自引:0,他引:10  
研究了时态型与时间粒度的有关理论,提出了时态型、时间粒度、粗时间粒度、基时态型、基时间粒度和基准时间等概念,并研究了它们在刻画绝对时间的关系,最后给出一个一类简单频繁事件式发现的例子,对于研究时态数据采掘具有重要意义。  相似文献   

14.
GenExtractor是一个新的基于Web的生物信息挖掘系统,该系统通过Internet对网上生物学数据库中的生物序列数据和基因表达数据进行挖掘,在指定的人染色体区域内搜寻具有特定功能的基因.该系统可为分子生物学家寻找候选基因、收集相关信息等提供有效帮助.通过对人DNA修复基因的查寻,验证了该系统的实用效果.  相似文献   

15.
在分析决策树算法及遗传算法的基础上,提出了一种将两种算法结合起来挖掘分类规则的新方法.实验证明,它不仅解决了数据挖掘中的“碎片”问题,同时还提高了分类的准确率.  相似文献   

16.
ID3算法在分类数据挖掘中应用广泛,但其在对大规模训练样本集进行挖掘时,占用主存空间较大,且执行效率不高.运用属性约简和分组计数方法对训练样本集进行数据缩减,得到数据规模较小的新训练样本集,然后再运用ID3算法对新训练样本集进行分类挖掘.整个执行过程全部使用现代数据库技术和存储过程编程加以实现.实验表明,通过改进设计提高了ID3算法的执行效率,增强了算法的扩展性.  相似文献   

17.
应用最大频繁项集信息熵来进行数据流变化检测.采用了一种新的数据流差异度度量方法;提出了一种新的有效挖掘最大频繁项集的算法;给出了应用最大频繁项集信息熵进行数据流变化检测的算法.最后,对算法的时间效率和空间效率进行了分析.  相似文献   

18.
基于Web Log的数据预处理研究   总被引:4,自引:0,他引:4  
Web日志文件是进行Web挖掘的重要数据来源,对Web日志的数据预处理是Web挖掘过程中关键的一步,首先介绍了Web日志挖掘的体系结构,然后详细地分析了Web日志文件,并对基于Web日志文件的数据预处理进行了较深入的研究,提出了包括数据净化、数据抽取、数据转换和数据集成等过程的具有实际应用价值的数据预处理的实现方法。  相似文献   

19.
摘要: 机场应急救援工作的规模决策对于抢救生命财产至关重要. 针对目前救援规模决策缺乏合理规则指导的问题, 提出了一种基于满意度控制的数据挖掘方法. 该方法将满意度理论中的选择函数和拒绝函数植入数据挖掘关联规则算法 中,在保持样本完好性的同时识别异样数据,控制挖掘进程,建立有效的机场应急救援辅助决策规则库,用以辅助决策 者作出更为科学合理的决策. 实验结果表明,该算法能挖掘出合理的应急救援规模决策规则,提高挖掘的准确性和效率.  相似文献   

20.
一种文本分类数据挖掘的技术   总被引:7,自引:0,他引:7  
挖掘的理论和应用研究是数据挖掘领域一个新的重要分支,介绍了一种文本数据挖掘方法. 首先,论述了文本挖掘的意义和重要性,探讨了文本挖掘的定义和文本分类的一些形式,然后讨论了一个以数据预处理、特征提取、特征表示和特征匹配等文本分类的一些关键理论问题,并给出了一个基于该方法的文本分类系统的实验结果,实验结果表明了该方法的可行性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号