首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
决策树分类算法的分析和比较   总被引:2,自引:0,他引:2  
在数据挖掘中存在多种算法,决策树分类算法是应用比较多的一种。基于决策树分类算法的研究现状,对各种决策树分类算法的基本思想进行了阐述,并对不同的算法进行了分析和比较。  相似文献   

2.
数据分类是数据挖掘的主要内容之一,通过分析训练数据样本,产生关于类别的精确描述.贝叶斯分类是数据挖掘领域中一种常用的有效分类方法.在关系学习中,贝叶斯分类算法有很多种,对这些算法进行总结、比较,指出其优点与不足,对提高分类效率有很大帮助.本文对已有的关系学习中贝叶斯分类算法作了详细的比较,并进行归纳总结.在单关系学习中重点介绍了几种基于粗糙集的贝叶斯分类器和加权贝叶斯分类算法,并分析了各种方法的模型、权值确定方法、优缺点及进一步工作方向.在多关系学习中主要比较了几种基于语义关系图的贝叶斯分类算法,重点介绍了MI-MRNBC模型.最后对本文工作进行了总结与展望,提出进一步工作方向是研究基于粗糙集的多关系贝叶斯分类算法.  相似文献   

3.
数据挖掘技术己经引起了信息产业界的广泛关注。关联规则是其中一个主要的研究方向,有着广泛的应用价值。对数据挖掘中的关联规则挖掘算法进行了研究和探讨,包括数据挖掘的概念、数据挖掘的理论基础、数据挖掘的主要问题和数据挖掘的分类等。Apriori算法是发现频繁项目集的经典算法,但是该算法需反复扫描数据库,因此效率较低。在分析分析总结了关联规则中经典的Apriori算法及其改进算法的基础上,提出了一种挖掘算法的改进思想,并通过一个实际例子对改进算法和原算法做了分析和比较,以及对关联规则进行了展望。  相似文献   

4.
分类是一个映射的过程,它将未标明类别的对象映射到已有的类别中.分类算法是数据挖掘研究中十分关键的问题.通过对常用Web分类方法研究现状的分析,发现这些方法在解决多类别网页文本分类问题方面存在一定的局限.  相似文献   

5.
针对传统二叉树在多分类问题上存在分类精度不够高和时间复杂度较高的不足,提出了一种基于二叉树结构双优化的SVM多分类学习算法。此算法利用遗传算法对已经提取的特征参数子集和核参数进行双重优化,以获得最优的主要特征参数,从而有效地解决了样本结构复杂、分布不平坦的多分类识别问题。作者运用UCI数据库中的数据,通过仿真实验,并就经度和时间复杂度与有向无环图法和一对一法作比较,结果表明本文提出的算法具有较好的优越性。
  相似文献   

6.
随着数据挖掘技术在现实问题中的广泛应用,多标签学习现已成为数据挖掘技术中的一个研究热点.组合分类器链(ECC)算法是一种性能较好的多标签分类方法,其分类效果好、准确度高,但该算法的时空复杂度较高,不能适应大规模多标签数据分类任务.为此提出了一种基于Spark的组合分类器链多标签分类方法,将串行组合分类器链算法的各步骤进行了并行化实现.通过单机实验和集群并行化实验,证明该方法对大规模多标签数据集具有良好的适应能力和加速比,且分类效果不输于传统的串行多标签分类方法.  相似文献   

7.
本文主要针对数据挖掘分类算法研究现状,对目前发展较成熟的几种分类算法如决策树、关联规则分类、神经网络、贝叶斯方法、遗传算法等分别进行了论述,并且展望了数据挖掘技术的未来。  相似文献   

8.
数据挖掘领域中的聚类方法   总被引:4,自引:0,他引:4  
聚类算法是数据挖掘中的核心技术,随着对聚类算法广泛深入的研究,产生了许多不同的适用于数据挖掘的聚类算法;文章从算法的角度论述了如何在数据挖掘中进行聚类分析,并通过基于评价聚类算法好坏的8个标准,对数据挖掘中近几年提出的常用聚类方法作了比较分析,以利于人们更容易、更快速的找到一种适用于特定问题的聚类算法.  相似文献   

9.
基于多关系的空间分类算法研究   总被引:1,自引:0,他引:1  
空间数据挖掘的应用领域很广,空间分类是空间数据挖掘中一项重要的任务,现有的空间分类算法都是基于传统的方法,在单表上进行的.本文提出了一种新的空间分类算法,基于多关系的方法创建决策树,并验证了算法的正确性及有效性.  相似文献   

10.
俞乐克  孙蕾 《科技信息》2009,(27):I0055-I0056
随着人们生产和搜集数据的能力大幅度提高,迫切需要找到从现有数据库系统/广域网的大量数据中提取知识的手段。因此产生了基于数据库与数据仓库系统的数据挖掘方法与技术,其中分类是数据挖掘中一个重要的分析过程。文中阐述了数据挖掘的相关概念、方法,并介绍了遗传编程相关理论,提出了基于进化编程的分类算法,将遗传编程的思想运用于数据挖掘的分类方法中,最后,结合实例给出了实验数据。  相似文献   

11.
张吉武 《科技信息》2011,(31):255-256
为了给规则集中赋予规则优先权提供依据,文中引入数据挖掘中关联规则挖掘的几种算法,通过静态分析进行对规则优先权分配和动态调整,从而使系统决策者及时调整规则优先权,使主动数据库系统性能达到最佳状态。  相似文献   

12.
目的 研究分类算法在中药科研中的应用及其进展,为中药领域数据挖掘的相关研究提供有益的参考和借鉴。方法 利用国内知网、万方和维普等作为主要文献检索平台,整理文献建立研究对象文献数据库。结果 从311746篇文献中,整理得到345篇相关文献;分类算法的应用较多集中在中药药性研究、药物分析、药物安全性/毒性、方剂配伍规律和中药功效等5个研究子领域;且人工神经网络算法运用的范围最广,适用于中药科研的多个子领域。结论 分类算法在中药科研中应用种类多,且涵盖的研究范围广;不同数学模型的分类算法均有特色,应当结合中药数据的特点,优选不同的分类算法;通过改进完善传统的分类算法,更有利于充分发挥分类算法在中药传承和创新中的作用。  相似文献   

13.
为了解决传统方法不能按照训练样本量设计最优网络模型,集成效率低的弊端,通过机器学习方法研究数据库小数据集并行集成方法。机器学习选用朴素贝叶斯算法,依据条件独立性假设,通过计算目标先验概率,采用贝叶斯定理求出其后验概率,对后验概率进行比较,完成决策分类,对基分类器进行训练,把不同朴素贝叶斯基分类器当成集成分类器,在原始数据库上对基分类器进行训练,依据分类结果对数据库中小数据集样本分布进行调整,将其当成新数据集对基分类器进行训练,按照基分类器的表现,通过加权将其组合在一起,产生强分类器,实现对数据库小数据集的集成处理。通过MapReduce并行处理完成并行数据集成,输出并行集成结果。通过仿真实验与实例分析验证所提方法的有效性,结果表明:所提方法在训练样本规模相同的情况下有最高的分类精度和最小的波动,在不同集成规模下的分类精度一直最高,波动最小;所提方法可达到数据的最优集成,数据失效比降低,合成比提高。可见所提方法集成精度高,计算稳定性强,集成效果好,效率优。  相似文献   

14.
摘要:[目的]为了提高城市建筑物信息提取精度,本文在前人研究的基础上,针对下垫面结构复杂的城市区,提出了多尺度分割和规则数据库结合的面向对象方法,对城市区建筑物信息进行提取。[方法]该方法首先采用Full Lambda-Schedule算法对QuickBird多波段和全波段数据融合数据进行尺度分割,获取尺度分割结果;再根据光谱特征、形状特征、几何特征和纹理特征等指标建立规则知识库,利用规则数据库对尺度分割结果进行建筑物信息的提取。以广州市白云区为研究区,利用尺度分割和规则数据库结合的方法提取建筑物信息,提取结果与其它分类结果进行了比较。[结果和结论]结果表明:基于规则的面向对象的分类方法可以有效地避免传统的基于像素分类时出现的椒盐现象,避免一些错分、漏分的情况分类(如:道路和阴影),结果更加符合人类的思维方式,与实际值更接近,总体分类精度达到87.0154%,Kappa系数为0.8714,比一般面向对象分类方法更适合作为城市建筑物专题数据库更新的有效方法。  相似文献   

15.
本文根据我国铁路特点,论述了建立运行图数据库的原则、数据内容以及数据的存贮方式;总结了特殊信息的处理方法;探讨了压缩容量的途径等,为实现运行图数据存贮和处理标准化做了一定的基础性工作.  相似文献   

16.
针对Apriori算法在面对大规模数据时效率较低的问题,提出了一种基于划分和压缩数据库的改进方法。该方法首先依据特征数据出现的频率将数据按照升序存储在临时数组中;然后将原始事务数据库分为几个互不相交的事务数据库,使得子数据库能够容纳在内存中;最后根据每个子数据库计算出的频繁项集计算整个数据库的频繁项集,从而消除了不必要的冗余数据。通过改进可以将大规模数据集进行有效的划分和压缩,对子数据库进行关联规则挖掘。实验结果表明,改进的Apriori算法在针对海量数据挖掘的执行速度和效率都有很大提高。  相似文献   

17.
本文以中国科学院科技专家库建设为案例,针对科技专家库建设和使用中存在的不足,探讨在信息安全环境下利用智能技术完善并更新专家库信息、运用综合指标遴选专家的路径,在此基础上总结了中科院科技专家库信息系统的设计与实践。首先,基于Python大数据网络爬虫技术和文献情报分析相结合的方式,补充专家基础数据,并定期更新专家信息;其次,建立专家信誉度评价指标体系;第三,在遴选专家时,运用TF-IDF算法对项目和专家信息进行关联分析,并结合学科分类标准对专家研究领域分类,以提高项目-专家研究领域的匹配度;第四,综合各项关键指标遴选确定最终候选专家;最后,在此基础上设计并开发了中科院科技专家库信息系统,有效提升了专家库管理和专家遴选的工作效率。  相似文献   

18.
数据挖掘技术及其在营销中的应用   总被引:7,自引:0,他引:7  
对数据挖掘这一新兴数据分析技术进行了综述 ,阐述了数据挖掘产生的背景及其定义、任务和过程 ,论述了几种常用的数据挖掘算法 ,并给出了数据挖掘技术在营销中的应用实例 .  相似文献   

19.
对于最初给定的随机种子,随机函数都会生成一个相同的数列.数据库数据随机加密,是一种利用随机函数的随机数序列与数据库数据进行异或等运算、实现数据库数据加密的方法.对数据库数据随机加密算法进行研究和探讨,实现了在sql数据库中数据随机加密、解密的应用.  相似文献   

20.
开展全国性植被清查、分类和植被志研编是一项重大的科学工程,可为山水林田湖草沙的系统性治理和国家生态文明建设提供理论和技术支撑。本文介绍了中国植被调查的历史和现状,主要植被分类系统的分类依据、等级、分类结果和特点,以及国家和地方层面植被志研编进展,指出了我国植被科学研究中存在植被分类混乱、植被志研编体系尚不健全、缺乏统一的植被数据库建设、植被家底不清等不足,提出了加快建立国家数字植被大数据平台、进一步规范全国和地区植被志研编体系的建议。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号