首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
为解决多维数据模型与关系数据模型之间的双向数据系统查询、数据清洗、数据转换、实现集中和分发数据的准确性与一致性等问题,通过对概念格的相关研究,将全局数据挖掘与局部数据挖掘相结合,提出一种改进的基于局部信息的全局概念格的数据挖掘算法,并将挖掘过程分解为ETL(Extraction-Transformation-Loading)动作,结合ETL处理工作流,实现并行分布式海量数据的时序挖掘。实验证明,该算法对增强数据加工能力具有一定的实用性。  相似文献   

2.
Web数据挖掘是将数据挖掘技术和理论应用于对互联网资源挖掘的一门新兴研究领域.XML能够为web数据挖掘提供半结构化的数据模型,解决了Web挖掘中的数据源问题.分析了Web数据挖掘的特点,并将XML技术引入Web数据挖掘领域中,进而在此基础之上介绍了一种数据挖掘的模型.  相似文献   

3.
F:阐述数据挖掘的决策树算法,对ID3算法基本理论和原理进行介绍,运用该算法对教师教学质量测评数据进行分析,构造出质量测评数据决策树模型  相似文献   

4.
分析了云计算和数据挖掘的关系,研究了SLIQ和SPRINT两种数据挖掘算法,提供了一种数据存储量不断增加时基于动态云模型的数据挖掘算法。  相似文献   

5.
飞机移动装配中因作业质量问题增加的修复作业会打乱装配计划并造成经济损失,为解决该问题提出了一种预测-重调度形式的闭环框架,该框架的前端利用质量相关部件衰退以及作业质量特性偏差的历史数据训练了作业质量预测模型,基于预测结果,重点针对后端建立了装配作业重调度模型并设计了改进型免疫算法(I-I-A)用于生成新的装配计划。数值实验部分从不同角度验证了I-I-A的有效性,同时也对所提闭环框架的性能优劣进行了对比分析。  相似文献   

6.
数据抽取是数据仓库和数据挖掘的基础,将挖掘数据环境和数据抽取技术结合起来,不但可以提高数据仓库的利用率,而且可以加快数据抽取的速度,提高设备的利用率.基于这种理念,以挖掘数据环境来提高数据抽取效率为目的,提出一种将电信数据模型与K-means算法相结合,从而提高数据抽取速度的方法,并探讨了将数据挖掘技术应用于数据抽取的可行性.  相似文献   

7.
数据挖掘可以从海量数据中发现模型和数据间的关系并做出预测。针对入侵检测系统的特点,将数据挖掘算法应用于入侵检测系统中,并着重研究了聚类算法中的K均值算法和一种改进的K均值算法。  相似文献   

8.
针对隐私保护数据挖掘中的维数灾难问题,提出一种基于随机投影技术的隐私保护算法.该算法通过定义l投影扰动和Prevent-Ω数据集的概念,构造一种根据投影维数的不同,投影矩阵的稀疏度也相应变化的稀疏投影数据扰动,增加了数据的安全性.实验结果表明,在保护数据隐私的前提下,该算法能有效保证数据挖掘应用中的数据质量.  相似文献   

9.
研究了如何利用查询和视图来解决半结构化数据查询重写问题.给出了一种OEM数据模型和一种半结构化数据查询重写算法.算法借用了半结构化数据查询重写桶算法的思想,解决了半结构化数据模型之下查询重写的一些新问题.理论分析表明,它降低了算法的代价.  相似文献   

10.
首先阐述了适用于经济数据的数据挖掘算法及其应用的重要性,结合当前国家经济指标体系中经济指标说明了数据仓库的模型结构及其实现特点,并采用SQL Server 2005的数据仓库和数据挖掘解决方案论述了面向经济数据的数据挖掘应用的解决方法、系统结构、算法实现流程等,最后讨论了在经济领域中应用数据挖掘算法的发展趋势和关键技术.  相似文献   

11.
面向装配信息数据表达与飞机零部件装配夹具协同设计问题,阐述了飞机装配对象及其夹具多域集成建模过程,该建模过程给出了多域集成模型的知识框架.其次,定义各领域信息构成,全面系统地描述了装配工艺规划的所有数据.提出了装配对象与装配夹具之间互映射机理,详细阐述了互映射过程中所需的4个关键知识点.最后以翼尖小翼为实例,证明建模方法的可行性与有效性,使夹具设计更加系统化,提高了飞机结构、装配工艺规划和工装设计的协同设计效率和响应速度.  相似文献   

12.
数据挖掘领域中的聚类方法   总被引:4,自引:0,他引:4  
聚类算法是数据挖掘中的核心技术,随着对聚类算法广泛深入的研究,产生了许多不同的适用于数据挖掘的聚类算法;文章从算法的角度论述了如何在数据挖掘中进行聚类分析,并通过基于评价聚类算法好坏的8个标准,对数据挖掘中近几年提出的常用聚类方法作了比较分析,以利于人们更容易、更快速的找到一种适用于特定问题的聚类算法.  相似文献   

13.
将关联规则数据挖掘的方法运用到教学评价中,从教学评价数据中挖掘有助于提高教学质量的相关信息。确定了教学评价的影响因素,给出了数据挖掘设计步骤。运用关联规则中Apriori算法,寻找教学评价成绩与教师基本情况之间的关系,为教师提供有价值的参考,帮助教学部门进行决策,从而更好地开展教学工作。  相似文献   

14.
个性化推荐系统能够根据用户的兴趣偏好主动推荐他所需的资料。它的出现解决了人们寻找信息难的问题。数据预处理将原始的真实数据库转换成适于数据挖掘的挖掘数据库,为提高挖掘算法的效率,改善挖掘结果的效果打下了良好的基础。[1]  相似文献   

15.
数据挖掘与数据库的集成方法   总被引:5,自引:0,他引:5  
数据挖掘的研究主要集中在挖掘算法上,但在数据库领域至关重要的数据挖掘系统与数据库的有效集成研究却很少,为此,在详细研究了数据挖掘耦合数据库的主要方法(通过SQL(Structured Query Language)游标接口读取数据、保存数据至本地磁盘cache进行挖掘、用存储过程封装挖掘算法、采用用户自定义函数表达挖掘算法以及通过扩展SQL直接操作挖掘模型)的基础上,指出在实现数据挖掘同数据库无缝集成的发展过程中,在现有的DB/DW中集成数据挖掘系统并提供应用程序和自定义挖掘算法的接口、研究推出标准数据挖掘语言是实现数据挖掘系统与数据库有效集成的关键技术。  相似文献   

16.
关联规则挖掘算法是数据挖掘中非常重要的部分。通过对有趣度参数和列联表规整化的研究,进一步改进了对关联规则挖掘算法。并指出文献[1]中存在的对稳健统计概念的曲解。  相似文献   

17.
基于多支持度的挖掘加权关联规则算法   总被引:6,自引:0,他引:6  
关联规则挖掘是数据挖掘中一个重要的模型.在其挖掘算法中,如果最小支持度很高,则出现频率比较低的规则就不能发现;如果最小支持度太低,因为频繁项的相互关联,则会出现组合爆炸.为此,提出了允许用户设定多个最小支持度、给定数据各项的权重来解决这一问题.理论、实验数据和实际应用证明,该新算法可行且符合实际情况,比同类算法用时更少,对大型数据库的关联规则挖掘非常有效.  相似文献   

18.
提出了一款基于Hadoop的并行数据分析系统——PDM.该系统拥有大量以MapReduce为计算框架的并行数据分析算法,不仅包括传统的ETL、数据挖掘、数据统计和文本分析算法,还引入了基于图理论的SNA(社会网络分析)算法.详细阐述了并行多元线性回归算法和"多源最短路径"算法的原理和实现,其中,提出的"消息传递模型"能有效解决MapReduce难以处理邻接矩阵的问题;介绍了基于电信数据的典型应用,如采用并行k均值和决策树算法实现的"套餐推荐",利用并行PageRank算法实现的"营销关键点发现"等;最后通过性能测试,说明该系统适合高效地处理大规模数据.  相似文献   

19.
随着网络技术、通信技术等的不断突破,互联网、移动网、广电网等多种类现代网络及其衍生业务迅速扩张,形成泛在于网络空间的分布式计算环境。为了最大化这些数据的价值,需要利用数据挖掘技术发现其中隐藏的模式或规则,用以指导和辅助生产或运营中的管理决策行为,以提高决策水平及决策收益。然而,受到普遍存在的异构性、私有性和平台兼容性等限制,兼因行业竞争和法律约束等因素(如个人或企业的数据隐私保护问题等),互联于网络的数据源难于进行集中式挖掘,分布式数据挖掘(DDM)技术应运而生。介绍了DDM的定义与框架、适用场景和研究挑战。根据文中给出的DDM高层架构,最终结果的质量与局部数据源的类型、可用性、局部结果的质量及整合方法等密切相关。DDM的实施未必都以站点间纯粹独立挖掘的方式进行,此外,对于数据集中,系统分布式站点多的情况,也可采用DDM。当前,DDM研究领域的挑战主要有:异构与同构挖掘、动态环境下的数据多变性、通信开销、知识整合和语义异构等。当前的DDM系统被分为4类:1)基于Multi-Agent的系统,利用Agent的自治性实现局部挖掘以保护数据私有性;利用Agent的主动性减少用户参与以提高挖掘自动化水平;利用Agent的协作性实现多算法协同挖掘等;2)基于网格的系统,利用网格在资源共享、开放服务和协同工作等方面的优势,提高挖掘的可靠性和协同性;3)基于元学习的系统,通过元学习优化挖掘算法的选择与组合,并对已获知识进行多次学习以提高结果质量;4)基于CDM(collective data mining)框架的系统,将待学习的函数表示为一组基函数的分布式存在,允许各数据源选择不同的学习算法,并以全局结果正确为前提减少网络通信量。进而,对当前DDM研究存在的共性问题进行了归纳:1)结果质量问题,不考虑各个站点数据源间的内在语义联系,各站点独立挖掘本地数据,与其他站点间无语义层面的数据交互或融合,形成纯粹的"分割式"挖掘,最终导致全局结果质量受损;2)挖掘效率问题,如何调度资源以平衡挖掘负载、减少协作挖掘中的通信开销问题。针对结果质量问题,探讨本体与数据挖掘的结合。作为语义网的基础,本体能为对象语义距离度量提供有效支持。当前,在利用本体描述挖掘任务的领域背景方面,利用本体描述DM过程本身方面,都已经有研究人员进行了探索性工作:针对关联规则挖掘中需要从海量规则中遴选有效规则的问题,提出了交互式的、用于删减冗余规则的挖掘后处理方法;针对在给定知识发现过程的输入和输出类型前提下,知识发现工作流的自动构造问题,提出了解决方法。通过阐述可知,为了提升分布式挖掘过程中局部结果和最终结果的质量,策略之一就是将DDM理论和本体理论作融合,以数据源间语义距离的度量为突破口,建立语义距离度量的复合量化体系,通过构建和求解新型DDM模型来实现目标。  相似文献   

20.
基于粗糙集数据挖掘技术开发的用水量计划系统   总被引:1,自引:0,他引:1  
面向粗糙集的数据挖掘方法能有效地从某些不精确信息集合中发现知识,而现实中这种数据是广泛存在的,因此这种方法具有很强的实用价值。结合从粗糙集中发现的规则算法Apriori—2开发了一个小型用水量计划系统,并对系统的设计及测试分析过程进行了简要的介绍。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号