首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
夏龄 《科学技术与工程》2012,12(35):9545-9551
数据挖掘并行算法,应该以不牺牲挖掘效率和挖掘质量为前提。通过对数据挖掘原理和并行化的深入研究,在考虑到挖掘效率,负载平衡,运行环境,节点状态等多方面因素的基础上,提出了一种新的基于动态调度的数据挖掘并行算法。该算法以规模较小的子数据集为并行挖掘单元,各个并行单元之间采用全局通讯模式—Master-Worker模式来进行互相通信。降低了并行挖掘的通信成本,提高了挖掘的效率,缩短了挖掘的时间。同时该算法对不断变化的节点状态适应能力强。最后,实验结果验证了该算法的有效性以及在大数据集挖掘应用中的优越性。该算法不但保证了挖掘结果的正确性,而且具有较高的加速比。  相似文献   

2.
针对高维数据集中的离群点挖掘任务,给出了一种基于基尼指标和属性相关性分析的高维数据离群点挖掘算法.该算法首先采用属性相关性分析方法,删除高维数据集中的冗余属性,缩减了数据集的大小;其次采用基尼指标作为离群度量因子,从缩减后的数据集中,挖掘出不同离群程度的数据点;最后,实验采用天体光谱数据作为实验数据集,经实验验证,该算法对高维数据集中离群点的挖掘算法是有效的和可行的,其效率得到了明显的提高.  相似文献   

3.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.  相似文献   

4.
频集挖掘是关联规则挖掘的关键步骤,它对强规则、相关分析和时间序列有着重要的意义.常用的频集算法包括Apriori和FP-G rowth.为了提高算法效率,提出了一种基于D iffset的混合算法———D iffsetHybrid,该算法根据数据集的稀疏程度决定采用D iffset的某种形式来挖掘频集,减少了存储空间,提高了算法效率.试验表明,该算法对于稀疏数据集和稠密数据集都有良好的计算性能.  相似文献   

5.
李作春  周秀梅  覃泽 《科技咨询导报》2009,(28):236-237,239
针对存在的关联规则挖掘算法不能有效地在异质数据集中进行,本文首先使用领域本体方法处理数据集中的异质现象,然后提出了一种有效的XML异质数据集关联规则挖掘算法,实验结果表明该算法在挖掘速度和挖掘时在对内存的占用方面都优于现有的算法。  相似文献   

6.
针对不确定数据频繁项集挖掘效率低和准确度不高的问题,提出了一种基于改进的频繁模式树(FPtree)和遗传算法(GA)挖掘不确定数据概率频繁项集的方法,即UFPGA(基于频繁模式树和遗传的挖掘算法).该算法根据不确定数据的构成特征,改进频繁模式树方法挖掘不确定数据频繁项集,采用缩小变异空间和增加育种算子的遗传算法搜索最大频繁项集,收缩了搜索范围,提高了挖掘效率.实验结果表明:该方法在时间复杂度方面有很好的优越性,对大规模的不确定数据挖掘提供了一种有效的技术手段.  相似文献   

7.
对挖掘关联规则中的FUP算法的关键思想以及性能进行了研究,针对挖掘关联规则中FUP算法的不足,提出了一种基于临时表的改进算法MFUP.该算法通过建立临时表,充分利用原数据库挖掘的结果,从而大大减少了对数据的重复扫描,提高了数据挖掘算法的效率.通过实例分析,说明了MFUP算法的优越性.  相似文献   

8.
对快速增长的数据进行挖掘的有效途径之一是采用增量式更新算法,其中最具代表性的是MRFUP算法。该算法的剪枝策略减少了关联规则的计算,但在处理增长快速的数据时效率过低,且频繁计算新增数据。文章以提高海量数据下关联规则增量更新效率为目标,通过扩展能够并行处理关联规则的PFP算法而提出一种基于PFP的关联规则增量更新算法MRPFP。该算法能充分利用云平台强大的存储和并行计算能力。该算法的实验结果表明,MRPFP处理海量数据的效率优于MRFUP算法,更适用于海量数据的关联规则挖掘。  相似文献   

9.
数据挖掘本质上是一种新的商业信息处理技术,通过对数据进行统计、分析、综合和推理,发现数据间的关联性、未来趋势以及一般性的概括知识,用以指导高级商务活动。由于需要,对数据间的关联性的数据挖掘算法模型已成为数据库及相关领域的一个研究热点,给出了一种基于分布式数据库的挖掘模型及其相应的一种有效的挖掘算法,其由若干个站点集合而成,各个站点拥有各自的数据库、中央处理机、客户端,以及各自的局部数据库管理系统,依靠通讯网络连接。采用购物篮分析式关联规则,将各个数据库文件的数据合成,从而得到挖掘结果,对挖掘的方法又进一步挖掘,即将不满足条件的规则重新传送到各分布式站点上进行更加精确的挖掘处理,从而避免了频繁的网络通讯。该算法在减轻网络频繁的通讯负担,体现并行计算以及异构数据挖掘方面具有独特优点。  相似文献   

10.
在数据密集型计算环境中,数据具有海量、高速变化、分布存储和异构等特征,对数据挖掘算法的设计与实现提出了新的挑战.基于MapReduce模型,提出了一种网格技术与基于LOF方法相结合的离群点挖掘算法MR_LOF.Map阶段采用网格进行数据约简,将代表点信息发送给主节点;Reduce阶段使用基于密度的离群点挖掘算法,借助网格期望值E筛选出稠密区域.该算法只需计算稀疏区域对象的LOF值,降低了算法的时间复杂度.实验结果表明,在数据密集型计算环境中,该方法能有效的对离群点进行挖掘.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号