首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对数据挖掘在网络游戏中的应用,提出了游戏访问模式挖掘的概念,并给出一种适用于挖掘游戏访问模式的Apriori_Trie_GAPM算法.该算法基于Apriori算法思想,采用Trie树生成并存储频繁项集,在支持度计算中结合了游戏使用时间.  相似文献   

2.
Web序列模式挖掘是将数据挖掘技术应用于Web访问序列,通过对Web访问序列的模式挖掘可以发现用户与网站交互的频繁模式,利用这些模式可以建模并分析用户与网站交互的模型,进而预测未来的访问模式,这对于构建智能化Web站点和开展电子商务活动有非常重要的意义.介绍了传统的PLWAP(position coded preorder linked WAPtree)算法,并在此基础上提出了一种对PLWAP算法中Header table的新的构建方法的改进算法(NPLWAP).在NPL-WAP算法中Header table的构建过程中每一步都只基于当前处理的节点的后缀树集,且Header table并不存储所有的后缀树集节点,而是只存储后缀树集根节点,从而减少挖掘过程的相关判断.通过对真实数据的实验对比可以看出NPLWAP算法在运行时间上比传统的PLWAP算法有了很大的改进.  相似文献   

3.
数据挖掘算法对于支持度改变及数据集更新的适应性一直都是一个难点.本文根据数据集逐步增加的增量式方法,映射事务模式于线性空间中进行挖掘,并借助了图像在操作系统中显示及存储的特点,提出了一种新的增量式数据挖掘算法IPM-DM.同时,对比分析了其中两种模式映射方法,并与同类算法比较,经过实验证明,算法IPM-DM是有效且可行的.  相似文献   

4.
XML数据聚簇技术研究   总被引:1,自引:1,他引:0  
在分析DOM标准中数据访问的特点后,提出了两种XML数据聚簇存储方法:基于父子关系的XML数据聚簇存储方法和基于兄弟关系的XML数据聚簇存储方法·针对两种典型树遍历操作,分析了两种XML聚簇存储方法发生I/O的概率,给出了两种DOM树遍历路径表达式查询算法,即深度优先查询算法和宽度优先查询算法·基于XMark和XMach测试基准进行了性能评价·  相似文献   

5.
提出以乳腺癌数据进行挖掘数据的有效分类方法.针对兰州市某医院乳腺癌数据,通过数据挖掘技术中3种不同的特征提取方法,对乳腺癌数据集的属性进行选择,特征选择后减少的属性代替原来较多的属性,再对其用贝叶斯网络、属性选择分类器、J48、逻辑回归模型、One-R 5种方法进行分类.结果表明,得到的子集再经过分类时所花费时间明显减少,利用贝叶斯网络算法进行分类的准确率和各项性能指标高于其他算法,用逻辑回归模型算法进行特征选择后准确率明显提高.  相似文献   

6.
为了克服传统高维数据挖掘频繁闭合模式算法迭代产生子表,引起算法执行时间长和存储开销大等问题,提出了一种高效挖掘高维数据的频繁闭合模式的算法EMHCP. EMHCP算法采用一种新型结构位图表来压缩存储数据,在仅扫描数据库一次后,建立位图转换表.根据位图转换表来构建混合树结构,采用深度优先的方式和有效的剪枝策略高效挖掘出所有的闭合模式.从而有效地缩小了搜索空间,加快了处理速度.通过在生物数据库应用的实验结果表明, EMHCP算法比已有的CARPENTER和TD-close等算法更为有效.  相似文献   

7.
Web挖掘是将数据挖掘和WWW两个领域中的多种技术和方法结合起来的热门研究课题.它的研究领域包括Web内容挖掘、Web结构挖掘和Web使用挖掘.关联规则算法已成为数据挖掘算法中的重要课题.通过对关联规则挖掘算法进行分析,指出了该算法存在的一些问题,并提出了一种用户频繁访问模式结构.  相似文献   

8.
隐私保护是当前数据挖掘领域中一个十分重要的研究方向,其目的是要在不精确访问真实原始数据的条件下,得到准确的模型和分析结果.为了提高对隐私数据的保护程度和挖掘结果的准确性,研究了一种基于向量点积的分布式关联规则挖掘算法.此算法在分布式环境下,利用保持隐私数据挖掘的基本方法和安全两方计算协议,可以在不泄露任何隐私的基础上有效地对垂直型数据分布进行挖掘.  相似文献   

9.
针对用户的日常移动轨迹进行挖掘,可以有效地发现隐藏在用户生活中频繁出现的移动规律,即用户频繁移动模式,提出了一种基于PrefixSpan算法的用户频繁移动模式并行挖掘算法PASFORM.该算法利用了新的剪枝策略,缩小了搜索空间;引入了时间约束,挖掘出的频繁移动模式带有时间属性;使用前缀树存储频繁移动模式,缩小了存储空间;采用了并行化方法,适用于海量时空数据的挖掘.实验结果表明,该方法能够快速有效地挖掘出用户频繁移动模式.  相似文献   

10.
Web数据挖掘应用于电子商务系统,已成为数据挖掘热点研究.Web服务器日志中保存了大量的用户访问电子商务系统的记录,运用数据挖掘技术对数据进行处理和分析,构造频繁访问路径挖掘算法,获取用户的购物特性和习惯,达到向每个用户推荐产品的目的,进一步指导电子商务网站建设.  相似文献   

11.
关联规则的挖掘是数据挖掘领域的重要研究内容之一.关联规则的挖掘算法大都在用户设置的支持度阈值的限制条件下,挖掘出数据属性之间的关系.但是没有相关领域的专门知识,用户很难设置合适的支持度阈值得到合适的结果.本文在Apriori算法的基础上,提出一种无支持度的关联规则挖掘方法.  相似文献   

12.
为了研究局部离群数据挖掘方法,将K均值聚类算法和基于影响空间的局部离群因子算法相结合,构造了一种基于K均值和影响空间的局部离群因子的方法.该方法首先通过聚类把靠近簇中心密集区域的正常数据剔除,然后再调用INFLOF算法对剩余数据进行挖掘,从而减少了中间结果的存储,大大减少了算法的运行时间.最后分别通过随机数据和实际数据实验,验证了KINFLOF算法在离群数据挖掘中的准确性和运行效率.  相似文献   

13.
随着大量的XML数据的出现,给数据挖掘领域提出了新的挑战。传统数据挖掘算法是面向关系数据库和数据仓库的,不能直接用于XML文档的数据挖掘。本文从模糊集的基本理论入手,通过定义模糊概念软化属性论域的划分边界,提出了一种面向XML数据的模糊关联规则挖掘方法,并且使用Java语言实现,实验结果证明本文算法是正确的。  相似文献   

14.
在时序数据库中,有许多成熟的技术和方法用来对布尔型属性之间的关系进行挖掘,但对于数值型属性变化趋势关联关系的研究却不是很多.本文提出了一种数值型属性变化趋势的研究模型QMP(QuantityMovementPattern),依据该模型可利用数据挖掘算法发现不同数值型属性之间变化趋势之间的关系.文中分析了该模型的几种实现算法,并给出了一种快速实现算法及实验数据.  相似文献   

15.
数据挖掘与数据库的集成方法   总被引:5,自引:0,他引:5  
数据挖掘的研究主要集中在挖掘算法上,但在数据库领域至关重要的数据挖掘系统与数据库的有效集成研究却很少,为此,在详细研究了数据挖掘耦合数据库的主要方法(通过SQL(Structured Query Language)游标接口读取数据、保存数据至本地磁盘cache进行挖掘、用存储过程封装挖掘算法、采用用户自定义函数表达挖掘算法以及通过扩展SQL直接操作挖掘模型)的基础上,指出在实现数据挖掘同数据库无缝集成的发展过程中,在现有的DB/DW中集成数据挖掘系统并提供应用程序和自定义挖掘算法的接口、研究推出标准数据挖掘语言是实现数据挖掘系统与数据库有效集成的关键技术。  相似文献   

16.
基于频繁模式树的关联分类规则挖掘算法   总被引:1,自引:1,他引:1  
构建精确而有效的分类器是数据挖掘和机器学习中的一个重要任务.提出了一种基于频繁模式树的关联分类规则挖掘算法,该算法同时考虑所有属性,并对现有关联分类规则挖掘算法中内存要求高、类别属性处理难、I/O访问次数多等问题提出了相应的解决方案.试验结果表明,该方法可以取得比同样基于关联规则的分类算法CMAR更高的执行效率以及基于规则的决策树分类算法C4.5更好的分类效果.  相似文献   

17.
提出一种基于语义关联性特征融合的大数据挖掘算法.对云存储大数据分布式信息流进行高维相空间重构,在重构的相空间中提取大数据的语义关联维特征量,以提取的特征量为测试集进行自适应学习训练.采用模糊C均值算法进行大数据语义关联特征的稀疏性融合和聚类处理,在聚类中心实现对挖掘目标数据的指向性聚敛,输出数据挖掘结果,并采用特征压缩器进行降维处理,降低计算开销.仿真结果表明,采用该方法进行大数据挖掘的特征提取准确性较好,挖掘数据的聚类能力较强,在实时性和准确性方面具有优势.  相似文献   

18.
高频独立模式对无相关属性选择有一定意义.给出挖掘频繁独立模式算法,并在标准数据挖掘数据集蘑菇数据上测试,得到蘑菇数据在一定度量下的所有频繁独立模式,实验结果表明了挖掘算法的有效性.  相似文献   

19.
主流数据挖掘算法不能有效解决大规模数值数据集挖掘问题。提出了一种应用于大规模数值数据集的线性时间封闭项集挖掘改进(Improved Linear time Closed Itemsets Minner, ILCM)算法。ILCM算法使用能够提取属性共同变化量的渐进模式挖掘方法,借鉴LCM算法的前缀保留闭合扩展思想,通过深度优先搜索输出频繁封闭渐进项集结果。实验证明,相比传统挖掘算法,ILCM能够显著提高算法运行效率和降低内存空间占用,并且能够有效处理如DNA微阵列等实际大型数值数据集挖掘。  相似文献   

20.
在数据密集型计算环境中,数据具有海量、高速变化、分布存储和异构等特征,对数据挖掘算法的设计与实现提出了新的挑战.基于MapReduce模型,提出了一种网格技术与基于LOF方法相结合的离群点挖掘算法MR_LOF.Map阶段采用网格进行数据约简,将代表点信息发送给主节点;Reduce阶段使用基于密度的离群点挖掘算法,借助网格期望值E筛选出稠密区域.该算法只需计算稀疏区域对象的LOF值,降低了算法的时间复杂度.实验结果表明,在数据密集型计算环境中,该方法能有效的对离群点进行挖掘.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号