首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
高效用项集挖掘可以提供有趣的结果集,但并不能提供单个项的数量,因此,本文提出了高效用模糊项集.但是,现实世界的数据是不断出现的,需要实时处理新到来的数据.为解决当前高效用模糊项集不能处理数据流的问题,又提出了模糊效用列表(fuzzy utility list, FUL)结构用于存储当前窗口中项的批次号、项在事务中的事务标识符、项的模糊效用以及项的剩余模糊效用,该结构能有效的对批次进行插入和删除操作.最后,基于FUL提出了数据流高效用模糊项集挖掘算法.对真实数据集和合成数据集进行了广泛的实验,结果证实了算法的效率及可行性.  相似文献   

2.
复杂高效用模式挖掘是当前研究的一个新兴主题。本文首次从高效用融合模式和衍生模式2个角度进行讨论。首先,对于融合模式,根据数据结构的不同对高效用序列模式进行分类论述;按照时间顺序对高效用片段模式、周期高效用模式进行概述。针对衍生模式,从数据结构角度对高平均效用模式、带有负项的高效用模式、on-shelf高效用模式进行总结;从精简类型角度概述精简高效用模式,并对现有融合模式和衍生模式挖掘算法的优缺点、上边界等进行对比分析。最后,针对现阶段研究缺陷与不足,给出了下一步研究方向,包括不确定数据中的高效用模式挖掘方法、数据流上的高效用on-shelf模式挖掘方法和大数据环境下的并行高效用模式挖掘方法。  相似文献   

3.
在数据挖掘领域中,高效用模式挖掘任务具有较高的理论研究价值和广泛的实际应用场景。针对多变的应用场合,提出了一系列衍生高效用模式。首先从关键技术的角度对高平均效用模式挖掘算法进行了分类论述,主要包括基于先验、基于树、基于列表、基于投影和基于数据格式的方法。其次,分析讨论了基于全集、精简集以及融合模式的含有负效用的高效用模式挖掘算法。再次,从模糊高效用模式、相关高效用模式和其他新兴高效用模式三个方面概述和总结了扩展高效用模式算法。最后,针对现阶段研究方向的不足,给出下一步的研究方向。  相似文献   

4.
为了实现对数据流的序列模式挖掘,提出了基于数据流的序列模式挖掘算法MFSDS-1和MFSDS-2,它们均通过调整入选度的大小来调整保存信息的粒度.算法MFSDS-2利用分层存储结构,不仅能更好地保存序列信息,而且可以通过与全局序列模式的对比得到当前活动的一些异常序列模式.实验结果表明,基于分层存储的算法MFSDS-2的效率比算法MSFDS-1高.  相似文献   

5.
关联规则挖掘是数据挖掘研究的一个重要领域,传统的关联规则仅反映了正项之间的关联关系,无法反映出数据之间隐藏的负关联关系.从以下方面对含负项的关联规则挖掘进行了综述:引入负项的原因,包含正、负项的关联规则概念及相关术语,最新的含负项关联规则研究情况,经典算法的讨论.最后,展望了含负项关联规则领域未来的研究方向.  相似文献   

6.
为了实现对数据流的序列模式挖掘,提出了基于数据流的序列模式挖掘算法MFSDS-1和MFSDS-2,它们均通过调整入选度的大小来调整保存信息的粒度.算法MFSDS-2利用分层存储结构,不仅能更好地保存序列信息,而且可以通过与全局序列模式的对比得到当前活动的一些异常序列模式.实验结果表明,基于分层存储的算法MFSDS-2的效率比算法MSFDS-1高.  相似文献   

7.
通过前缀序列的引入,将搜索空间划分为若干个子空间,利用模式增量技术对序贯模式进行有效搜索,并提出了项目位置索引的概念,即将原始序列数据库信息转换到项目位置索引(IPI)中,从而在搜索序贯模式时避免了复杂的多维候选序列的测试,仅需对各前缀序列对应的扩展的项目位置索引库(IPIDBs)做简单的序列数目累加操作,将复杂的高维序贯模式搜索问题巧妙地转换为一维频繁项目的搜索,降低了算法复杂度,提高了效率。  相似文献   

8.
提出了一种在单独数据流中挖掘近期频繁项的算法MRFI。该算法采用基于对时间敏感的滑动窗口的模式,保证了挖掘结果的时效性,并利用循环队列和二叉排序树实现了简单高效的数据存储和处理,该方法是一种近似算法,它可以消除历史数据对挖掘结果的影响。实验采用IBM数据发生器产生合成数据,证明了该算法的有效性。  相似文献   

9.
已有的Top-k高效用项集挖掘为了保持向下封闭性,利用项集的事务效用代替其真实效用,使得项集效用被估计得过大,导致剪枝效果不好,挖掘效率较低.针对这一问题,提出了索引效用的概念,在此基础上建立两级索引,并进行索引剪枝,增强了挖掘中剪枝的效果,提高了Top-k高效用项集挖掘的效率;此外,通过建立效用矩阵,支持对项集效用的快速计算,进一步提高了挖掘效率.不同类型数据集上的实验验证了所提出的Top-k高效用项集挖掘方法的有效性和高效性.  相似文献   

10.
由于能反映用户的偏好,可以弥补传统频繁项集挖掘仅由支持度来衡量项集重要性的不足,高效用项集正在成为当前数据挖掘研究的热点.为使高效用项集挖掘更好地适应数据流环境,提出了一种基于事务型滑动窗口的数据流中高效用项集挖掘算法MHUIDS.首先在二进制向量的基础上,提出了高事务加权效用项集树(HTWUI-树)的结构.进而分别给出了事务型滑动窗口初始化与滑动的算法描述.最后,提出了高效用项集的剪枝策略与挖掘算法.实验结果表明,MHUIDS算法具有较高的挖掘效率及较低的存储开销.  相似文献   

11.
引入项的半垂直比特向量结构,提出挖掘数据流邻近序列模式的MCSP-TSW算法.通过改进比特向量组结构和引入两个剪枝策略,提出改进的MCSP-TSW-Imp算法来减少判断一个候选序列是否频繁的时间.实验表明,两种算法空间消耗相当,但MCSP-TSW-Imp算法比MCSP-TSW算法具有较高的时间效率.  相似文献   

12.
在海量的动态数据流中发现有价值的知识,是数据挖掘技术研究的重要问题.研究数据流聚类,根据数据流的特点,提出了一种基于滑动窗口的一趟数据流挖掘的算法,对原有的一趟数据流聚类算法进行了改进,增强了一趟数据流聚类算法的扩展性,改进了数据流聚类的质量.  相似文献   

13.
肖哲  任胜兵 《科技信息》2007,(36):69-69,101
本文阐述了序列模式的基本概念,对序列模式挖掘的一般经典算法和增式挖掘、多维模式挖掘等拓展算法进行了较为的全面介绍,列举了序列模式挖掘当前的广泛应用,讨论了研究的发展趋势及面临的挑战。  相似文献   

14.
数据流的应用越来越广泛,数据流挖掘成为数据挖掘的重点研究方向之一。在分析各种数据流聚类算法的基础上,提出了一种基于可变滑动窗口的数据流分段聚类算法。算法以时间序列数据流模式表示技术为参考,以去除噪音和压缩数据为目的,实现了数据流的特征提取和概要存储。实验表明,算法具有低时空复杂度、自适应等特点。  相似文献   

15.
针对在对分布式、多维数据流频繁模式挖掘算法研究时,没有删除多维数据流中的非频繁项集,存在平均处理时间长的问题,提出分布式多维数据流频繁模式挖掘算法。该方法根据人工神经网络特点,建立了人工神经网络模型,并对多维数据流训练,以达到提升挖掘效率的目的;并基于训练结果构造数据流频繁模式信息树,即频繁模式树(FR-tree:Frequent Pattern tree)。由于FR-tree中存在较多过期的多维数据流,所以需要对FR-tree剪枝,并删除非频繁项集,从而加快频繁模式计算速度,并采用分布式挖掘算法对全局FR-tree挖掘,从中取得多维数据流的频繁项集完全集,实现分布式多维数据流频繁模式的挖掘。通过对该方法的平均处理时间测试,验证了该方法的实用性。  相似文献   

16.
为解决传统数据流分类算法难以解决动态数据流环境中概念变化和样本标注等难题,根据主动学习原理,提出基于双层采样的主动式数据流挖掘方法。该方法的采样策略分别基于学习模型的改变期望和误差缩减两个方面设计实现,选择出具有代表性和信息量丰富的未标注样本,经专家标注后增量更新学习模型;采用聚类方法实现局部感知的概念漂移检测,以增强采样策略的有效性。试验结果表明:主动式数据流挖掘方法在降低样本标注代价的同时,可提高模型的分类能力和概念漂移的适应性,相比其他数据流挖掘方法具有一定优势。  相似文献   

17.
计算机网络入侵通常具有高频度特性,因此,识别是否正常访问,对数据流中重复元素的挖掘,给出频度指标,是一种重要的依据.提出一种基于数据流频繁模式的改进型AFP算法,该算法采用滑动窗口树技术,单遍扫描数据流及时捕获网络上的最新模式信息,并将该算法应用在入侵检测模型中正常数据和异常数据的在线挖掘.解决了有限存储和无限数据流的矛盾.实验结果表明,该模型有较高的报警率和较低的误报率.  相似文献   

18.
在图形挖掘研究领域对大图数据进行挖掘方法很多,尽管云计算在解决传统计算问题上十分有效,但对大图形的频繁挖掘中图形分割;信息不对称;模式保留合并仍存在问题。研究提出一种全新的基于云的SpinderMine挖掘法即 c-SpinderMine 方法。首先利用云计算来对大图形数据的大模式进行挖掘,解决大图形数据挖掘算法在云环境下面临的上述问题。然后进行三组真实的数据集实验,有效地缩短执行时间,且对处理云上的大数据表现出很高的可扩展性能。最后实验证明在不同数据大小和最小支持度时具有优越的内存使用和执行时间,对应付云环境下的大图形数据表现出优越的能力。
  相似文献   

19.
随着人工智能的发展,条件偏好网(Conditional Preference networks,CP-nets)的学习和表示被广泛研究.此前的研究工作主要集中于从静态数据库中挖掘用户的条件偏好,而在许多新兴应用中,数据通过互联网或传感器网络流动,偏好也会随之发生变化.将挖掘偏好的方法扩展到动态环境是一个挑战,遇到的问题主要包括对连续数据进行的快速处理、庞大的数据量以及有限的内存资源等.针对偏好数据流,提出一种基于时间敏感的滑动窗口模型来挖掘条件偏好关系和学习CP-nets结构的方法,该方法包括一个用来获取所有可能偏好关系的存储结构以及一个对偏好关系进行累积计数的数据结构,并提出基于时间敏感滑动窗口的条件偏好关系挖掘算法,根据输入的偏好数据流比较基本块与滑动窗口的大小对条件偏好关系进行插入和更新.实验结果表明,与其他学习CP-nets结构的方法相比,该方法所需的运行时间少,得到的CP-nets的结构更准确.  相似文献   

20.
通过对入侵检测和数据流异常挖掘技术的研究,把数据流异常挖掘应用到入侵检测,成为目前入侵检测新的有效方法和研究热点.对基于数据流异常挖掘的入侵检测系统模型进行了设计,并对数据流异常挖掘算法进行了设计和实现,通过实验分析,取得了较好的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号