首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
Association rule mining is an important issue in data mining. The paper proposed an binary system based method to generate candidate frequent itemsets and corresponding supporting counts efficiently, which needs only some operations such as "and", "or" and "xor". Applying this idea in the existed distributed association rule mining al gorithm FDM, the improved algorithm BFDM is proposed. The theoretical analysis and experiment testify that BFDM is effective and efficient.  相似文献   

2.
提出了一种分布式关联规则增量更新算法(IUAAR),它可对数据库发生变化的情况进行归类.该算法主要采用改进了的FP树结构,通过传送被约束子树来挖掘全局频繁项目集,并充分利用快速分布式挖掘算法建立的各局部FP树,只对新增加了的全局频繁项目修改相应的改进FP树,挖掘其对应的被约束子树,同时利用已挖掘的全局频繁项目集对原全局频繁项目对应的被约束子树进行有效修剪.实验结果表明,该算法的运算速度比快速分布式挖掘算法提高了1倍,在最坏的情况下,对各局部数据库也仅需要扫描一遍,从而可提高数据库的维护效率.  相似文献   

3.
一种基于分布式数据库的全局频繁项目集更新算法   总被引:4,自引:0,他引:4  
在算法FMAGF的基础上,提出了一种基于分布式数据库的全局频繁项目集更新算法-UAGFI,该算法主要考虑最小支持度发生变化时全局频繁项目集的更新情况。UAGFI在最坏的情况下仅须扫描各局部数据库一遍,并利用已挖掘的结果,可避免传送某些原全局频繁项目对应的条件频繁模式树,从而降低网络通讯代价,实验结果表明,UAGFI算法是有效可行的。  相似文献   

4.
发现频繁项集是关联规则挖掘的关键步骤。然而,大多数频繁项集求解算法因需要产生大量候选集而降低了效率。该文在研究概念格和频繁项集关系的基础上,将剪枝概念格PCL模型引入数据库中频繁项集的表示,利用概念间的关系性质,在不丢失信息的同时能有效压缩频繁项集的规模,并提出基于PCL模型的频繁项集求解算法。该算法基于Apriori性质,在构造过程中及时、动态地剪枝,删除与频繁项集求解无关的概念,从而有效地改善了频集挖掘算法的时空性能;实验证实了算法良好的性能。  相似文献   

5.
A Fast Interactive Sequential Pattern Mining Algorithm   总被引:3,自引:0,他引:3  
In order to reduce the computational and spatial complexity in rerunning algorithm of sequential patterns query, this paper proposes sequential patterns based and projection database based algorithm for fast interactive sequential patterns mining algorithm (FISP), in which the number of frequent items of the projection databases constructed by the correct mining which based on the previously mined sequences has been reduced. Furthermore, the algorithm's iterative running times are reduced greatly by using global-threshold. The results of experiments testify that FISP outperforms PrefixSpan in interactive mining  相似文献   

6.
一种不确定性数据中最大频繁项集挖掘方法   总被引:1,自引:0,他引:1  
不确定性数据挖掘已经成为数据挖掘领域的新热点,频繁项集挖掘是重点研究的问题之一.但是目前出现的挖掘算法大多集中在完全频繁项集,而用于最大频繁项集和频繁闭项集的算法尚不多见.文中研究了一种基于UF-Tree的用于不确定性数据中挖掘最大频繁项集的算法,该挖掘过程分为两个步骤,第一步先得到以频繁1-项集为后缀的局部最大频繁项集,第二步得到所有的全局最大频繁项集,实验证明该算法性能良好且特别适用于稠密型、事务长度较小的数据集.  相似文献   

7.
基于数据挖掘的网络业务流分析方法   总被引:1,自引:0,他引:1  
为了从业务角度对网络的性能进行评价和优化,提出了一种新的网络业务分析方法——具有时态路径约束的关联规则挖掘分析方法.该方法以网络业务为分析粒度,以与网络业务流相关的时态属性和路径属性为约束条件,对已经积累的反映网络状况的海量历史数据进行挖掘分析.在进行关联规则挖掘时,利用频繁数据项集的性质,通过引入事务标号,在求出候选频繁项集的同时也求出其支持度,避免了为求支持度而进行的扫描数据库运算,极大提高了挖掘的效率和速度.实验结果表明,进行挖掘分析的数据量越大,该方法的性能和效率就越好.  相似文献   

8.
This paper presents a new efficient algorithm for mining frequent closed itemsets. It enumerates the closed set of frequent itemsets by using a novel compound frequent itemset tree that facilitates fast growth and efficient pruning of search space. It also employs a hybrid approach that adapts search strategies, representations of projected transaction subsets, and projecting methods to the characteristics of the dataset. Efficient local pruning, global subsumption checking, and fast hashing methods are detailed in this paper. The principle that balances the overheads of search space growth and pruning is also discussed. Extensive experimental evaluations on real world and artificial datasets showed that our algorithm outperforms CHARM by a factor of five and is one to three orders of magnitude more efficient than CLOSET and MAFIA.  相似文献   

9.
In order to realize the intelligent management of data mining (DM) domain knowledge, this paper presents an architecture for DM knowledge management based on ontology. Using ontology database, this architecture can realize intelligent knowledge retrieval and automatic accomplishment of DM tasks by means of ontology services. Its key features include:①Describing DM ontology and meta-data using ontology based on Web ontology language (OWL).② Ontology reasoning function. Based on the existing concepts and relations, the hidden knowledge in ontology can be obtained using the reasoning engine. This paper mainly focuses on the construction of DM ontology and the reasoning of DM ontology based on OWL DL(s).  相似文献   

10.
基于数据挖掘技术设计并实现了个性化网络教学系统。该系统添加了数据挖掘模块,模块中采用Clope算法对HTML文档进行聚类分析,找出具有相似特性的学生群体,从而帮助教师进行有针对性的教学;同时,采用Apriori算法,根据学生的访问序列,挖掘出频繁项目集和关联规则模式,从而借助于网络向学生提供个性化教学服务。研究表明:使用数据挖掘技术能在一定程度上提高网络教学系统的个性化推荐服务水平。  相似文献   

11.
由于在实际的数据挖掘过程中容易出现无用的频集和冗余的规则,所以降低频集和规则的冗余度可大大提高挖掘的质量,这也是数据挖掘中一直被关注的问题,提出了一个用等价类生成关联规则的方法,算法主要在频集的基础上建立项集的等价关系,进而对项集划分等价类,同时将得到的关联规则划分为精确关联规则和近似关联规则两个集合,通过等价类,不但可以很容易地生成所需要的关系规则,同时可以方便地判断数据之间依赖关系的强弱,同时,项集的等价关系在实际应用中也很有利用价值,算法最后的规则结果集剔除了由来自同一等价类中的面集的重复出现构成的冗余规则,从而得到了较小的关联规则集合。  相似文献   

12.
基于集合运算的频繁集挖掘优化算法   总被引:1,自引:0,他引:1  
挖掘关联规则是数据挖掘中一个重要的课题,产生频繁项目集是其中的一个关键步骤。 提出了一种基于集合运算的频繁项目集挖掘算法,并将该算法与经典算法Apriori进行比较。该算法只需要对数据库扫描一遍。实验表明该算法的效率较好。  相似文献   

13.
关联规则挖掘的一种多剪枝概念格方法   总被引:1,自引:0,他引:1  
多数据源上关联规则挖掘方法,由于各数据节点间相互通信的候选项集数目过于庞大或者挖掘过程需要对数据库进行多次扫描,导致挖掘算法效率不高。研究剪枝概念格(pruned con-cept laffice,PCL)中概念与频繁项集表示关系,定义剪枝格上的导出频繁项集,设计了一个利用多剪枝概念格从多数据源上挖掘近似所有关联规则的算法UMPCL(union algorithm of multiplepruned concept lattice)。利用一个频繁概念表示一些频繁项集以减少挖掘过程中产生的侯选项集数,使用与全局支持度相等的局部支持度对各子概念格进行剪枝,最后融合、剪枝各子剪枝格并提取全局关联规则。理论分析和实验验证表明该算法是有效的。  相似文献   

14.
在数据流闭频繁项集挖掘过程中,常忽略历史模式对挖掘结果的影响,并采用一种结构来标记闭频繁项集的类型,导致算法的效率不高.为此提出一种挖掘数据流时间窗口中闭频繁项集的方法NEWT-moment.该方法能在单遍扫描数据流事务的条件下完整地记录模式信息.同时,NEWT-moment提出的剪枝方法能很好地降低滑动窗口树F-tr...  相似文献   

15.
基于FP-Tree的最大频繁项目集更新挖掘算法   总被引:5,自引:1,他引:4  
发现最大频繁项目集是多种数据挖掘应用中的重要问题.在应用中用户需要调整最小支持度,以发现更有用的最大频繁项目集.为此提出了一种最大频繁项目集更新算法(UMFPA),该算法通过对频繁模式树(FP-Tree)中的频繁项目头表(H Table)增加两个域,从而将减少在数据库不变而最小支持度变化的情况下的更新挖掘最大频繁项目集的费用.实验结果表明,算法在进行最大频繁项目集更新挖掘时具有很好的性能.  相似文献   

16.
针对模糊频繁集的挖掘问题,提出一种有效的算法FMF.该算法采用FFP-树结构,将与模糊项目相关的事务的序号保存在树结点中.算法通过直接找到所有包含模糊项集的全部事务来计算该项集的支持度,不必扫描整个数据库,提高了模糊频繁项集挖掘的速度.  相似文献   

17.
为了解决模糊关联规则挖掘算法需要用户事先给定模糊集和相应隶属度函数的问题,提出基于分布式聚类自动生成模糊集及隶属度函数的算法GFAM.该算法利用分布式K-Means聚类算法对每个数值型属性进行聚类,求得聚类中心,由此构造全局模糊集,定义全局隶属度函数.DFAR算法根据构造的全局模糊集及隶属度函数进行分布式模糊频繁项目集的快速挖掘,采用全局-局部站点模式,其中包括局部模糊频繁项目集产生算法FLF和全局模糊频繁项目集产生算法FGF.实验结果表明,该算法能准确地生成全局模糊频繁项目集,在求解全局模糊频繁项目集过程中,传送局部模糊候选项目集支持数的通信量为O(n),提高了算法的挖掘效率.  相似文献   

18.
间接关联是数据挖掘领域中一种数据项之间的关联关系,可有效地应用于市场营销及Web日志分析等领域.现有的间接关联挖掘算法采用Apriori算法框架,需挖掘出所有的频繁项目集,因而存在挖掘效率低的缺陷.为此,提出了一种基于前缀广义表的快速间接关联挖掘算法,该算法无须生成所有的频繁项目集且仅须扫描数据库2遍,可有效提高间接关联的挖掘效率.  相似文献   

19.
频集挖掘是关联规则挖掘的关键步骤,它对强规则、相关分析和时间序列有着重要的意义.常用的频集算法包括Apriori和FP-G rowth.为了提高算法效率,提出了一种基于D iffset的混合算法———D iffsetHybrid,该算法根据数据集的稀疏程度决定采用D iffset的某种形式来挖掘频集,减少了存储空间,提高了算法效率.试验表明,该算法对于稀疏数据集和稠密数据集都有良好的计算性能.  相似文献   

20.
一种快速发现最大频繁项集的挖掘算法   总被引:1,自引:0,他引:1  
文章分析了关联规则发现中关于频繁项集的生成与测试方法,提出一种快速挖掘最大频繁项集的算法MFIA_VTL。该算法针对数据库的垂直事务标识列表结构对项集搜索空间进行基于前缀的划分,来发现最大频繁项集。实验表明,该算法性能稳定,可扩展性好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号