首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 296 毫秒
1.
针对模糊属性事务数据库提取模糊关联规则的问题,采用模糊概念格与模糊关联规则相结合的方法,实现格节点与属性项集的对应关系,提出模糊关联规则格理论,在渐进式建格算法基础上对格节点相应修改,给出了适用于动态数据库的模糊关联规则格的构建思想.利用模糊关联规则格挖掘关联规则,与采用Apriori算法计算频繁项目集获取规则相比较,容易获得用户感兴趣的关联规则,同时减少冗余规则的生成,使挖掘算法得到优化.  相似文献   

2.
概念格通过概念的内涵和外延及泛化和例化之间的关系来表示知识,因而适用于从数据库中挖掘规则的问题描述;在概念格的内涵中引入等价关系并将其外延量化,得到量化概念格;利用量化概念格挖掘关联规则,与采用Apriori算法计算频繁项目集获取关联规则相比较,不需要计算频繁项目集,容易获得用户感兴趣的关联规则,同时减少了大量冗余的规则,提高了挖掘效率。  相似文献   

3.
更新挖掘最大频繁项目集是多种数据挖掘应用中的重要问题,其发现过程的高花费要求对高效更新挖掘算法进行研究.提出了一种快速的更新挖掘最大频繁项目集算法,其能够在原有挖掘结果的基础上,有效地挖掘出更新后的数据库中隐含的新最大频繁项目集.  相似文献   

4.
发现频繁项集是关联规则挖掘的关键步骤。然而,大多数频繁项集求解算法因需要产生大量候选集而降低了效率。该文在研究概念格和频繁项集关系的基础上,将剪枝概念格PCL模型引入数据库中频繁项集的表示,利用概念间的关系性质,在不丢失信息的同时能有效压缩频繁项集的规模,并提出基于PCL模型的频繁项集求解算法。该算法基于Apriori性质,在构造过程中及时、动态地剪枝,删除与频繁项集求解无关的概念,从而有效地改善了频集挖掘算法的时空性能;实验证实了算法良好的性能。  相似文献   

5.
基于量化概念格的关联规则挖掘   总被引:4,自引:0,他引:4  
在概念格的内涵中引入等价关系并将其外延量化 ,得到量化概念格。利用量化概念格可以清晰地表示知识 ,从而便于挖掘包括关联规则在内的多种规则 ,与经典的 A priori算法相比较 ,规则表示更简捷、直观 ,尤其重要的是用户可根据自己的兴趣交互地挖掘关联规则 ,不需要计算频繁项目集 ,因而提高了挖掘规则的效率 ,适用于大型数据库中关联规则的挖掘  相似文献   

6.
关联规则挖掘的一种多剪枝概念格方法   总被引:1,自引:0,他引:1  
多数据源上关联规则挖掘方法,由于各数据节点间相互通信的候选项集数目过于庞大或者挖掘过程需要对数据库进行多次扫描,导致挖掘算法效率不高。研究剪枝概念格(pruned con-cept laffice,PCL)中概念与频繁项集表示关系,定义剪枝格上的导出频繁项集,设计了一个利用多剪枝概念格从多数据源上挖掘近似所有关联规则的算法UMPCL(union algorithm of multiplepruned concept lattice)。利用一个频繁概念表示一些频繁项集以减少挖掘过程中产生的侯选项集数,使用与全局支持度相等的局部支持度对各子概念格进行剪枝,最后融合、剪枝各子剪枝格并提取全局关联规则。理论分析和实验验证表明该算法是有效的。  相似文献   

7.
提出了一种基于Routh有限概念格的规则发现方法(RRLIRD),以揭示数据集中的蕴涵规则。首先引入有限概念格的简化表示形式,由用户选择数据集中感兴趣属性集创建概念格结构,提高用户的交互性和挖掘的效率;然后运用有限概念格与Rough集理论相结合形成Rough有限概念格,蕴涵规则则由其特有的上、下近似运算得到,不需计算繁琐的频繁项目集。算法运用大型超市的交易流水数据进行仿真实验。结果表明,执行时间比经典的Apriori算法大大降低。该算法也适用于证券行情分析和农业数据库的病虫害分析等。  相似文献   

8.
分析了概念格与关联规则之间的关系,提出了将频繁项集及其支持度存储在概念格上,然后在创建好的概念格上提取关联规则的方法,概念格的每个节点本质上是一个最大项目集,非常有利于关联规则的提取。然而目前对于概念格的研究,一般都假定由属性集所组成的概念格的内涵同等重要,而在现实数据库中,组成内涵的属性重要性往往是不同的,因此,内涵并非同等重要。为了充分利用概念格实现关联规则提取,提出了一种新的概念格结构:加权概念格,并给出其渐进式构造算法及基于该格结构上的关联规则提取算法。  相似文献   

9.
针对大规模决策形式背景中决策规则的提取问题,提出了一种将频繁闭项集与决策形式背景相结合以提取无冗余决策规则的新算法.该算法结合了深度优先搜索的思想以及概念格中概念节点之间的父子关系,改进了概念格中频繁闭项集的挖掘算法,得到的频繁决策概念格实现了对一定规模的数据库的压缩,同时得到无冗余决策规则.算法分析表明,该算法复杂度较低,更适用于大规模数据集中挖掘无冗余决策规则.  相似文献   

10.
分析了概念格与关联规则之间的关系,提出了将频繁项集及其支持度存储在概念格上,然后在创建好的概念格上提取关联规则的方法,概念格的每个节点本质上是一个最大项目集,非常有利于关联规则的提取。为了充分利用概念格实现关联规则提取,提出了一种新的概念格结构:加权概念格,并给出其渐进式构造算法及基于该格结构上的关联规则提取算法。  相似文献   

11.
在挖掘最大频繁项目集的过程中,通过改变最小支持度阈值可以挖掘更有用的最大频繁项目集,为此提出了一种最大频繁项目集更新挖掘算法UAMMFI(Updating Algorithm for Mining Maximal Frequent Itemsets)。算法基于改进后的频繁模式树结构,在更新挖掘过程中,不需产生候选项目集和条件模式树,并且充分利用先前已挖掘的最大频繁项目集中包含的信息,快速更新挖掘出最小支持度阈值变化后的最大频繁项目集。实验结果表明,算法能够高效更新挖掘最大频繁项目集。  相似文献   

12.
提出了对基于频繁模式矩阵Fp-array的挖掘的改进算法。首先对各项的投影矩阵预处理划分成若干同维矩阵,并根据同维矩阵的权值对剩余未搜索项进行预先判断,进而对搜索最大频繁项目集进行有效剪枝,减少了搜索范围。经过实验和算法分析,证明了改进算法具有明显的优越性。  相似文献   

13.
针对股评论坛主题发现,提出基于频繁项集与潜在语义相结合的短文本聚类(STC_FL)框架.在基于知网的知识获取后得到概念向量空间,挖掘并筛选出重要频繁项集,然后采用统计和潜在语义相结合的方法进行重要频繁项集的自适应聚类.最后,提出TSC-SN(text soft classifying based on similarity threshold and non-overlapping)算法,通过参数调优策略选择和控制文本软聚类过程.股吧论坛数据实证分析发现:所提出的STC_FL框架和TSC-SN算法可充分挖掘文本潜在语义信息,并有效降低特征空间维度,最终实现对短文本的深层次信息挖掘和主题归类.  相似文献   

14.
基于有向图的关联规则算法   总被引:5,自引:0,他引:5  
提出了一种基于有向图的关联规则挖掘算法,采用了垂直二进制位图映射数据库,根据垂直二进制位图来生成有向图,将频繁项的二进制位串作为有向图的权值,通过分析有向图生成最大频繁项集,并给出了最大频繁项集挖掘算法的优势。  相似文献   

15.
针对大型事务数据库中频繁集的多属性聚类问题,提出一种高效的频繁集聚类算法.以往聚类算法采用基于距离的计算方法,由于受到属性数据的制约,在频繁集挖掘中具有一定的限制.在属性聚类基础上,基于连接对频繁集进行聚类.在算法中先找出数据点的邻居和计算相似度,构造邻居矩阵;然后计算连接数目,确定邻居数目矩阵;最后通过设置判定函数和阈值确定聚类数.通过实验证明,算法能够不仅能有效地完成频繁集的多属性聚类问题,而且还可以进一步发现频繁集在某一层次的相关性.  相似文献   

16.
虽然已有的最大频繁项集挖掘算法在结构和技术上已经做了很多改进,但还是存在挖掘速度慢、效率低的缺点,在此提出了图的四叉链表存储结构和基于该存储结构的最大频繁项集挖掘算法,该结构具有一次生成多次使用,不必耗用额外的存储空间等特点,基于该存储结构的最大频繁项集挖掘算法充分利用了该存储结构的特点以及频繁扩展集的性质,有效地减少了冗余候选集的生成,降低了串的冗余存储,将串集合间的比较转化为整型数组的比较,从而使得它比已有的最大频繁项集挖掘算法在挖掘效率上有了明显的提高,最后通过实验证明了该算法较其他已有算法效率有了较大的提高.  相似文献   

17.
关联知识挖掘算法中一种广为人知的算法就是Aprior算法,之后所有关联规则挖掘算法的基本思想都是基于频繁项目集发现算法的基础上进行了改进.为了提高关联规则挖掘效率,首先回顾了基于图的关联规则挖掘算法;然后,在此基础上进行了改进,把关联规则挖掘中寻找频繁项集的问题转换为图中寻找完全子图的问题,通过在图中查找完全子图来寻找频繁项集.提出了一种基于图的关联规则挖掘改进算法,并且对原算法和改进的算法从时间和空间的性能进行了比较分析,得出改进的算法是有效可行的.最后从实验结果得出结论GenerateItemsets算法比DGBFIG算法优.  相似文献   

18.
关联规则挖掘主要用来发现数据库中存在的频繁项集.利用权值标识项目的重要程度,提出一种新的关联规则——加权关联规则的挖掘.由于项目权值的引入,Apriori性质不再成立,频繁项集的子集不再一定是频繁的.为此,提出k-最小支持数的概念,对原有Apriori算法进行改进.该算法能够挖掘出现频率小但是带来更大利润的项目,使得挖掘出的关联规则更加满足决策者的需求,也更加符合实际需要.  相似文献   

19.
针对传统的关联规则在试卷评估中应用出现的问题:由于试题的难易程度不同,被答对的概率也不一样,即数据集中数据项发生的概率不一样,数据项具有倾斜支持度分布的特征,选择合适的支持度阈值挖掘这样的数据集相当棘手。文章提出了基于试题难度系数加权的关联规则挖掘算法,从而解决因试题难度不同而导致数据项出现的概率不均的问题,发现更多有趣的关联规则,并且理论上证明了基于难度系数的加权关联规则算法保持频繁项集向下封闭的重要特性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号