首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
采用频繁子图作为特征子图,对不确定图进行分类.提出AGF频繁子图挖掘算法,该算法将频繁子图挖掘问题转换为频繁项挖掘问题,可有效提高频繁子图生成效率.利用频繁子图构造分类模型,首次应用于不确定图,通过实验证明,给出的分类算法具有良好的分类正确率.  相似文献   

2.
gSpan算法是一种基于频繁图的挖掘算法。该算法基于无候选人产生的频繁子图,在图中建立字典序标号,将每个图映射为最小DFS code,再采用深度优先搜索策略挖掘频繁连接子图。与前人算法相比,该算法在生成候选子图时,冗余子图的产生量大大减少;在计算候选子图支持度时避免了大量重复扫描数据库,性能卓越。该文的贡献是将gSpan算法应用在挖掘与已知毒性化合物具有相同子结构的化合物研究工作中,进行未知化合物的毒性预测,对相关领域应用发展具有重要意义。  相似文献   

3.
关联知识挖掘算法中一种广为人知的算法就是Aprior算法,之后所有关联规则挖掘算法的基本思想都是基于频繁项目集发现算法的基础上进行了改进.为了提高关联规则挖掘效率,首先回顾了基于图的关联规则挖掘算法;然后,在此基础上进行了改进,把关联规则挖掘中寻找频繁项集的问题转换为图中寻找完全子图的问题,通过在图中查找完全子图来寻找频繁项集.提出了一种基于图的关联规则挖掘改进算法,并且对原算法和改进的算法从时间和空间的性能进行了比较分析,得出改进的算法是有效可行的.最后从实验结果得出结论GenerateItemsets算法比DGBFIG算法优.  相似文献   

4.
针对传统文本分类算法的分类精度低和计算复杂度高的问题,提出一种基于加权频繁子图挖掘的图模型文本分类算法。首先将文档集表示成图集;然后运用加权图挖掘算法提取频繁子图;最后,对特征向量进行分类。提出的算法仅提取最重要的子图,使其整体具有较好的分类效果和较高的计算效率。为评估该算法有效性,将其与多种现有分类算法分别对一个数据集进行分类实验,实验结果表明,提出的算法具有更高的识别精度和更少的运行时间。  相似文献   

5.
通过分析传统中医药物间的影响关系和图结构数据节点间关系的共通性, 将中医方剂学中处方的药物联系按规则转换为图结构数据, 采用频繁闭图挖掘算法CloseGraph对图结构化的处方数据进行操作, 得到图结构中代表具有特定功能的频繁闭图, 再转换解释获得各中医方剂中对特定病症起决定疗效的核心药物组合及组合形式. 结果表明, 该方法可行、 有效, 成功地将图挖掘策略引入了中医方剂研究领域.  相似文献   

6.
为了利用图模式挖掘犯罪情报网络中的核心团伙和核心人物,提高犯罪网络威胁预测和识别的效率,提出一种新的核心团伙挖掘算法(Core Gang Mining Algorithm, CGMA).对海量的犯罪情报网络数据集建立相应的无向简单图模型,通过改进图挖掘方式,构建候选核心团伙集的数据结构,并提出由k-团伙通过连接和扩展2种操作得到(k+1)-团伙,从各个不同的图数据中统计其频度,最后在模拟数据集和真实数据集上验证算法CGMA的准确性和时间复杂度.该算法避免了传统的图模式挖掘中的子图同构问题,同时也优于其他常用的犯罪团伙挖掘算法.试验结果表明:该算法能对犯罪核心团伙信息进行有效预测.  相似文献   

7.
提出的新算法对gSpan算法做了适用性改进,算法所采用的图编码技术与传统的频繁子图挖掘(FSG),快速频繁子图挖掘(FFSM),基于先验的图挖掘(AGM)等算法对图结构的编码均不同,由于对有向图进行了新的二维特征定义,因此可使算法适用范围有效地扩展至对有向图的学习,称之为基于对gSpan改进的有向频繁子图挖掘算法(DF...  相似文献   

8.
基于图的最大频繁项集的生成算法   总被引:1,自引:0,他引:1  
挖掘频繁项集是数据挖掘的重要技术之一,目前已有很多经典算法,如:apriori算法,FP-tree等.挖掘频繁项集主要是寻找最大频繁项集,为了快速寻找最大频繁项集,通常采用削减候选项集、减少扫描数据库次数的方法和将自底向上与自顶向下的搜索方法结合起来(又称双向搜索).双向搜索能有效地缩减搜索空间.本文把基于图的关联规则挖掘和双向搜索的思想结合起来产生最大频繁项集,提出了基于图的最大频繁项集生成算法.此算法用图将数据映射到一个向量上,通过一遍扫描数据库就可以构造整个频繁项集,结合双向搜索,能快速生成频繁项集,对产生较大长度的最大频繁项集也有较好的效果.文末,把基于图的关联规则挖掘算法和基于图的最大频繁项集算法进行了比较,分析出性能差别的原因.  相似文献   

9.
gSpan算法是一种高效的频繁子图挖掘算法,它通过最右扩展图的标准编码得到图集中的所有频繁子图,但它需要通过子图同构判断来计算支持度,由于子图同构问题是NP完全问题,其计算比较复杂.针对上述问题提出一种优化的算法IgSpan,通过改进的ADI++存储结构将图的最右扩展和支持度的计算相结合,避免直接的子图同构判断,经实验...  相似文献   

10.
频繁项集的生成是关联规则挖掘中的关键问题,本文提出了一种基于无向项集图的频繁项集挖掘算法.应用优化算法对病人就诊数据进行挖掘分析,与传统的频繁项集挖掘算法相比,优化算法在执行效率上有明显的提高,对临床实践研究提供有价值的指导意见.  相似文献   

11.
流数据频繁项挖掘是一项重要的研究课题,是其他流数据挖掘任务的基础。Lossy counting 算法是第一个近似的流数据频繁项挖掘的算法,并且具有空间和时间的高效性。详细分析该算法,尤其是它不能回答关于时间的查询的不足后,对其进行改进,提出了一个在多时间粒度上挖掘流数据频繁项的设想,加入时间维度。改进后的算法在时间倾斜窗口保存与合并频繁项,可以应用于各种对时间敏感的流数据查询和挖掘应用中。  相似文献   

12.
AGM算法和HSIGRAM算法是两个经典的频繁子图挖掘算法,在基于图的数据挖掘中有重要的应用.从算法思想和应用技术两个方面分析了AGM算法和HSIGRAM算法的异同点,结合基于图的数据挖掘的特性,提出针对这两个算法的改进策略.  相似文献   

13.
马晓培 《科学技术与工程》2012,12(20):5060-5065
针对大部分频繁子图挖掘算法,基于无向图而不适用于更具有实际意义的有向图的挖掘的现状,通过对无向图挖掘算法gSpan中编码结构的扩展,采用改进的规范形式,使编码适用于有向图领域。并使用针对有向图的DADI++存储结构来存储图集,简化了数据访问操作的代价。另外在挖掘中使用Hash表存储同构图的Hash地址和支持度,避免对图集的重复扫描和直接的同构测试。在实际数据集上运行的实验结果表明提出的Dspan算法是正确的,并比FFSM算法效率更高。  相似文献   

14.
关联规则挖掘的一种多剪枝概念格方法   总被引:1,自引:0,他引:1  
多数据源上关联规则挖掘方法,由于各数据节点间相互通信的候选项集数目过于庞大或者挖掘过程需要对数据库进行多次扫描,导致挖掘算法效率不高。研究剪枝概念格(pruned con-cept laffice,PCL)中概念与频繁项集表示关系,定义剪枝格上的导出频繁项集,设计了一个利用多剪枝概念格从多数据源上挖掘近似所有关联规则的算法UMPCL(union algorithm of multiplepruned concept lattice)。利用一个频繁概念表示一些频繁项集以减少挖掘过程中产生的侯选项集数,使用与全局支持度相等的局部支持度对各子概念格进行剪枝,最后融合、剪枝各子剪枝格并提取全局关联规则。理论分析和实验验证表明该算法是有效的。  相似文献   

15.
为解决现有区分子图方法在解决阿尔茨海默症辅助诊断上忽略脑网络动态连接变化的问题,提出一种基于时序区分子图的辅助诊断方法.将功能磁共振成像经过处理后形成二值矩阵并使同一测试者的多张动态脑网络形成时序差异图,之后进行频繁差异子图挖掘、频繁差异序列挖掘,进而筛选出保留脑网络时序特性的生物标记物——时序区分子图.获取ADNI公开数据集的一组数据进行实验,通过与现有的早期阿尔茨海默症辅助诊断方法进行大量的实验对比,证明本文方法的辅助诊断准确率在该数据集上提高了12.7%,进而证明所提方法的有效性.  相似文献   

16.
频繁项集的生成是关联规则挖掘中的关键问题,本文提出了一种基于无向项集图的频繁项集挖掘算法。应用优化算法对病人就诊数据进行挖掘分析,与传统的频繁项集挖掘算法相比,优化算法在执行效率上有明显的提高,对临床实践研究提供有价值的指导意见。  相似文献   

17.
当前大部分图查询算法都是针对静态图数据,不适用于现实应用中不断更新的图数据。针对这一问题,提出支持增量图数据的超图查询算法。该算法将数据图分解成直至单个顶点的子图,然后从单个顶点的子图开始求它到查询图的子图同构,直到求出数据图到查询图的子图同构结果,算法在数据图增加时只需将新加入的数据图进行分解即可,不必重新计算。通过分析证明,所提算法时间和空间复杂度不随数据图的增加而呈线性增长,节省了大量时间和空间代价。  相似文献   

18.
频繁项集的挖掘不仅仅是关联规则挖掘的基础,而且在序列模式、聚类、多维模式等数据挖掘任务中扮演重要角色.本文在给出一个基于数据垂直分布的频繁项集挖掘算法HBMFP的基础上,论述了利用MFC中的树视图控件(CTreeCtrl)将频繁项集树形可视化,并讨论了基于该频繁模式树的3种约束频繁项集查询的方法.  相似文献   

19.
针对大型图中的各种top-k近似子图查询算法存在的顶点重叠度高、无法满足多样性匹配结果输出等问题,提出具有最大顶点覆盖集的多样性近似子图查询算法.该算法建立基于近邻关系和基于区域划分的双重索引,并为相互关系紧密的同标号顶点建立簇索引.在图查询过程中,利用近邻特征为查询图中的每个顶点快速筛选出满足局部匹配要求的候选顶点集,并从不同区域找到多个满足要求的近似匹配子图,避免了查询结果间的高重复率.同时,基于区域和同标号近邻簇的划分,优先查找属于不同划分或不同簇顶点的匹配,减少了不同区域划分间的交互,提高了查询的效率.在大量数据集上的实验结果验证了该算法在查询效率和结果多样性等方面的有效性.  相似文献   

20.
对图数据频繁模式的挖掘是近年的研究热点,而从图数据库中挖掘频繁模式的关键是子图测试和候选子图生成操作。与传统广泛研究的频繁项集、频繁序列、频繁子树挖掘相比较,频繁子图的挖掘更复杂、更有难度,因为图同构问题是一个NP-完全问题。因此,必须有个好的规范化编码和有效的算法来避免子图同构这个难题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号