首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 515 毫秒
1.
采用频繁子图作为特征子图,对不确定图进行分类.提出AGF频繁子图挖掘算法,该算法将频繁子图挖掘问题转换为频繁项挖掘问题,可有效提高频繁子图生成效率.利用频繁子图构造分类模型,首次应用于不确定图,通过实验证明,给出的分类算法具有良好的分类正确率.  相似文献   

2.
图数据的挖掘工作是数据挖掘工作中的重要组成部分,已经有许多人在这个领域进行了深入的研究.由于数据获取不可避免噪音数据,故在挖掘频繁图时考虑近似十分重要.然而许多此前的工作只考虑了子图间编辑距离(Graph Edit Distance,GED)的绝对值,而没有考虑子图间编辑距离与子图大小的相对关系.提出了一种在单图中进行近似频繁子图挖掘的新算法,并在计算近似程度时考虑当前子图的大小.该算法通过对近似频繁子图的大小上限进行预测,并通过局部反单调性进行剪枝,提高了算法的效率.实验表明,该算法能够挖掘出传统算法无法发现的近似频繁子图,且相比对比算法具有更好的时间性能.  相似文献   

3.
关联知识挖掘算法中一种广为人知的算法就是Aprior算法,之后所有关联规则挖掘算法的基本思想都是基于频繁项目集发现算法的基础上进行了改进.为了提高关联规则挖掘效率,首先回顾了基于图的关联规则挖掘算法;然后,在此基础上进行了改进,把关联规则挖掘中寻找频繁项集的问题转换为图中寻找完全子图的问题,通过在图中查找完全子图来寻找频繁项集.提出了一种基于图的关联规则挖掘改进算法,并且对原算法和改进的算法从时间和空间的性能进行了比较分析,得出改进的算法是有效可行的.最后从实验结果得出结论GenerateItemsets算法比DGBFIG算法优.  相似文献   

4.
gSpan算法是一种高效的频繁子图挖掘算法,它通过最右扩展图的标准编码得到图集中的所有频繁子图,但它需要通过子图同构判断来计算支持度,由于子图同构问题是NP完全问题,其计算比较复杂.针对上述问题提出一种优化的算法IgSpan,通过改进的ADI++存储结构将图的最右扩展和支持度的计算相结合,避免直接的子图同构判断,经实验...  相似文献   

5.
目前,卷积神经网络(Convolutional Neural Network,CNN)模型在处理图像数据时分类效果较差,人工水母搜索(Artificial Jellyfish Search,AJS)算法收敛速度慢,迭代次数多,特征选择的效果不理想.针对上述问题,提出一种基于CNN和AJS的图特征选择方法 .首先,使用CNN来提取特征,将生成的特征图进行图嵌入降维,再使用AJS算法进行特征选择,把得到的特征输入分类器,进行模型训练和评估;然后,在图嵌入阶段,将特征图进行随机游走,并通过添加特征权重计算节点的游走概率来增强权重大的节点的游走概率,提高分类精度;最后,在AJS算法中引入余弦公式对人工水母的位置进行更新,充分考虑特征向量之间的相似性,提高算法的收敛速度并减少迭代次数.在10个基准函数上进行实验,结果表明改进的AJS算法具有较好的优化性能.在四个数据集上,将提出的算法与其他算法进行对比实验,实验结果表明,提出的算法能提高分类精度,减少迭代次数.  相似文献   

6.
引入图的误分类代价矩阵,选取以最小误分类代价为目标的加权子图作为图样本的特征属性,建立起图的决策树桩分类器,进行集成学习,得到一个对新图进行分类的判别函数.在生成候选子图时,利用子图的超图增益值具有上界的性质来裁剪增益值比较小的候选子图,从而减少候选子图数量,提高算法效率.实验结果表明,所提算法比其他图分类算法的误分类代价更小.  相似文献   

7.
传统的图分类算法由于支持度阈值选择过低导致频繁子模式规模过大,进而造成效率过低,阈值选择过高导致重要模式丢失而造成分类精度下降,如FSG和CEP方法.针对这些问题,提出将动态抽样策略引入图分类领域,在保持分类准确率的前提下通过顶点平均度的计算抽样选取代表性子模式,结合CEP所给出的频繁闭显露模型,设计出一种新的图特征(分类规则)提取方法,解决了CEP算法由于支持度阈值设置过低而导致的无法计算现象,大大提高了分类效率;并通过实验证明本文算法优于现有的一些主流算法.  相似文献   

8.
随着图结构的大规模应用,图数据库上的查询已经成为图挖掘的研究热点。针对无向加权图,本文提出一种基于最短权值路径和拉普拉斯图谱的子图查询方法PSQuery。首先,PSQuery方法选取可表示数据图的高效特征属性;接着,对提取的特征属性按照哈希映射进行编码,将特征编码组合生成节点编码和图编码,并且基于图编码构建索引树;最后,通过实现过滤-验证框架得到结果集:按照提取特征的嵌套性质进行过滤生成候选集,再根据VF2算法进行验证得到最终的超图集合。实验结果表明,提出的方法加速了无向加权图数据库上的子图查询过程,提高了查询效率。  相似文献   

9.
gSpan算法是一种基于频繁图的挖掘算法。该算法基于无候选人产生的频繁子图,在图中建立字典序标号,将每个图映射为最小DFS code,再采用深度优先搜索策略挖掘频繁连接子图。与前人算法相比,该算法在生成候选子图时,冗余子图的产生量大大减少;在计算候选子图支持度时避免了大量重复扫描数据库,性能卓越。该文的贡献是将gSpan算法应用在挖掘与已知毒性化合物具有相同子结构的化合物研究工作中,进行未知化合物的毒性预测,对相关领域应用发展具有重要意义。  相似文献   

10.
提出的新算法对gSpan算法做了适用性改进,算法所采用的图编码技术与传统的频繁子图挖掘(FSG),快速频繁子图挖掘(FFSM),基于先验的图挖掘(AGM)等算法对图结构的编码均不同,由于对有向图进行了新的二维特征定义,因此可使算法适用范围有效地扩展至对有向图的学习,称之为基于对gSpan改进的有向频繁子图挖掘算法(DF...  相似文献   

11.
针对数据挖掘中的文本分类问题,提出了一种基于遗传算法和信息熵的文本分类规则抽取算法Genet-ic-Miner(简称GM),该算法的目标是在数据集中发现分类规则。首先利用信息熵生成初始种群,然后利用优化的遗传算法抽取相应规则。采用六个标准的公共领域的数据集比较了GM与其它两个非常著名的同类算法Ant-Miner和CN2,实验结果表明,无论是预测准确性和规则的简单性,GM都明显优于Ant-Miner和CN2,并且该算法能大大提高对知识的理解力。  相似文献   

12.
The design and implementation of a scalable parallel mining system target for big graph analysis has proven to be challenging. In this study, we propose a parallel data mining system for analyzing big graph data generated on a Bulk Synchronous Parallel (BSP) computing model named BSP-based Parallel Graph Mining (BPGM). This system has four sets of parallel graph mining algorithms programmed in the BSP parallel model and a well-designed workflow engine optimized for cloud computing to invoke these algorithms. Experimental results show that the graph mining algorithm components in BPGM are efficient and have better performance than big cloud-based parallel data miner and BC-BSP.  相似文献   

13.
AGM算法和HSIGRAM算法是两个经典的频繁子图挖掘算法,在基于图的数据挖掘中有重要的应用.从算法思想和应用技术两个方面分析了AGM算法和HSIGRAM算法的异同点,结合基于图的数据挖掘的特性,提出针对这两个算法的改进策略.  相似文献   

14.
针对IP骨干网重新配置中繁重工作量的问题,提出一种快速图挖掘算法来解决网络拓扑的局部调节区域问题,解决了从网络拓扑中找到组件时子图同构的NP-hard问题,减少了网络重构的操作工作量.该文提出的启发式图挖掘算法顶点,称为顶点目标搜索(vertex targeting search,VTS)算法,通过考虑网络操作条件减少了搜索空间的大小.实验结果表明,该文方法可以快速得到搜索网络模式图,与其他方法比较,该文具有较少的搜索时间,说明该文方法具有可行性和有效性.  相似文献   

15.
基于Rough集的决策树算法   总被引:1,自引:0,他引:1  
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。  相似文献   

16.
李梦吉  韩燮 《科学技术与工程》2020,20(13):5235-5239
计算机辅助设计(CAD)模型是一种带有顶点信息和网格信息的三维数据,三维模型数据存储方式常见的有点云、体素、网格模型等是典型的非欧氏空间数据。为了改进现有方法利用深度学习训练CAD模型的分类时,常有丢失局部信息或局部信息提取不足的情况。针对这种非欧氏空间的CAD数据,提出了一个结合CAD数据本身特点的基于图卷积的分类模型。首先通过图卷积网络(GCN)计算顶点的邻接矩阵和顶点的度矩阵。针对CAD模型的特点提出了不同于K近邻(KNN)的方法,直接根据CAD模型面片信息构建计算所需的邻接矩阵。其次,图卷积网络可以聚合邻近顶点的信息,设计通过拼接两层图卷积网络来提取不同尺度的局部特征。结果表明:在ModelNet40 CAD模型数据集上,若采用CAD模型面片信息建图的方法,本文方法为91.2%。而采用KNN建图的方法虽然比PointNet++模型低1%的精确度,比KD-NET模型低0.9%的精确度,但参数量要比PointNet++减少0.54 MB,比KD-NET减少6.54 MB。可见本文模型结合了CAD模型的特点和图卷积聚合邻接顶点提取局部信息的优势,使得分类的精确度相比PointNet++提高0.6%,用更少的模型参数量得到了更高的分类精确度。  相似文献   

17.
基于人工鱼群算法的分类规则发现   总被引:3,自引:0,他引:3       下载免费PDF全文
人工鱼群算法(AFSA)是一种最新提出的新型仿生优化算法,具有良好的克服局部极值和获得全局极值的能力.利用鱼群算法进行分类规则挖掘,建立了相应的优化模型.通过对公用数据的实验和CN2算法的对比表明,本算法可得到预测准确率较高的分类规则,同时规则更为简单.  相似文献   

18.
在分析挖掘一个网络中的信息时,一个非常重要的信息就是统计Motif.现有算法是将原始网络在给定的条件下进行边与顶点转换,再从转换后的网络中找出所有子图,如果子图不满足Motif的要求则删除,存在时间复杂度过高的问题.针对这种情况,提出了一种自底向上的剪枝算法,在不需要经过网络转换的前提下,首先找到最小的符合要求的子图,再推导出更大的子图,而且所找到的每个子图均满足Motif的要求.并通过时间效率分析得出,对于该问题而言,提出的算法优于现有的算法,具有一定的理论研究价值.  相似文献   

19.
提出一种基于潜在低秩图判别分析(LatLGDA)算法,利用数据的自表示对数据的列表示系数矩阵和行表示系数矩阵同时施加低秩约束,得到保留数据结构的亲和矩阵,再与图嵌入模型相结合实现高光谱图像的流形降维并进行分类。与其他基于稀疏图或稀疏低秩图的高光谱特征提取算法相比,LatLGDA可利用数据的行信息弥补列信息的不足或缺失,对噪音的抗干扰能力更强;在真实数据集上的实验结果表明,LatLGDA算法具有较高的分类精度和运算效率,应用前景广阔。  相似文献   

20.
对图数据频繁模式的挖掘是近年的研究热点,而从图数据库中挖掘频繁模式的关键是子图测试和候选子图生成操作。与传统广泛研究的频繁项集、频繁序列、频繁子树挖掘相比较,频繁子图的挖掘更复杂、更有难度,因为图同构问题是一个NP-完全问题。因此,必须有个好的规范化编码和有效的算法来避免子图同构这个难题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号