首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
图数据的挖掘工作是数据挖掘工作中的重要组成部分,已经有许多人在这个领域进行了深入的研究.由于数据获取不可避免噪音数据,故在挖掘频繁图时考虑近似十分重要.然而许多此前的工作只考虑了子图间编辑距离(Graph Edit Distance,GED)的绝对值,而没有考虑子图间编辑距离与子图大小的相对关系.提出了一种在单图中进行近似频繁子图挖掘的新算法,并在计算近似程度时考虑当前子图的大小.该算法通过对近似频繁子图的大小上限进行预测,并通过局部反单调性进行剪枝,提高了算法的效率.实验表明,该算法能够挖掘出传统算法无法发现的近似频繁子图,且相比对比算法具有更好的时间性能.  相似文献   

2.
为了从团伙犯罪中锁定核心犯罪嫌疑人,提高侦破案件的效率,本文提出了一种改进的PageRank算法分析团伙犯罪中各犯罪嫌疑人的嫌疑度值,通过主题相关性度量分析了嫌疑人与案件的关系,通过嫌疑人的重要性度量分析了嫌疑人在团伙犯罪中的地位。改进的算法可以有效协助侦查人员分析一个犯罪网络中各成员的关系,通过嫌疑度排序找出团伙中的核心人员和涉案人员,从而排除非涉案人员。通过一个案件实例验证了该算法的有效性,节省了办案人员的时间精力,提高办案效率。  相似文献   

3.
针对传统文本分类算法的分类精度低和计算复杂度高的问题,提出一种基于加权频繁子图挖掘的图模型文本分类算法。首先将文档集表示成图集;然后运用加权图挖掘算法提取频繁子图;最后,对特征向量进行分类。提出的算法仅提取最重要的子图,使其整体具有较好的分类效果和较高的计算效率。为评估该算法有效性,将其与多种现有分类算法分别对一个数据集进行分类实验,实验结果表明,提出的算法具有更高的识别精度和更少的运行时间。  相似文献   

4.
安卓恶意软件的爆发式增长对恶意软件检测方法提出了更高效、准确的要求.早年的检测方法主要是基于权限、opcode序列等特征,然而这些方法并未充分挖掘程序的结构信息.基于API调用图的方法是目前主流方法之一,它重在捕获结构信息,可准确地预测应用程序可能的行为.本文提出一种基于图注意力网络的安卓恶意软件检测方法,该方法通过静态分析构建API调用图来初步表征APK,然后引入SDNE图嵌入算法从API调用图中学习结构特征和内容特征,再通过注意力网络充分融合邻居节点特征向量,进而构成图嵌入进行检测任务.在AMD数据集上的实验结果表明,本文提出的方法可以有效检测恶意软件,准确率为97.87%,F1分数为97.40%.  相似文献   

5.
采用垂直二进制位图映射事务数据库,提出了用二进制位图生成一种新的NBFP-Tree结构,并据此提出了一种新的频繁模式挖掘算法NBFP-mine. 该算法不产生候选集,对NBFP-Tree结构进行深度优先遍历一次,就可从NBFP-Tree结构上直接查找出最大频繁模式. 最后,从理论分析和实践验证了它的高效性.  相似文献   

6.
提出了一种基于模式增长的频繁模式挖掘算法(简称为PGMiner算法).这种算法是一种深度挖掘的算法,不产生任选项集,便于发现较长的模式,避免了Apriori和FP-growth方法存在的问题.通过一种简单的索引结构在映射数据库中不断地增加模式长度.这种索引结构占用较少的内存,使得这种基于内存的算法有很高的执行效率.采用现实数据集以及IBM人工数据集对PGMiner算法进行测试.试验结果显示,对于一般类型的特别是较为稀疏的数据集,PGMiner算法比Apriori和FP-growth方法有更好的性能.  相似文献   

7.
关联知识挖掘算法中一种广为人知的算法就是Aprior算法,之后所有关联规则挖掘算法的基本思想都是基于频繁项目集发现算法的基础上进行了改进.为了提高关联规则挖掘效率,首先回顾了基于图的关联规则挖掘算法;然后,在此基础上进行了改进,把关联规则挖掘中寻找频繁项集的问题转换为图中寻找完全子图的问题,通过在图中查找完全子图来寻找频繁项集.提出了一种基于图的关联规则挖掘改进算法,并且对原算法和改进的算法从时间和空间的性能进行了比较分析,得出改进的算法是有效可行的.最后从实验结果得出结论GenerateItemsets算法比DGBFIG算法优.  相似文献   

8.
采用频繁子图作为特征子图,对不确定图进行分类.提出AGF频繁子图挖掘算法,该算法将频繁子图挖掘问题转换为频繁项挖掘问题,可有效提高频繁子图生成效率.利用频繁子图构造分类模型,首次应用于不确定图,通过实验证明,给出的分类算法具有良好的分类正确率.  相似文献   

9.
基因表达数据集与传统事务数据集相比呈现出新的特征,由于其项目数远远大于事务数,使得大量现有的基于项目枚举的频繁闭合模式挖掘算法不再适用.为此提出一种频繁闭合模式挖掘新算法TPclose,使用TP-树(tidset-prefix tree)保存项目的事务集信息.该算法将频繁闭合模式挖掘问题转换成频繁闭合事务集挖掘问题,采取自顶向下分而治之的事务搜索策略,并组合了高效的修剪技术和有效的优化技术.实验表明,TPclose算法普遍快于自底向上事务搜索算法RERⅡ,最高达2个数量级以上.  相似文献   

10.
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题,如果采用Apriori类的候选项目集生成一检验方法,则候选项目集生成的代价通常很高.为寻求避免生成大量候选项集或生成频繁模式树的挖掘算法,提出一种从事务项集交集求最大频繁项集的迭代算法DIIP(Datasets Iteration and Intersection Pruning Algorithm),通过不断缩减事务集数据量和尽可能早地对项目集进行修剪实现最大频繁项集的挖掘,该算法有别于已有的最大频繁项集经典算法,实验表明该算法有效可行.  相似文献   

11.
Web序列模式挖掘是将数据挖掘技术应用于Web访问序列,通过对Web访问序列的模式挖掘可以发现用户与网站交互的频繁模式,利用这些模式可以建模并分析用户与网站交互的模型,进而预测未来的访问模式,这对于构建智能化Web站点和开展电子商务活动有非常重要的意义.介绍了传统的PLWAP(position coded preorder linked WAPtree)算法,并在此基础上提出了一种对PLWAP算法中Header table的新的构建方法的改进算法(NPLWAP).在NPL-WAP算法中Header table的构建过程中每一步都只基于当前处理的节点的后缀树集,且Header table并不存储所有的后缀树集节点,而是只存储后缀树集根节点,从而减少挖掘过程的相关判断.通过对真实数据的实验对比可以看出NPLWAP算法在运行时间上比传统的PLWAP算法有了很大的改进.  相似文献   

12.
分析稀少数据的相关性是一种重要的、有价值的数据挖掘任务。运用面向关联规则的FP树构造方法,提出了一种特异关联规则挖掘算法RSFPA。该算法将包含特异模式的数据集压缩成一棵FP树,通过挖掘FP树来提取特异模式集,从而进一步提高了特异模式的挖掘效率。最后,利用恒星光谱作为数据集,实验验证了RSFPA算法的正确性和有效性。  相似文献   

13.
吸收深度优先和广度优先算法的优点,充分利用Apriori原则,提出了一种连接-扩展混合型的频繁无序树挖掘算法.首先在兄弟模式子树间进行连接,然后只在模式子树的最右叶顶点上进行扩展.分别用人工数据集和现实数据集进行测试,结果表明,本文算法比uFreqt算法性能提高0.5~1.0倍,比HybridTreeMiner算法性能提高5~10倍.  相似文献   

14.
频繁项集的生成是关联规则挖掘中的关键问题,本文提出了一种基于无向项集图的频繁项集挖掘算法.应用优化算法对病人就诊数据进行挖掘分析,与传统的频繁项集挖掘算法相比,优化算法在执行效率上有明显的提高,对临床实践研究提供有价值的指导意见.  相似文献   

15.
案件罪名预测任务是基于文本数据去预测案件所属罪名.针对现有方法在相似罪名和长尾数据集上表现不佳的问题,提出了一种基于图注意力网络的案件罪名预测方法CP-GAT(charge prediction based on graph attention network).该方法首先使用司法文书数据集中的案例事件描述文本和案例对应的法条信息建立异质图结构数据,构建后的异质图包含两种类型的节点(词节点、案例节点),两种类型的边(词节点与词节点相连的边,词节点与案例节点相连的边).在基于法律文本构建后的异质图上使用图注意力网络进行图特征提取,最后将得到的特征向量输入到罪名预测的分类器中,得到案例所属的罪名.在CAIL2018法律数据集上的实验结果表明,基于图注意力网络的罪名预测方法优于对比实验使用的方法,准确率和宏观F1值分别达到了95.2%和66.1,验证了提出的方法有利于提升案件罪名预测任务的性能.  相似文献   

16.
提出了一种基于特征向量中心性推断基因调控网络结构的算法,通过特征向量中心性挖掘基因在网络中的拓扑信息,结合基因对之间的相关性和拓扑信息构建完整的基因调控网络.算法在n个变量和n个样本的DREAM数据集以及包含9个变量和9个样本的大肠杆菌数据集上进行仿真测试,并与现有的基于距离相关性和网络拓扑中性的3种最先进的网络推理算法进行了比较,算法结果显示该方法能够提高基因调控网络结构的预测精度.  相似文献   

17.
基于图神经网络的推荐算法通过从图中获取知识,提高了推荐的可解释性.然而随着推荐系统网络数据规模的不断扩大,用户-项目评分矩阵呈现出稀疏性问题,图神经网络难以学习到高质量的网络节点特征,导致推荐质量下降.本文将图神经网络与异质信息网络相结合,提出一种基于异质图神经网络的推荐算法.该算法使用异质信息网络对多源异质数据进行联合解码,将注意力机制引入用户-项目交互网络和用户社交网络的用户、项目聚合表示过程,从而实现用户-项目交互和用户社交两类网络间的节点及拓扑结构特征的有效融合.两个公开数据集上的对比实验结果表明,本文提出的算法在不断稀疏化的数据集上的推荐误差比基线方法少40%.  相似文献   

18.
传统的数据分析方法在挖掘医学数据信息时,没有充分利用可用的信息.针对这一问题,提出一种基于改进模糊聚类的Takagi-Sugeno(T-S)模糊系统,将系数调节与指数调节与经典模糊C均值聚类(Fuzzy C-means,FCM)算法结合,替换经典T-S模糊系统中的逻辑元件,合理利用T-S模糊系统在预测与回归等方面的优势的同时,通过指数或系数的灵活调控,深度挖掘医学数据中不同属性间的关联信息,提高算法在众多医学数据分析预测中的准确性.为具体评估算法有效性,在真实医疗数据集上进行实验,实验结果表明,该算法具有更高的预测精度及可行性.  相似文献   

19.
针对异常模式挖掘中的情境离群点检测问题,提出一种基于图的检测方法.首先对数据实例构建一个实例图,然后采用一个滑动窗口穿越数据实例,对处于滑动窗口内的数据实例,计算结点之间的闵可夫斯基距离作为边权值,然后采用最小生成树聚类算法对实例图进行聚类,再采用第二个滑动窗口穿越数据实例,根据窗口内的数据实例是否属于主趋势聚类赋予不同的离群值评分,不属于主趋势聚类的数据实例被认为是潜在的离群点.仿真实验和实际数据分析表明该方法在一元序列数据检测中是切实可行的,该方法具有较好的适用性和扩展性.  相似文献   

20.
如何准确评估嫌疑人的影响力是侦破团伙犯罪的关键,为此,在PageRank算法的基础上,结合团伙犯罪的网络结构特性,提出团伙犯罪中嫌疑人犯罪影响力评估模型.该模型首先结合已掌握的作案信息将团伙犯罪网络转化为有向加权网络,再根据中间中心度、接近中心度两大网络特性确定罪犯影响力转移矩阵,最后该模型以实际的案例为实验数据得出具体的嫌疑人犯罪影响力,并以两种成熟的模型为对比模型,实现结果显示该模型的评估结果与实际案件结果拟合度较高,且准确率也高于对比模型,验证了该模型具有较高的准确性和可行性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号