共查询到20条相似文献,搜索用时 62 毫秒
1.
基于多支持度的挖掘加权关联规则算法 总被引:6,自引:0,他引:6
关联规则挖掘是数据挖掘中一个重要的模型.在其挖掘算法中,如果最小支持度很高,则出现频率比较低的规则就不能发现;如果最小支持度太低,因为频繁项的相互关联,则会出现组合爆炸.为此,提出了允许用户设定多个最小支持度、给定数据各项的权重来解决这一问题.理论、实验数据和实际应用证明,该新算法可行且符合实际情况,比同类算法用时更少,对大型数据库的关联规则挖掘非常有效. 相似文献
2.
传统的blast+软件包中的blastp搜索,在大数据时代下,序列搜索速度已经慢得难以接受.同源搜索软件的开发在过去十几年取得了巨大进展,但缺乏综合的评估.本研究对7个快速同源搜索软件与blastp进行了综合比较,结果发现,diamond的fast模式总体上来说相比其他软件更快,并且有着最低的错误发现率,是追求快速搜索的最佳选择;在内存消耗上,MMseqs2的算法在内存消耗上非常低,而ghostx则最高;在鉴定的hits数量方面,除了blasp以外,MMseqs2的s7.5模式在中等基因组相似度GSS下得到的结果最多,但s5模式应是更好的选择.随着GSS的降低,ghostx得到的结果最多,而随着GSS的升高,ublast得到的结果最多;在鉴定的Reciprocal Best Hits(RBH)数量上,ghostx在远缘搜索上具有优势,这一优势同样也具有共线性证据支持.在同源搜索方面,除ghostx有43.4%的额外结果外,几乎所有软件的搜索结果之间都有着很大的重叠,并且ghostx还有着非常低的错误发现率,而MMseqs2的s3模式却有着最高的错误发现率.总之,MMseqs2、diam... 相似文献
3.
蛋白质相互作用网络中的模块化结构通常对应于蛋白质复合物或者蛋白质功能模块。基于蛋白质相互作用网络预测蛋白质复合物和功能模块不仅有助于理解生命有机体的细胞生物过程,而且可为探讨疾病的发生、发展和治疗以及合理的药物开发提供重要的基础。本文通过回顾近二十年来基于蛋白质相互作用网络的蛋白质复合物和功能模块预测算法研究的发展历程,按照静态蛋白质相互作用网络(SPIN)和动态蛋白质相互作用网络(DPIN)两个方向分别梳理预测算法所涉及的方法和技术,同时归纳常用的数据集并分析所面临的问题,为进一步研究提供有价值的参考。 相似文献
4.
《中南民族大学学报(自然科学版)》2019,(1):144-149
协同过滤是推荐系统中应用最成功的技术之一,现有基于项目的协同过滤算法在计算项目相似度时过度依赖用户对项目的评分数据,没有考虑项目间内在的关联性,导致推荐质量不高.为了全面客观地评估项目相似度,提出了一种基于频繁项集挖掘的推荐算法(BFIM).该算法提出将频繁项集作用于相似度计算中,可以提高相似度计算的准确性,进而提升推荐算法的推荐质量.实验结果表明:提出的改进算法较对比算法在公开数据集上能取得更好的推荐效果. 相似文献
5.
基于Rough Set的缺省加权规则挖掘算法 总被引:8,自引:0,他引:8
本文在引入规则加权支持度概念后,提出了一种基于Rough Set的缺省加权规则挖掘算法-MDWRBR算法,实验结果表明,该算法能有效地过滤噪声,提高规则的挖掘效率。 相似文献
6.
基于多克隆选择的多维关联规则挖掘算法 总被引:6,自引:0,他引:6
通过引入多克隆选择算法的思想,提出了一种基于多克隆选择的关联规则挖掘算法.仿真对比试验表明,该算法加快了关联规则挖掘的收敛速度,具有更强的全局与局部搜索能力,与基于进化算法和基于免疫算法的关联规则挖掘算法相比,明显提高了所得关联规则的准确率. 相似文献
7.
在分析Chameleon聚类算法的基础上,提出了一种基于动态近邻选择模型的Chameleon算法(DNMC).新的算法考虑了回溯机制,有利于合并之后的分解.在标准数据集Wine和Iris上的实验表明,DNMC算法的fa指标优于M-Chameleon算法.通过计算各个属性的差异度,显示出一些属性的存在对于聚类结果影响很小,删除这些属性列可以降低时间复杂度. 相似文献
8.
9.
为快速、 准确地对日益复杂的大规模社会网络进行社区划分, 提出一种基于相似度投票的改进算法替代Louvain算法的底层划分, 解决了Louvain算法在底层划分收敛速度较慢, 并出现大量重复计算的缺点, 使社区划分更迅速. 由真实社会网络数据实验结果可见, 与Louvain算法相比, 改进算法在保持模块度基本不变的情况下, 效率显著提高, 划分的社区数更少、 社区结构更紧凑. 相似文献
10.
关联规则挖掘是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识.对于大型数据库来说,有算法的执行时间太长等问题.分析和探讨了Apriori算法,提出了基于Apriori算法的一种有效的关联规则挖掘算法,减少了数据库I/O操作时间,从而提高了效率. 相似文献
11.
针对蚁群算法在大规模蛋白质相互作用(protein-protein interaction,PPI)网络中进行功能模块检测所暴露的时间性能方面的不足,提出了一种基于多粒度描述和蚁群优化的快速求解算法。首先,从粒度计算的角度,给出了一种新的多粒度PPI网络描述模型;然后,基于该模型,设计了融合功能和结构信息的粒度划分,粗粒度的蚁群寻优,解的还原与优化3个阶段的求解过程。在大规模PPI网络上的实验表明:算法在保证检测质量的同时,能显著降低利用蚁群算法进行功能模块检测的求解时间,而且与近年来的一些经典算法相比在检测精度上也具有一定的优势。 相似文献
12.
BP神经网络在数据挖掘分类中的应用 总被引:2,自引:0,他引:2
结合人工神经网络对噪声数据具有高承受能力,且对未经训练的数据具有分类模拟能力的特点,讨论了在数据挖掘领域中利用BP网络进行数据分类的实现过程,描述并分析了BP算法.然后,针对银行业务中客户信用政策给出了实例分析,用该算法建立了一个分类模型,根据存款金额、贷款次数、及时还贷率等数据信息实现对客户信用等级的分类. 相似文献
13.
数据挖掘和数据仓库及其在电信业中的应用 总被引:14,自引:0,他引:14
介绍了数据挖掘和数据仓库技术的类型、结构和方法,并探讨了它们在电信业中的应用,最后对数据挖掘和数据仓库在我国的发展提出了建议。 相似文献
14.
数据挖掘领域中的聚类方法 总被引:4,自引:0,他引:4
王美华 《南华大学学报(自然科学版)》2004,18(1):58-62
聚类算法是数据挖掘中的核心技术,随着对聚类算法广泛深入的研究,产生了许多不同的适用于数据挖掘的聚类算法;文章从算法的角度论述了如何在数据挖掘中进行聚类分析,并通过基于评价聚类算法好坏的8个标准,对数据挖掘中近几年提出的常用聚类方法作了比较分析,以利于人们更容易、更快速的找到一种适用于特定问题的聚类算法. 相似文献
15.
由于小波理论具有良好的构造性和实际应用性,近年来被广泛地应用于诸如图像处理、计算机可视化、网络管理和数据挖掘等计算机科学研究领域.小波有很多良好的性质,如多分辨的分解结构、变换的时空线性复杂性等特性,从而可以为数据挖掘提供更加有效的算法.给出了小波在聚类、分类、分布式数据挖掘、相似性搜索、近似查询处理、可视化等算法中的运用,讨论了小波在数据挖掘研究中的影响,并简述了有潜力的未来研究方向. 相似文献
16.
In this paper, we firstly identify the functional modules enriched with differentially expressed genes (DEGs) and characterized by biological processes in specific cellular locations, based on gene ontology (GO) and microarray data. Then, we further define and filter disease relevant signature modules according to the ranking of the disease discriminating abilities of the pre-selected functional modules. At last, we analyze the potential way by which they cooperate towards human disease. Application of the proposed method to the analysis of a liver cancer dataset shows that, using the same false discovery rate ( FDR ) threshold, we can find more biologically meaningful and detailed processes by using the cellular localization information. Some biological evidences support the relevancy of our biological modules to the disease mechanism. 相似文献
17.
介绍了数据聚类算法,提出了采用基于相似度的聚类算法进行客户分类的思路,给出了相似度的计算方法及客户分类的算法,并通过试验结果证明了算法对客户分类的有效性. 相似文献
18.
因特网上的数据规模大、动态性强,通常发现的知识或规则很可能是不精确和不完备的。为了克服以上不足,引入模糊理论,通过寻找模糊相似上近似集进行合理聚类,在确定聚类数目的过程中,利用平均信息熵进行最佳聚类。同时将模糊聚类算法嵌入WEKA平台,利用WEKA中的类和可视化功能,扩充了WEKA中的聚类算法。实验表明,算法对含有噪声的、分布不规则的大数据集具有很高的精度和收敛速度。 相似文献
19.
数据挖掘分类算法研究综述 总被引:1,自引:0,他引:1
随着数据库应用的不断深化,数据库的规模急剧膨胀,数据挖掘已成为当今研究的热点;特别是其中的分类问题,由于其使用的广泛性,现已引起了越来越多的关注。对数据挖掘分类问题的研究现状进行了综述:首先对研究比较多的基于判定树的归纳分类、基于人工神经网络的分类和基于统计的贝叶斯分类作了详细的讨论;然后对目前新提出的几种算法作了简要分析;最后根据数据挖掘的发展现状和研究重点对数据挖掘分类算法的发展趋势作了展望。 相似文献
20.
唐宝富 《湖南工程学院学报(自然科学版)》2014,24(3):37-40
信息时代的快速发展带来的是信息总量呈现几何级数的增加,而海量数据的存储和分析处理对计算机硬件能力和数据分析能力都是一个极大的挑战.数据挖掘算法是针对于大批量数据处理而提出并逐步发展起来的,基于完备的数据库技术,可以在云计算算法、矩阵压缩算法和并行关联算法的基础上,进行算法集成,能进一步提高数据挖掘的速度、精度和时效性,在实际海量数据的处理过程中有较好的适应性,为海量数据处理提供了新的技术分析方法. 相似文献