首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
针对关联规则数据挖掘中频繁项目集的二次挖掘问题,提出了一种能够解决当最小支持度发生变化而交易数据库不变情况下进行二次挖掘的改进算法(UMSA)。该算法充分利用频繁项目集的特性,通过新的拼接方法来减少候选项目集的生成,在扫描交易数据库确定k维频繁项目集时,采用在交易数据库中剔除无用的交易,达到不断减小交易数据库规模的目的,克服了一些算法中存在的漏采现象,并在一定程度上解决了非确定性问题。通过举例说明该算法的执行过程及其算法的正确性和有效性,并对其性能进行了分析。  相似文献   

2.
提出了一种区间值聚类的数据挖掘方法。该方法首先将数据库中的数据按照属性进行聚类,将它们划分为若干区间,对于同一区间中的数据赋予相同的编号,以此处理直至数据库的最后一个属性。在完成这种转换后即可使用关联规则的挖掘方法。该方法与传统的数据挖掘方法相比更加符合实际。大量的仿真数据集和真实数据集的实验结果表明该算法是有效的。  相似文献   

3.
生物医学文献知识发现研究探讨及展望   总被引:8,自引:0,他引:8  
采用文本挖掘技术处理海量生物医学科技文献和文本注释型数据库。从而发现创新知识如基因、蛋白质、疾病、药物及其相互关系的研究是当前人工智能和数据挖掘领域研究的热点。本文对生物医学文献知识发现的研究内容、研究成果以及基于文本挖掘的关键技术诸方面进行了系统的分析和阐述。通过分析中医药学数据的特点,提出了基于文本挖掘的中医证候分子生物学知识发现研究,该方法的特点是综合利用中医药学文献和MEDLINE,能够获得创新的证候与基因相关知识。初步实验表明,文本挖掘技术有望为证候的分子水平研究提供辅助和支撑手段。  相似文献   

4.
分布式系统中的元挖掘研究   总被引:1,自引:0,他引:1  
针对分布式系统中的数据挖掘问题,提出了一种新颖高效的分布式元挖掘方法。该算法只需在各自站点扫描局部数据库两次即可形成局部和全局频繁项集,并根据局部和全局频繁项集形成相应的关联规则集及元规则集。在形成元规则集时无需扫描各站点中的关联规则集,这样既减少了分布式系统中需要的通信交换的数据量,也减少了各站点中的扫描数据量。研究表明所提出的算法是有效的。  相似文献   

5.
针对分布式系统,提出了自适应哈希链结构的频繁模式挖掘算法。该算法首先在每个站点产生局部频繁1-项集,再产生全局频繁1-项集,根据全局频繁1-项集产生各站点的投影数据库,在各个站点分别扫描投影数据库中的交易,并根据站点可用内存情况形成相应大小的哈希链结构。通过挖掘各站点的哈希链结构得到全局频繁项集。给出了基本步骤和挖掘算法。研究表明该算法不但效率高,而且适应性强。  相似文献   

6.
目前,我国基于交易上报制度和静态数据挖掘的可疑金融交易识别方法存在着监测覆盖面窄、识别时效性差两大瓶颈问题。一种可行的改进是在现有方法中引入对可疑金融交易的动态识别,其中需解决的关键问题是如何及时有效地从大规模动态数据集中发现相应的可疑交易特征。设计一种基于数据流频繁子图挖掘的可疑关联特征动态识别算法,并用实验证明该算法的可行性和有效性。  相似文献   

7.
基于Hadoop云平台的并行数据挖掘方法   总被引:1,自引:0,他引:1  
业界已经开始运用云平台来处理海量高维数据,将各种异构系统仿真为一个系统,其中在Hadoop环境进行数据挖掘会遇到数据模型的全局性、HDFS的文件随机写操作、数据生命周期短等问题.为解决这些问题,在Hadoop上实现高效海量数据挖掘,提出了在Hadoop上一种高效数据挖掘框架,利用数据库来模拟链表结构,管理挖掘出来的知识,提供了树形结构、图模型的分布式计算方法;在此基础上实现一个统计算法——Yscore分箱算法,以及决策树和KD树的建树算法;并利用Vega云对Hadoop集群进行仿真.实验数据表明该框架和算法实用可行,且可能拓展与数据挖掘之外的其他领域.  相似文献   

8.
在分析和研究诸多经典关联规则挖掘算法或最大频繁项目集挖掘算法的基础上,提出了一种新的极大频繁项目集挖掘算法BOFPV_MMFIA算法.该算法引入频繁项目集向量FP-V,将极大频繁项目集的挖掘过程转化为频繁项目集向量FP-V的与运算过程.算法只需扫描数据库一次,克服了Apriori及其相关算法产生大量候选集和需多次扫描数据库的缺点.又不同于BOM算法,挖掘频繁k_项目集时,需要进行 次k个向量的与运算.因此,BOFPV_MMFIA算法的效率明显高于Apriori、DMFIA及BOM算法.  相似文献   

9.
数据挖掘主要是用来找出隐藏在数据库当中那些有用而未被发现的知识。这篇文章在文献(1)研究的基础上,对数量属性的关联规则问题作了进一步讨论。文中借助模糊集来软化数量属性论域的划分边界,提出了区间值数据库上的模糊关联规则的概念以及挖掘模糊关联规则的方法。最后讨论了模糊关联规则在环境系统仿真中的应用。  相似文献   

10.
传统的离群数据挖掘方法大多数是利用全局的观点看待离群数据,很难发现低维子空间中的偏移数据.利用微粒群算法(PSO)具有简单,容易实现并且没有许多参数需要调整等优势,提出了一种基于PSO和子空间的离群数据挖掘算法(OM-PSO).该算法首先将子空间看作微粒,根据偏离数据所在子空间的稀疏系数,采用带有变异算子的PSO算法来搜索子空间,并将子空间中的数据看作为局部偏离数据,即离群数据;最后采用离散化的天体光谱数据作为数据集,实验结果验证了该算法的有效性.  相似文献   

11.
为提高关联规则挖掘算法的效率及其对大型数据集的适应性,提出了基于划分的带项目约束的频繁项集挖掘算法Partition CHS Miner。算法按照约束条件裁减数据集,并采用基于约束的超结构CHS(con-straint-based hyper-structure)存储数据。对大型数据集,先将其划分为多个不相交的数据子集,使子集的大小适合主存,然后在子集上采用基于超结构的带项目约束的挖掘算法挖掘出局部频繁项集,最后合并所有子集中的频繁项集形成全局的带约束的候选项集,计算出全局频繁项集。实验证明了算法的有效性。  相似文献   

12.
基于包含索引的频繁闭序列模式挖掘的新算法   总被引:1,自引:0,他引:1  
频繁闭序列模式惟一确定全体频繁序列模式,且规模小得多.传统的闭序列模式挖掘算法对每个频繁项目都进行扩展,往往会产生大量的非闭合序列.为解决这一问题,提出了一种新的基于包含索引的频繁闭序列模式挖掘算法,其主要思想是只对闭项集进行扩展,大大减少了非闭合序列的产生.首先,论证了闭序列模式只能由闭项集组成;其次,说明了如何利用包含索引来快速发现闭项集;最后,给出了一种深度优先的挖掘频繁闭序列模式的新算法.实验结果表明,该算法具有较高的效率.  相似文献   

13.
基于网络的数值关联规则挖掘方法   总被引:2,自引:0,他引:2  
关联规则 ( Association Rules)发现的是属性间的关系 .属性可以是逻辑型的 ,也可以是数值型的 .在从逻辑型属性描述的数据中发现关联规则方面已经有许多比较成熟的算法 ,而在数值型属性方面则不然 .将数值关联规则挖掘问题映射成逻辑关联规则挖掘问题是一种方便有效的方法 .本文给出了一个新的数值属性关联规则挖掘算法 ,该算法利用数据本身的特征决定对数值属性值域的划分 ,进而将划分后的所有区间映射为逻辑属性 (项目 ) ,在此基础上可以挖掘出更容易理解、更具有概括性的有效关联规则 .本文给出了一个发现频繁项目集搜索算法 ,并采用一种纵向数据库格式来简化项目集支持度的计算.  相似文献   

14.
Finding frequent itemsets is the key problem in association rules mining. A new algorithm based on the lattice theory and bitmap index for mining frequent itemsets is proposed. The algorithm converts the original transaction database to an itemset-lattice in the pre-processing, where each itemset vertex has a label to save its support, and the complicated task of mining frequent itemsets in the database is thus changed to the simpler one that searches vertexes in the lattice. The efficiency of the mining process is enhanced greatly. Since the support counting in the association rules mining incurs a high cost regarding the I/O, a bitmap index technique is used to speed up the counting process. To address the issue that the intact bitmap usually needs a big memory space for storage, the bit vector is partitioned into blocks, which can be encoded as a symbol. This makes the original bitmap more compact in storage and improve the support counting efficiency as well. Finally, experimental and analytical results are presented.  相似文献   

15.
一种关联规则增量更新算法   总被引:6,自引:0,他引:6  
针对一个新的事物数据库加到原有的事务数据库中,在最小支持度和最小置信度都不变的情况下相应关联规则的更新问题,提出了一种简单高效的增量式关联规则挖掘算法。该算法从集合的角度出发,将事物数据库分为频繁项集集合和非频繁项集集合,从而在两个事务数据库可能出现的关系中,准确找出能够生成新的频繁项集的集合。在此基础上,利用给出的算法能够较为容易地发现新的关联规则。最后,分析了此算法的优越性。  相似文献   

16.
为了向驾驶者自动提供个性化的交通服务信息,需要对车辆行驶路径进行分析和预测.面向基于RFID的个性化交通服务系统,提出改进的车辆行驶路径关联规则挖掘方法,挖掘车辆历史行驶路径数据中的频繁序列模式,由频繁序列模式产生序列关联规则,根据当前行程车辆已行驶的路径,实现对车辆未来行驶路径的预测.本方法主要通过0-N数据结构和候选2-序列产生方法的改进,提高车辆行驶路径序列模式挖掘的效率.最后,通过数据测试验证了改进算法在运行效率上与GSP相比的性能优越性.  相似文献   

17.
一种基于树的频繁模式挖掘算法   总被引:4,自引:0,他引:4  
提出了一种基于树的频繁模式挖掘算法TBA-FP。它以树表示法压缩数据库所含模式信息,将挖掘问题转化为按深度优先策略构造频繁模式树,并引入了虚拟裁剪等优化技术。实验表明,TBA-FP挖掘“长”模式的时间效率与空间可伸缩性远远优于经典算法Apriori.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号