首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
挖掘重要项集的关联文本分类   总被引:1,自引:0,他引:1  
针对在关联规则分类算法的构造分类器阶段中只考虑特征词是否存在,忽略了文本特征权重的问题,基于关联规则的文本分类方法(ARC-BC)的基础上提出一种可以提高关联文本分类准确率的ISARC(ItemSet Significance-based ARC)算法.该算法利用特征项权重定义了k-项集重要度,通过挖掘重要项集来产生关...  相似文献   

2.
孙序 《科技信息》2011,(27):I0045-I0047
最频繁项集挖掘是文本关联规则挖掘中研究的重点和难点,它直接决定了文本关联规则挖掘算法的效率。本文首先分析了当前在最频繁项集挖掘方面的不足,然后给出了几个命题和推论,紧接着结合最小支持度阈值动态调整策略,提出了一个基于倒排表和集合的TOP-N最频繁项集挖掘IntvSet算法,最后对所提算法进行验证。实验结果表明,该算法的规则有效率和时间性能比常用的两个TOP-N最频繁项集挖掘算法:NApriori算法,IntvMatrix算法都好。  相似文献   

3.
基于文本库的完全加权词间关联规则挖掘算法   总被引:11,自引:0,他引:11  
提出了基于文本数据库的完全加权词间关联规则挖掘算法,给出了与其相关的定理及其证明过程。该算法采用三种剪枝策略,候选项集数量和挖掘时间明显减少,提高了挖掘效率。实验结果表明该算法的有效性,和现有算法比较,挖掘效率确实得到改善和提高。  相似文献   

4.
研究关联规则数据挖掘,讨论兴趣度的概念,设计基于此概念的算法.以高职成绩数据库为处理对象,分析课程间的关联规则,并以兴趣度为约束条件,剔除具有欺骗性的无效关联,挖掘一些合理可靠的课程间有趣的关联规则,从而为高职课程设置和教学大纲的修订提供参考,同时也验证了算法的有效性.  相似文献   

5.
最频繁项集挖掘是文本关联规则挖掘中研究的重点和难点,它决定了文本关联规则挖掘算法的性能.针对当前在最频繁项集挖掘方面的不足,改进传统的倒排表,并结合最小支持度阈值动态调整策略,提出一个新的基于改进的倒排表和集合理论的最频繁项集挖掘算法.另外,给出几个命题和推论,并把它们用于本文算法以提高性能,最后对所提算法进行实验验证.实验结果表明,该算法的规则有效率和时间性能比常用的两个最频繁项集挖掘算法(NApriori算法,IntvMatrix算法)都好.  相似文献   

6.
一种应用关联规则森林的改进贝叶斯分类算法   总被引:1,自引:0,他引:1  
针对朴素贝叶斯分类方法中属性值条件独立假设不适应实际情况的问题,提出了关联规则森林表示法及应用关联规则森林的改进贝叶斯分类算法(ABC算法).ABC算法利用关联规则挖掘得到满足条件的关联规则,并由此来构造关联规则森林,而规则森林中所有根节点的概率与所有适用的规则置信度连乘,就得到所有属性值的联合概率.应用UDI数据集对分类器进行了测试,分类结果表明,ABC算法的分类准确率明显高于朴素贝叶斯分类算法,平均提高5%,特别是对属性间有着较强依赖关系的数据集,其分类准确率提高了37%.  相似文献   

7.
疾病表型通常会受SNP位点调控,挖掘疾病表型与SNP位点间的关联规则有助于提供个性化分子诊疗方案。由于SNP位点具有遗传异质性,在挖掘疾病表型与SNP位点间的关联规则时,需要将最小支持度阈值设为较低值,甚至是0,又由于SNP位点数据量庞大,这会使得关联规则算法时间复杂度极高。为此,提出了HEMAPS算法,通过使用线程并行处理和垂直数据格式改进Apriori算法。此外,为解决质量性状表型样本比例不平衡问题,提出了一种新的关联规则评价指标——匹配度。实验结果表明,HEMAPS算法的时间复杂度比Apriori算法明显降低。  相似文献   

8.
针对目前Web挖掘的传统算法执行效率低、挖掘结果相关度低的缺陷,从Web挖掘的内容方面入手,在分析基于Web语义化文本数据挖掘关联规则结构的基础上,改进传统的Apriori算法,提出面向语义化的隐含文本数据挖掘算法,仿真结果表明改进后的算法具有较高的执行效率及较好的挖掘相关度,对于面向文本的Web挖掘算法研究具有一定的借鉴意义。  相似文献   

9.
本文在关联规则提取算法深入研究的基础上,进一步提出了一种带权重又带约束的关联规则提取算法,解决了在项目集中各项目存在权重和项目间存在约束的情况下关联规则的提取问题.实验证明了该算法的有效性和实用性.  相似文献   

10.
序列模式可预测企业的发展方向,负关联规则可展现不良因素的根源,序列模式的正负关联规则为企业决策提供更全面的信息. 将序列模式和负关联规则的挖掘算法相结合,利用项集间的相关性,挖掘出序列模式的正负关联规则.  相似文献   

11.
本文介绍了如何建立心律失常复方数据库系统,并讨论了如何将数据挖掘技术中的关联规则发现算法应用于治疗心律失常疾病的传统中药复方数据库系统中,用于发现中药单方之间的配伍规律,获取中医药药方治病机理等,实现对信息的深度开发,并且为人类专家的决策提供高层次的支持,为临床准确、合理选用方剂或为以后的新药研制提供有价值的参考.  相似文献   

12.
持续的改进服务过程,是提高服务过程管理水平的重要方法之一。但在服务过程改进中往往难以识别服务缺陷产生原因。针对这一问题,提出一种基于关联规则挖掘的服务过程缺陷识别和改进方法,为有效改进服务过程提供了决策依据。该方法在基本的关联规则算法中,引入了缺陷原因和结果互斥约束、规则前件数约束、改进度约束以及新颖性约束。仿真试验表明,该方法与传统关联规则算法相比,降低了生成规则的数目,提高了规则有效性,降低了算法运行时间,取得了更好的效果。  相似文献   

13.
持续地改进服务过程,是提高服务过程管理水平的重要方法之一,但在服务过程改进中往往难以识别服务缺陷产生的原因。针对这一问题,提出一种基于关联规则挖掘的服务过程缺陷识别和改进方法,以为有效改进服务过程提供决策依据。该方法在基本的关联规则算法中,引入了缺陷原因和结果互斥约束、规则前件数约束、改进度约束以及新颖性约束。仿真试验表明,该方法与传统关联规则算法相比,降低了生成规则的数目,提高了规则有效性,降低了算法运行时间,取得了更好的效果。  相似文献   

14.
中文文本挖掘中的无词典分词的算法及其应用   总被引:15,自引:2,他引:15  
对中文文本挖掘中的词汇处理技术进行了较深入的探讨 ,提出了针对汉语语言特点的无词典分词算法。该算法基于“找最长字共现”的原则 ,可以准确地将文本中的词汇切分出来。  相似文献   

15.
中文文本挖掘中最长频繁序列的发现算法   总被引:1,自引:0,他引:1  
本文对中文文本挖掘中的词汇处理技术进行了较深入的探讨,提出了针对汉语语言特点的发现所有最长频繁序列的算法.该算法基于"找最长字共现"的原则,可以准确地将文本中的词汇切分出来.  相似文献   

16.
基于数据挖掘的智能答疑系统   总被引:6,自引:2,他引:6  
根据当今答疑系统的缺点,提出了一套基于数据挖掘算法的答疑设计方案,将改进的关联规则算法应用于文本聚类中,可以将数据库中问题更加准确地分类,因此可以将用户提出的问题快速定位,提高答疑速率.将聚类后的问题库应用关联规则,可以得到更加准确的关联表,用于提取论坛数据库中的最优答案,进而形成一个快速且准确的自动答疑系统.实验结果表明该方案具有智能性、自我更新性能、节约存储空间和提高答疑效率等优点.  相似文献   

17.
入侵检测中的数据挖掘技术   总被引:3,自引:0,他引:3  
卢辉斌  王拥军 《燕山大学学报》2003,27(4):314-316,351
入侵检测技术是网络安全防护的重要组成部分。在入侵检测系统中采用数据挖掘技术,已经成为现在研究的热点。本文把模糊集理论和传统的关联挖掘结合在一起,提出了一种模糊关联数据挖掘算法。与以往算法的算法相比,提高了运算效率。  相似文献   

18.
关联规则挖掘是数据挖掘研究的一个重要领域,传统的关联规则仅反映了正项之间的关联关系,无法反映出数据之间隐藏的负关联关系.从以下方面对含负项的关联规则挖掘进行了综述:引入负项的原因,包含正、负项的关联规则概念及相关术语,最新的含负项关联规则研究情况,经典算法的讨论.最后,展望了含负项关联规则领域未来的研究方向.  相似文献   

19.
关联规则挖掘寻找给定数据集中项之间的有趣关系,是数据挖掘的主要研究方面.传统的关联规则挖掘算法仅能挖掘正关联规则,事实上,负关联规则也包含了非常有价值的信息,对于决策的作用也是不容忽视的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号