首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
A Web page typically contains many information blocks. Apart from the main content blocks, it usually has such blocks as navigation panels, copyright and privacy notices, and advertisements. We call these blocks the noisy blocks. The noises in Web pages can seriously harm Web data mining. To the question of eliminating these noises, we introduce a new tree structure, called Style Tree, and study an algorithm how to construct a site style tree. The Style Tree Model is employed to detect and eliminate noises in any Web pages of the site. An information based measure to determine which element node is noisy is also constructed. In addition, the applications of this method are discussed in detail. Experimental results show that our noises elimination technique is able to improve the mining results significantly.  相似文献   

2.
In this paper, an improved algorithm, named STC-I. is proposed for Chinese Web page clustering based on Chinese language characteristics, which adopts a new unit choice principle and a novel suffix tree construction policy. The experimental results show that the new algorithm keeps advantages of STC, and is better than STC in precision and speed when they are used to cluster Chinese Web page.  相似文献   

3.
提出了一个基于隐马尔可夫模型的自适应站点模型.通过对用户访问序列进行语义分析,提取出访问路径中蕴含的信息需求,依此进行站点调整、页面推荐及预取,全面提升了站点的自适应性能.  相似文献   

4.
本文简明扼要的介绍了数据挖掘中决策树SPRINT算法,并对其进行了一定程度上系统的分析和改进.  相似文献   

5.
通过对SPRINT、RAINFOREST等传统决策树算法改进,使其能够适应不断生长的训练集,生成一棵与旧树相关的树;改进后的算法,新样本一来即可处理,随时产生一个相关的决策树,并且此树还不断优化,具有实时性.  相似文献   

6.
ID3算法是决策树分类方法的核心算法,文章论述了ID3算法的基本思想和实现方法,并对ID3算法的性能进行分析,发现该算法存在不足之处.针对ID3算法倾向于多属性值的缺点,引入了权值对算法进行改进,并通过试验对改进前后的算法进行比较,结果表明改进后的算法是有效的.  相似文献   

7.
决策树算法在医学图像数据挖掘中的应用   总被引:8,自引:1,他引:8  
目的研究决策树算法在医学图像数据挖掘中的应用。方法利用决策树算法对乳腺癌图像数据进行分类,提出了一个基于决策树算法的医学图像分类器。结果实现了ID3和C4.5算法对图像数据的分类,获得了分类的实验结果。结论该模型系统达到了较高的分类准确率,证明数据挖掘在辅助医疗诊断中有着广泛的应用前景。  相似文献   

8.
Rough集理论提供了一种新的处理不精确、不完全与不相容知识的数学方法,在决策表中快速、有效地挖掘出缺省规则。本文将Rough集属性约简应用到判定树归纳分类方法中,明显优化判定树,简化数据挖掘的过程。  相似文献   

9.
从事务数据、时间序列数据等数据库中挖掘频繁模式已在数据挖掘领域中得到了广泛地研究.针对目前已有的Apriori算法和频繁模式增长算法在时间和空间等方面的复杂性和低效性,提出了一种新的数据结构——事务模式树,用来存放待挖掘的事务信息,同时给出一种基于该数据结构的挖掘算法——事务模式树分层挖掘算法.最后,把该算法应用于保险业务.结果表明,该算法简单高效,值得推广.  相似文献   

10.
文章提出一种基于属性重要度的随机决策树构造算法ASRDT,该算法利用粗糙集理论计算每个属性的属性重要度,提升重要属性的影响因子,使得建树过程中随机选择属性时,不同属性之间的区分度得以体现,从而显著提高了算法的抗干扰能力,使ASRST在保持原有RDT算法优点的基础上,更具有良好的分类准确率及稳定性。  相似文献   

11.
研究了与风格创新设计系统实现相关的用户需求识别、风格数据库构造与检索以及特征组件置换与重构技术.以形式文法的方式描述了用户风格创新需求的精确结构,定义了需求识别向量并给出了用户需求识别算法.描述了风格数据库的结构并给出了风格数据库的实体关系模型.在此基础上,着重探讨了基于组件继承与置换的特征重构技术,提出了最大化特征重...  相似文献   

12.
求真务实是军营廉政建设的首要标准   总被引:3,自引:0,他引:3  
廉生明、公生威,廉洁勤政是所有公职人员的基本道德要求和行为准则。军人作为特殊的公职群体,更需要通过大兴廉政之风育健康肌体、树威武形象、扬浩然正气,因此军营廉政举足轻重。而军营廉政首要的就是求真务实。文中通过对求真务实的必要性和重要性的分析,结合我军发展的历史和现实,说明军营廉政建设应以求真务实为首要标准,以军队战斗力的提高为最终目标,为忠实履行历史使命提供强大动力和有力支持。  相似文献   

13.
关联规则挖掘是数据挖掘技术的一种简单又很实用的方法,有着广泛的应用。该文利用部分支持度树的结构提出了对关联规则的增量式更新算法,用于解决向数据库中添加新的数据而最小支持度不发生变化时的关联规则更新问题。该算法有效地利用已挖掘的关联规则和保留的部分支持度树来改善性能,并且只需对新增数据库部分进行一遍扫描,从而进一步提高算法的效率。实验结果表明,该算法能有效地解决关联规则的更新问题,提升挖掘效率。  相似文献   

14.
通过Apriori方法的分析,对web日志进行处理,并在此基础上提出了Apiori算法的一种快速优化方法,通过对实例的验证,证明该算法的有效性和正确性。  相似文献   

15.
提出了一种从Web日志中快速挖掘连续可重复频繁访问路径的新算法ICAP.该算法通过构造以频繁项目p为根的SAP树,能一次挖掘出所有以p为前缀的连续可重复频繁访问路径.最后通过实验验证了算法的正确性和有效性.  相似文献   

16.
求解度约束最小生成树的一种启发式方法   总被引:1,自引:0,他引:1  
针对网络设计和优化中度约束最小生成树问题,提出了一种基于贪心思想的启发式算法求解度约束最小生成树.在最小生成树的基础上,将超过度约束的顶点降低度数使之满足度约束条件.经大量数据测试并与其他算法进行比较,表明了该算法的有效性和通用性.  相似文献   

17.
在分析不规范书写的Web网页的DOM树存在的树深度大、结点层次多、结点层次和子树间关系错误等问题的基础上,提出了一种容错的Web网页语义树构造方法,为文本分类与聚类、网络社区发现、Web主题信息的提取和基于主题的Web信息检索等技术的研究工作奠定了基础.  相似文献   

18.
在阐明了大学生学习模式与学风建设关系的基础上,分析了当前大学生学习模式的特点及对学风的影响,并就改进学习模式,促进学风建设方面提出了对策.  相似文献   

19.
中小型局域网中,多个Web站点的访问可以提高使用效率。本文介绍了基于Windows2000Sever上多个Web站点访问的实现的具体方法。  相似文献   

20.
完全二叉树是数据结构中讨论的重要内容之一,目前对完全二叉树的判定方法较为单一,通过分析和研究完全二叉树和平衡二叉树中平衡因子的性质,得出了基于平衡因子判定完全二叉树的方法及判定算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号