首页 | 本学科首页   官方微博 | 高级检索  
     

基于全置信度关联分析的web层次聚类方法
引用本文:史庆伟,赵政,鲍虎. 基于全置信度关联分析的web层次聚类方法[J]. 辽宁工程技术大学学报(自然科学版), 2007, 26(6): 892-894
作者姓名:史庆伟  赵政  鲍虎
作者单位:天津大学,计算机科学与技术学院,天津,300072;辽宁工程技术大学,软件学院,辽宁,葫芦岛,125105;天津大学,计算机科学与技术学院,天津,300072;天津大学,计算机科学与技术学院,天津,300072;海军航空工程学院,电子信息工程系,山东,烟台,264001
基金项目:天津市科技发展计划基金资助项目(07JCZDJC067007)
摘    要:为了便于用户浏览网页信息,基于全置信度关联分析,提出了一种网页层次聚类的方法。该方法采用向量空间模型表示网页文档,将文档看成事务,文档的词汇视为事务中的项,根据关联挖掘算法发现文档之间的强关联规则产生基本类,然后利用图划分的算法完成网页文档的层次聚类。在关联规则产生过程中采用全置信度量发现强关联模式,规则的产生不受支持度阈值设置的影响,即使支持度闽值设置为零,也能发现强关联模式,有效地消除了弱相关的交叉支持模式。

关 键 词:关联规则  层次聚类  网页文档  文本挖掘
文章编号:1008-0562(2007)06-0892-03
收稿时间:2006-06-12
修稿时间:2006-06-12

Hierarchical clustering Web pages method based on all-confidence association analysis
SHI Qing-wei,ZHAO Zheng,BAO Hu. Hierarchical clustering Web pages method based on all-confidence association analysis[J]. Journal of Liaoning Technical University (Natural Science Edition), 2007, 26(6): 892-894
Authors:SHI Qing-wei  ZHAO Zheng  BAO Hu
Abstract:In order to facilitate users to browse web pages,an algorithm based on all-confidence association analysis is proposed.In this algorithm,Vector Space Model(VSM) is employed to represent web documents,in which web documents are represented as transactions and words in the web documents are considered as items of the transactions.According to the strong affinity association rules produced by association mining algorithms,base clusters are generated,and finally web pages are grouped in a hierarchical fashion by using graph partition method.During the process of association rules generation,all-confidence is used to discover strong affinity pattern,by which cross-support patterns are efficiently avoided and the support threshold has little influence to the association rules even if the threshold is set to zero.
Keywords:association rules   hierarchical clustering   Web documents   text mining
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号