首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于加权余弦相似度的XML文档聚类研究
引用本文:李巍,孙涛,陈建孝,罗梓恒,李雄飞.基于加权余弦相似度的XML文档聚类研究[J].吉林大学学报(信息科学版),2010,28(1):68-76.
作者姓名:李巍  孙涛  陈建孝  罗梓恒  李雄飞
作者单位:吉林大学,计算机科学与技术学院,长春,130012;韩山师范学院,数学与信息技术系,广东,潮州,521041
基金项目:吉林省科技发展计划基金资助项目(20090704)
摘    要:在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类。经过实验分析,根据XML文档历史变化过程中的频繁变化结构能较好地将XML文档进行聚类。用加权余弦相似度对XML文档进行聚类,其聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果。

关 键 词:XML文档聚类  加权余弦相似度  频繁变化结构

XML Domument Clustering Research Based on Weighted Cosine Similarity
LI Wei,SUN Tao,CHEN Jian-xiao,LUO Zi-heng,LI Xiong-fei.XML Domument Clustering Research Based on Weighted Cosine Similarity[J].Journal of Jilin University:Information Sci Ed,2010,28(1):68-76.
Authors:LI Wei  SUN Tao  CHEN Jian-xiao  LUO Zi-heng  LI Xiong-fei
Institution:1College of Computer Science and Technology,Jilin University, Changchun 130012, China;
2Department of Mathematics and Information Technology,Hanshan Teachers College,Chaozhou 521041,China
Abstract:In practical applications,some structures of an XML (eXtensible Markup Language) document are often changed. In order to mining knowledge hiden in the freduently changing structures in the XML document history changes,a method to found the frequently changing structures is proposed,then uses a document-vector model which composition by a set of frequently changing structures to represent an XML document,to proportion that frequently changing structures appearance in the cluster as weight,and cluster XML doc...
Keywords:XML document clustering  weighted cosine similarity  frequently changing structures  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《吉林大学学报(信息科学版)》浏览原始摘要信息
点击此处可从《吉林大学学报(信息科学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号