首页 | 本学科首页   官方微博 | 高级检索  
     

基于冰冻结构的XML文档聚类研究
引用本文:李巍,孙涛,叶苑苑,李雄飞,李楠. 基于冰冻结构的XML文档聚类研究[J]. 吉林大学学报(信息科学版), 2009, 27(6): 611-618
作者姓名:李巍  孙涛  叶苑苑  李雄飞  李楠
作者单位:1吉林大学 a.计算机科学与技术学院;b.软件学院,长春 130012;2长春轨道客车股份有限公司,长春 130062
基金项目:吉林省科技发展计划基金资助项目 
摘    要:为了挖掘XML(Extensible Markup Language)文档在历史变化过程中不经常发生变化的结构所蕴含的知识,给出了发现冰冻结构的方法,使用一组冰冻结构组成的文档向量模型代表一个XML文档,并使用加权Jaccard系数作为相似度,利用基于XML文档历史变化过程中相对稳定的冰冻结构对XML文档进行聚类。经过实验证明,基于冰冻结构能够将XML进行有效的聚类,聚类后每簇中的XML文档具有相似的不经常变化结构。

关 键 词:XML文档  文档聚类  加权Jaccard系数  冰冻结构  

XML Domument Clustering Research Based on Weighted Cosine Similarity
LI Wei,SUN Tao,YE Yuan-yuan,LI Xiong-fei,LI Nan. XML Domument Clustering Research Based on Weighted Cosine Similarity[J]. Journal of Jilin University:Information Sci Ed, 2009, 27(6): 611-618
Authors:LI Wei  SUN Tao  YE Yuan-yuan  LI Xiong-fei  LI Nan
Affiliation:1a. College of Computer Science and Technology;1b. College of Software, Jilin University, Changchun 130012, China;2Changchun Railway Nvehicles Company Limited,Changchun 130062,China
Abstract:In order to mine knowledge hiden in the structures that does not often changed in the XML(Extensible Markup Language) document changing history,this paper proposes a method to fiund the frozen structures,then uses a document-vector model composition by a group of frozen structures to represent an XML document,and uses the weighted Jaccard coefficient as similarity,then cluster XML documents based on the relative stable frozen structures which found in the XML document historical change process.Through exper...
Keywords:extensible markup language(XML) document  document clustering  weighted jaccard coefficient  frozen structures  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《吉林大学学报(信息科学版)》浏览原始摘要信息
点击此处可从《吉林大学学报(信息科学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号