首页 | 本学科首页   官方微博 | 高级检索  
     检索      

定题Web信息采集中的元数据处理
引用本文:宗校军,沈轶,廖晓昕.定题Web信息采集中的元数据处理[J].华中科技大学学报(自然科学版),2006,34(10):37-40.
作者姓名:宗校军  沈轶  廖晓昕
作者单位:华中科技大学,控制科学与工程系,湖北,武汉,430074;华中科技大学,控制科学与工程系,湖北,武汉,430074;华中科技大学,控制科学与工程系,湖北,武汉,430074
基金项目:国家自然科学基金;湖北省自然科学基金
摘    要:论述了元数据在定题Web信息采集中的重要作用,分析了常见的元数据类型,确定了Href,Anchor Text及Surrounding Text三种元数据类型最适合作为定题信息采集依据的元数据类型.利用关联规则挖掘,将支持度和置信度相结合作为相关度的判定标准,并采用禁用词过滤和相关策略过滤技术,给出了元数据的抽取与主题扩展迭代方法.实验证明所提出的元数据处理策略能使主题相关词和实际相关词较好符合,改善误包含和误排除的情况,为定题Web信息采集提供良好前提.

关 键 词:定题信息采集  元数据  抽取  主题扩展
文章编号:1671-4512(2006)10-0037-04
收稿时间:2005-06-28
修稿时间:2005年6月28日

Management of metadata in topic-specific Web information gathering
Zong Xiaojun,Shen Yi,Liao Xiaoxin.Management of metadata in topic-specific Web information gathering[J].JOURNAL OF HUAZHONG UNIVERSITY OF SCIENCE AND TECHNOLOGY.NATURE SCIENCE,2006,34(10):37-40.
Authors:Zong Xiaojun  Shen Yi  Liao Xiaoxin
Abstract:In this paper, the significance of Web metadata in topic-specific information gathering was discussed and the common kinds of Web metadata were analyzed to confirm the appropriate kinds for topic-specific information gathering. It comes out that Href, Anchor Text and Surrounding Text are the three ones. Using association mining, support and confidence combine to make a standard for relevant judgment. Meanwhile, the technologies of metadata extraction and topic expansion are proposed with forbidden words filtering and relevance filtering. Experimental results indicate that our algorithm and strategies have low false inclusion and low false exclusion, and the relevant topics can inosculate well with the actual relevant topics. It provides better precondition for topic-specific information gathering.
Keywords:topic-specific information gathering  metadata  extraction  topic expansion
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号