首页 | 本学科首页   官方微博 | 高级检索  
     

一种提高Web信息检索精度的分段检索方法
引用本文:宋睿华,马少平,张敏. 一种提高Web信息检索精度的分段检索方法[J]. 广西师范大学学报(自然科学版), 2003, 0(1)
作者姓名:宋睿华  马少平  张敏
作者单位:清华大学计算机系智能技术与系统国家重点实验室,清华大学计算机系智能技术与系统国家重点实验室,清华大学计算机系智能技术与系统国家重点实验室 北京100084,北京100084,北京100084
基金项目:国家重点基础研究基金资助项目(973)(G1998030509),自然科学基金资助项目(69836040)
摘    要:在Web上存在一些长文档,它们包含着多个子主题,如果把这样的文档分成段,每个段的内容只围绕一个主题,将会提高检索质量.阐述了使用HTML结构中带有语义特征的标记来将多主题的文档分成段,在此基础上,对10G规模的Web数据实现了分段检索的方法,并通过使用TREC-9的查询做实验,比较了分段检索方法和传统的文档检索方法的检索质量.实验结果显示,在多主题文档集上分段检索方法比文档检索方法的11点平均准确率提高了大约9%,而在所有文档集上分段检索比文档检索提高了大约1.6%.分析发现,分段检索方法可以明显改善结果的排序,而且实际检索质量提高的幅度比现有的评价结果显示的更显著.

关 键 词:信息检索  分段检索  Web数据  HTML结构

EFFICIENT PASSAGE RETRIEVAL FOR WEB IR
Abstract:
Keywords:information retrieval  passage retrieval  Web data  HTML structure
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号