一种提高Web信息检索精度的分段检索方法 |
| |
引用本文: | 宋睿华,马少平,张敏. 一种提高Web信息检索精度的分段检索方法[J]. 广西师范大学学报(自然科学版), 2003, 0(1) |
| |
作者姓名: | 宋睿华 马少平 张敏 |
| |
作者单位: | 清华大学计算机系智能技术与系统国家重点实验室,清华大学计算机系智能技术与系统国家重点实验室,清华大学计算机系智能技术与系统国家重点实验室 北京100084,北京100084,北京100084 |
| |
基金项目: | 国家重点基础研究基金资助项目(973)(G1998030509),自然科学基金资助项目(69836040) |
| |
摘 要: | 在Web上存在一些长文档,它们包含着多个子主题,如果把这样的文档分成段,每个段的内容只围绕一个主题,将会提高检索质量.阐述了使用HTML结构中带有语义特征的标记来将多主题的文档分成段,在此基础上,对10G规模的Web数据实现了分段检索的方法,并通过使用TREC-9的查询做实验,比较了分段检索方法和传统的文档检索方法的检索质量.实验结果显示,在多主题文档集上分段检索方法比文档检索方法的11点平均准确率提高了大约9%,而在所有文档集上分段检索比文档检索提高了大约1.6%.分析发现,分段检索方法可以明显改善结果的排序,而且实际检索质量提高的幅度比现有的评价结果显示的更显著.
|
关 键 词: | 信息检索 分段检索 Web数据 HTML结构 |
EFFICIENT PASSAGE RETRIEVAL FOR WEB IR |
| |
Abstract: | |
| |
Keywords: | information retrieval passage retrieval Web data HTML structure |
本文献已被 CNKI 等数据库收录! |
|