首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种基于主题的文档检索模型
引用本文:贾西平,彭宏,郑启伦,石时需,江焯林.一种基于主题的文档检索模型[J].华南理工大学学报(自然科学版),2008,36(9).
作者姓名:贾西平  彭宏  郑启伦  石时需  江焯林
作者单位:华南理工大学,计算机科学与工程学院,广东,广州,510640
基金项目:广东省自然科学基金,广东省科技攻关计划
摘    要:现有信息检索模型难以从主题层次上准确判别文档相似性,为此,本文提出了一个基于主题的文档检索模型(TDRM).TDRM为所有文档建立公共主题空间,把每个文档表示为主题空间上的一个向量,并用向量夹角余弦定义文档相似度.TDRM模型借助Latent Dirichlet Allocation的主题生成方法估计每个文档的主题分布.实验结果证明,与基于词频统计的向量空间模型相比,TDRM模型在相关文档检索方面有更高的检索精度.

关 键 词:主题  文档相似性  文档检索  文本挖掘  
收稿时间:2008-1-11
修稿时间:2008-4-2

A Topic-Based Document Retrieval Model
Jia Xi-ping,Peng Hong,Zheng Qi-lun,Shi Shi-xu,Jiang Zhuo-lin.A Topic-Based Document Retrieval Model[J].Journal of South China University of Technology(Natural Science Edition),2008,36(9).
Authors:Jia Xi-ping  Peng Hong  Zheng Qi-lun  Shi Shi-xu  Jiang Zhuo-lin
Abstract:Most existing information retrieval models have a difficulty in learning document similarity from topic level. To overcome this, a Topic-based Document Retrieval Model (TDRM) is proposed in this paper. TDRM builds a common topic space for all documents, denotes each document as a vector in the space, and defines the document similarity with the cosine value of angle between the vectors. Based on the generating mechod of topics in Latent Dirichlet Allocation, the topic distribution of each document is estimated. Experimental results show that the TDRM model has higher retrieval precision than the vector space model based on term frequency in correlated document retrieval.
Keywords:topic  document similarity  document Retrieval  text mining
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《华南理工大学学报(自然科学版)》浏览原始摘要信息
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号