首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于LDA模型的WEB文本分类
引用本文:孟海涛,陈思,周睿.基于LDA模型的WEB文本分类[J].盐城工学院学报(自然科学版),2009,22(4):56-59.
作者姓名:孟海涛  陈思  周睿
作者单位:1. 盐城工学院,信息工程学院,江苏,盐城,224051
2. 北京大兴区第一中学国际部,北京,102600
摘    要:提出了基于LDA(Latent Dirichlet Allocation)主题模型的Web文本分类方法,利用MCMC方法中的Gibbs抽样获得模型参数从而获取词汇的概率分布,使隐藏于WEB文本内的不同主题与WEB文本字词建立关系。将LDA算法应用于WEB文本分类识别领域,在实验中与k均值聚类和贝叶斯网络方法进行了对比,其结果表明LDA与其他同类算法相比具有一定的优势。

关 键 词:LDA  主题模型  WEB分类

Web Text Classification based on LDA Model
MENG Hai-tao,CHEN Si,ZHOU Rui.Web Text Classification based on LDA Model[J].Journal of Yancheng Institute of Technology(Natural Science Edition),2009,22(4):56-59.
Authors:MENG Hai-tao  CHEN Si  ZHOU Rui
Institution:1, School of Information Technology Yancheng of Institute Technology, Jiangsu Yancheng 224051, China; International Department Beijing Daxing No. 1 Middle School,Beijing 102600,China)
Abstract:A kind of web text classification is put forward on the basis of LDA model.Latent Dirichlet Allocation(LDA) is an unsupervised topic learning model which extracts latent topics from text data.Parameters are estimated with Gibbs sampling of MCMC and the word probability is represented.Thus different latent topics are associated with observable words.Contrasting to SVM and Bayesian Network,the result in the experiment shows that LDA has the better performance than any other algorithm.
Keywords:LDA
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《盐城工学院学报(自然科学版)》浏览原始摘要信息
点击此处可从《盐城工学院学报(自然科学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号