首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种改进的LDA主题模型
引用本文:张小平,周雪忠,黄厚宽,冯奇,陈世波,焦宏官.一种改进的LDA主题模型[J].北京交通大学学报(自然科学版),2010,34(2):111-114.
作者姓名:张小平  周雪忠  黄厚宽  冯奇  陈世波  焦宏官
作者单位:北京交通大学,计算机与信息技术学院,北京,100044;中国中医科学院广安门医院,北京,100053;中国中医科学院,中医药信息研究所,北京,100700
基金项目:国家“973”计划项目资助(2006CB504601);;国家科技支撑计划项目资助(2007BA110B06-01);;国家自然科学基金资助项目(90709006);;北京市科委科研攻关项目资助(D08050703020804);;北京交通大学科技基金资助(2007RC072)
摘    要:由于文档中的词符合幂律分布,使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量的高频词淹没使得主题表达能力降低.通过一种高斯函数对特征词加权,改进LDA主题模型的主题分布.实验显示加权LDA模型获得的主题间的相关性以及复杂度(Perplexity)值都降低,说明改进模型在主题表达和预测性能方面都有所提高.

关 键 词:LDA  Dirichlet分布  加权主题模型

An Improved LDA Topic Model
ZHANG Xiaoping,ZHOU Xuezhong,HUANG Houkuan,FENG Qi,CHEN Shibo,JIAO Hongguan.An Improved LDA Topic Model[J].JOURNAL OF BEIJING JIAOTONG UNIVERSITY,2010,34(2):111-114.
Authors:ZHANG Xiaoping  ZHOU Xuezhong  HUANG Houkuan  FENG Qi  CHEN Shibo  JIAO Hongguan
Institution:1.School of Computer and Information Technology;Beijing Jiaotong University;Beijing 100044;China;2.Guanganmen Hospital;China Academy of Chinese Medical Sciences;100053;Beijing;3.Institute of Information on Traditional Chinese Medicine;100700;China
Abstract:The distribution of words in the document satisfy power rules,which cause the topics incline the high frequency words,and then many words which can represent topics are submerged.It leads to reduce the expression capability of LDA topics.An improved LDA topic model is showed by weighting the feature words using Gauss function.The experiments indicate that the weighting topic model is better generalization performance by validating the correlations among the topics and the perplexity value of model.
Keywords:LDA  latent dirichlet allocation(LDA)  dirichlet distribution  weighting topic model
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号