首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于统计学和语义信息的中文文本主题识别技术
引用本文:冯晋,李春平.基于统计学和语义信息的中文文本主题识别技术[J].清华大学学报(自然科学版),2005,45(9):1791-1794.
作者姓名:冯晋  李春平
作者单位:清华大学,软件学院,北京,100084;清华大学,软件学院,北京,100084
基金项目:国家"八六三"高技术项目(2002AA444120)
摘    要:由于中文分词处理的复杂性在一定程度上限制了中文信息抽取技术的发展,因此,快速有效地抽取中文文本主题的需求越来越突出.该文主要通过中文分词技术、频繁词查找和词性组合计算来分析词与词之间的关联并最终提取出能够表达文章内容的主题词汇,同时还对这些词汇作了记分和排序.读者能够通过这些词汇来判定文章的主题和重要内容.通过对人民日报语料进行实验表明,该方法正确率能够保持在66%以上,同时对于网页邮件等真实文档也有较好的测试结果.

关 键 词:信息抽取  中文关键词提取  关联分析  文本挖掘
文章编号:1000-0054(2005)S1-1791-04
修稿时间:2005年5月20日

Topic detection technology for Chinese text based on statistics and semantic information
FENG Jin,LI Chunping.Topic detection technology for Chinese text based on statistics and semantic information[J].Journal of Tsinghua University(Science and Technology),2005,45(9):1791-1794.
Authors:FENG Jin  LI Chunping
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号