基于统计学和语义信息的中文文本主题识别技术 Topic detection technology for Chinese text based on statistics and semantic information期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于统计学和语义信息的中文文本主题识别技术

引用本文：	冯晋,李春平.基于统计学和语义信息的中文文本主题识别技术[J].清华大学学报(自然科学版),2005,45(9):1791-1794.

作者姓名：	冯晋李春平

作者单位：	清华大学,软件学院,北京,100084;清华大学,软件学院,北京,100084

基金项目：	国家"八六三"高技术项目(2002AA444120)

摘要：	由于中文分词处理的复杂性在一定程度上限制了中文信息抽取技术的发展,因此,快速有效地抽取中文文本主题的需求越来越突出.该文主要通过中文分词技术、频繁词查找和词性组合计算来分析词与词之间的关联并最终提取出能够表达文章内容的主题词汇,同时还对这些词汇作了记分和排序.读者能够通过这些词汇来判定文章的主题和重要内容.通过对人民日报语料进行实验表明,该方法正确率能够保持在66%以上,同时对于网页邮件等真实文档也有较好的测试结果.
关键词：	信息抽取中文关键词提取关联分析文本挖掘
文章编号：	1000-0054(2005)S1-1791-04
修稿时间：	2005年5月20日
Topic detection technology for Chinese text based on statistics and semantic information

FENG Jin,LI Chunping.Topic detection technology for Chinese text based on statistics and semantic information[J].Journal of Tsinghua University(Science and Technology),2005,45(9):1791-1794.

Authors:	FENG Jin LI Chunping

Abstract:

Keywords:
本文献已被万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏