首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于语义的汉语文献主题词提取算法研究
引用本文:唐培丽,王树明,胡明.基于语义的汉语文献主题词提取算法研究[J].吉林大学学报(信息科学版),2005,23(5):535-540.
作者姓名:唐培丽  王树明  胡明
作者单位:1. 长春工业大学,计算机科学与工程学院,长春,130012;吉林大学,计算机科学与技术学院,长春,130012
2. 吉林大学,计算机科学与技术学院,长春,130012
3. 长春工业大学,计算机科学与工程学院,长春,130012
摘    要:为了适应信息时代的迅速发展,提高从汉语文献中自动提取主题词的准确率,给出一种基于语义理解的汉语文献主题词自动提取算法模型.该模型以中文文本为处理对象,结合领域背景,构建概念语义网络作为分词词典和知识库,用概念之间的联系和匹配取代传统的字面匹配,克服了仅局限于表面形式的缺陷;把自然语言处理从目前基于关键词层面提高到基于知识的层面,从而在概念层次上理解文献主题,突破了传统的关键词匹配的局限,在一定程度上解决了词汇差异问题.该方法能对自然语言进行某种程度的语义理解,利用领域知识来实现主题词的规范标引.实验表明,采用本方法对测试文档进行主题词提取的准确率可达到71.03%,与传统方法相比提高了近1.87倍.

关 键 词:自然语言处理  主题词提取  概念语义网络  基于语义  汉语  文献主题  主题词提取  算法研究  Semantic  Based  Chinese  Extraction  Words  Thematic  测试文档  实验  标引  规范  领域知识  利用  自然语言  方法  差异问题
文章编号:1671-5896(2005)05-0535-06
修稿时间:2005年3月21日

Algorithm of Thematic Words Extraction from Chinese Texts Based on Semantic
TANG Pei-li,WANG Shu-ming,HU Ming.Algorithm of Thematic Words Extraction from Chinese Texts Based on Semantic[J].Journal of Jilin University:Information Sci Ed,2005,23(5):535-540.
Authors:TANG Pei-li  WANG Shu-ming  HU Ming
Abstract:To meet the requirement of information times development and to improve the accuracy of extracting automatic thematic words from Chinese texts we provide an algorithm model from Chinese text thematic words extraction based on semantic. It constructs concept semantic network as dictionary and knowledge base by combining domain background knowledge and substitutes concept matching for traditional literal mating. It understands the Chinese texts subject from concept level and overcomes the limitation of literal matching and enhances the natural language processing from level to knowledge level. And it solves the vocabulary difference problem to certain extent. The method can understand natural language in semantic to certain extent. Standardizing thematic words achieved by using domain knowledge. Results of experiments show that the approach gains accuracy of 71-^03%.in thematic words extraction from test document and it increases about 1.87 times comparing with traditional approach.
Keywords:natural language processing  thematic words extraction  concept semantic network
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号