首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于统计技术的中文术语抽取方法
引用本文:刘剑,唐慧丰,刘伍颖. 一种基于统计技术的中文术语抽取方法[J]. 中国科技术语, 2014, 16(5): 10-14. DOI: 10.3969/j.issn.1673-8578.2014.05.002
作者姓名:刘剑  唐慧丰  刘伍颖
作者单位:1.解放军外国语学院,河南洛阳 471003;2.中国科学院计算技术研究所,北京 100190
摘    要:中文术语识别与抽取是中文文本信息处理的基础,对于提高中文文本索引与检索、文本挖掘、本体构建、潜在语义分析等的处理精度有着重要的意义。文章以互信息和信息熵理论为基础,提出一种基于统计技术的中文术语半自动抽取方法,并且以互联网新闻话题数据为对象进行了实验验证,结果表明所提方法能够有效支持中文术语的抽取。

关 键 词:互信息  信息熵  中文术语抽取  
收稿时间:2014-03-11

An Extraction Method for Chinese Terminology Based on Statistical Technology
LIU Jian,TANG Huifeng,LIU Wuying. An Extraction Method for Chinese Terminology Based on Statistical Technology[J]. Chinese Science and Technology Terms Journal, 2014, 16(5): 10-14. DOI: 10.3969/j.issn.1673-8578.2014.05.002
Authors:LIU Jian  TANG Huifeng  LIU Wuying
Abstract:Chinese terminology extraction is a fundamental issue in Chinese text information processing. It has been applied in many other fields, such as Chinese text indexing and retrieval, text mining, ontology construction, and latent semantic analysis. Based on mutual information and information entropy theory, we proposed a semi-automatic Chinese terminology extraction method by statistical technology, and experimentally verified this method using internet news topic data. Our results show that proposed method can effectively support Chinese term extraction.
Keywords:mutual information  information entropy  Chinese terminology extraction
本文献已被 CNKI 等数据库收录!
点击此处可从《中国科技术语》浏览原始摘要信息
点击此处可从《中国科技术语》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号