首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于词条组合的中文文本分词方法
引用本文:黄魏,高兵,刘异,杨克巍.基于词条组合的中文文本分词方法[J].科学技术与工程,2010,10(1).
作者姓名:黄魏  高兵  刘异  杨克巍
作者单位:1. 国防科学技术大学信息系统与管理学院,长沙,410073
2. 国防科学技术大学信息系统与管理学院,长沙,410073;湖南师范大学文学院,长沙,410081
基金项目:“十一五”武器装备预先研究项目(513300102)资助
摘    要:针对汉语自动分词后词条的特征信息缺失的问题,提出以词串为分词单位的中文文本分词方法,将整个分词过程分解为三个子过程:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的语义信息更丰富,有助于文本特征选择效果的改善和文本分类性能的提高。

关 键 词:文本  文本特征  分词  词条  

Word Combination Based Chinese Word Segmentation Methodology
HUANG Wei,GAO Bing,LIU Yi,YANG Ke-wei.Word Combination Based Chinese Word Segmentation Methodology[J].Science Technology and Engineering,2010,10(1).
Authors:HUANG Wei  GAO Bing  LIU Yi  YANG Ke-wei
Institution:School of Information System and Management/a>;National University of Defense Technology/a>;Changsha 410073/a>;P.R.China/a>;Liberal Arts College/a>;Hunan Normal University1/a>;Changsha 410081/a>;P.R.China
Abstract:Since the automatic of Chinese word will bring the lack of information,method of word segmentation according to lexical chunk as segmentation unit are proposed,such segmenting process divided are into three sub-process:firstly,text segmentec by means of Backward Maximum Matching.Second,the stop-words is deleted from the segmentation result.At last,count words mutual information and adjacency by the first time segment words,and then,according to this counting result the lexical chunk can judge and sign by re...
Keywords:text text feature word segmentation words  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号