首页 | 本学科首页   官方微博 | 高级检索  
     

基于互信息改进算法和t-测试差的壮文分词算法研究
作者单位:;1.中南民族大学计算机科学学院;2.河池学院计算机与信息工程学院
摘    要:针对传统的壮文分词方法将单词之间的空格作为分隔标志,在多数情况下,会破坏多个单词关联组合而成的语义词所要表达的完整且独立的语义信息,在借鉴前人使用互信息MI方法来度量相邻单词间关联程度的基础上,首次采用互信息改进算法MI~k和t-测试差对壮文文本分词,并结合两者在评价相邻单词间的静态结合能力和动态结合能力的各自优势,提出了一种MI~k和t-测试差相结合的TD-MIk混合算法对壮文文本分词,并对互信息改进算法MI~k、t-测试差、TD-MI~k混合算法三种方法的分词效果进行了比较.使用人民网壮文版上的文本集作为训练及测试语料进行了实验,结果表明:三种分词方法都能够较准确而有效地提取文本中的语义词,并且TD-MI~k混合算法的分词准确率最高.

关 键 词:壮文分词  MI改进算法  t-测试差  混合算法  语义词

Research on Zhuangwen Word Segmentation Algorithm Based on Mutual Information Improved Algorithm and t-test Difference
Abstract:
Keywords:
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号