首页 | 本学科首页   官方微博 | 高级检索  
     

语料库自然标注信息与中文分词应用研究
作者姓名:饶高琦  修驰  荀恩东
作者单位:北京语言大学信息科学学院, 北京 100083;
基金项目:国家自然科学基金(60973062,61170162);中央高校基本科研业务费专项资金(2012-jbyz-001)资助
摘    要:以中文分词为应用目标, 将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息, 分别考察了它们的分布和对大数据集上语言计算的影响。结果表明, 两者都直接或间接地表达了作者对语言的分割意志, 因而对分词具有积极的影响。通过词语抽取测试, 发现在缺乏丰富显性标注信息的文本中, 来自语言固有规律的自然标注信息对字符串有着强大的分割性能。

关 键 词:自然标注信息  中文分词  词语抽取  大规模语料库  
收稿时间:2012-05-31
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《北京大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《北京大学学报(自然科学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号