语料库自然标注信息与中文分词应用研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

语料库自然标注信息与中文分词应用研究

作者姓名：	饶高琦修驰荀恩东

作者单位：	北京语言大学信息科学学院, 北京 100083;

基金项目：	国家自然科学基金(60973062,61170162);中央高校基本科研业务费专项资金(2012-jbyz-001)资助

摘要：	以中文分词为应用目标, 将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息, 分别考察了它们的分布和对大数据集上语言计算的影响。结果表明, 两者都直接或间接地表达了作者对语言的分割意志, 因而对分词具有积极的影响。通过词语抽取测试, 发现在缺乏丰富显性标注信息的文本中, 来自语言固有规律的自然标注信息对字符串有着强大的分割性能。
关键词：	自然标注信息中文分词词语抽取大规模语料库
收稿时间：	2012-05-31
本文献已被 CNKI 万方数据等数据库收录！
	点击此处可从《北京大学学报(自然科学版)》浏览原始摘要信息
	点击此处可从《北京大学学报(自然科学版)》下载全文