首页
|
本学科首页
官方微博
|
高级检索
全部学科
医药、卫生
生物科学
工业技术
交通运输
航空、航天
环境科学、安全科学
自然科学总论
数理科学和化学
天文学、地球科学
农业科学
哲学、宗教
社会科学总论
政治、法律
军事
经济
历史、地理
语言、文字
文学
艺术
文化、科学、教育、体育
马列毛邓
全部专业
中文标题
英文标题
中文关键词
英文关键词
中文摘要
英文摘要
作者中文名
作者英文名
单位中文名
单位英文名
基金中文名
基金英文名
杂志中文名
杂志英文名
栏目中文名
栏目英文名
DOI
责任编辑
分类号
杂志ISSN号
语料库自然标注信息与中文分词应用研究
作者姓名:
饶高琦
修驰
荀恩东
作者单位:
北京语言大学信息科学学院, 北京 100083;
基金项目:
国家自然科学基金(60973062,61170162);中央高校基本科研业务费专项资金(2012-jbyz-001)资助
摘 要:
以中文分词为应用目标, 将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息, 分别考察了它们的分布和对大数据集上语言计算的影响。结果表明, 两者都直接或间接地表达了作者对语言的分割意志, 因而对分词具有积极的影响。通过词语抽取测试, 发现在缺乏丰富显性标注信息的文本中, 来自语言固有规律的自然标注信息对字符串有着强大的分割性能。
关 键 词:
自然标注信息
中文分词
词语抽取
大规模语料库
收稿时间:
2012-05-31
本文献已被
CNKI
万方数据
等数据库收录!
点击此处可从《北京大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《北京大学学报(自然科学版)》下载全文
设为首页
|
免责声明
|
关于勤云
|
加入收藏
Copyright
©
北京勤云科技发展有限公司
京ICP备09084417号