基于FP-Growth算法的词性标注规则获取方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于FP-Growth算法的词性标注规则获取方法

作者姓名：	莫礼平黄永琨

作者单位：	(吉首大学信息科学与工程学院,湖南吉首 416000)

基金项目：	湖南省语委语言文字应用研究专项课题;湖南省自然科学基金资助项目;湖南省教育厅科学研究重点项目

摘要：	为了提高词性标注模型训练语料的质量,设计了一种利用FP-Growth算法从训练语料库中自动获取词性标注规则的方法,并将该方法与基于Apriori算法的词性标注规则获取方法进行了对比实验.实验结果显示,对于0.1万、0.2万和1万词级的小规模语料库,2种方法获取的词性标注规则条数均相同,但基于FP-Growth算法的时间耗费分别仅为基于Apriori算法的0.013 866%,0.010 399%,0.003 132%;对于10万、100万词级的训练语料库,基于Apriori算法无法获取任何规则,但基于FP-Growth算法依然可以在合理时间内获取有效的规则.这说明,基于FP-Growth算法的词性标注规则获取方法是可行且高效的,满足在优化训练语料库时能从不同规模的语料库中自动获取词性标注规则的实际需求.
关键词：	词性标注规则语料库关联规则挖掘 Apriori算法 FP-Growth算法
本文献已被 CNKI 万方数据等数据库收录！
	点击此处可从《吉首大学学报(自然科学版)》浏览原始摘要信息
	点击此处可从《吉首大学学报(自然科学版)》下载全文