首页 | 本学科首页   官方微博 | 高级检索  
     

基于FP-Growth算法的词性标注规则获取方法
作者姓名:莫礼平  黄永琨
作者单位:(吉首大学信息科学与工程学院,湖南 吉首 416000)
基金项目:湖南省语委语言文字应用研究专项课题;湖南省自然科学基金资助项目;湖南省教育厅科学研究重点项目
摘    要:为了提高词性标注模型训练语料的质量,设计了一种利用FP-Growth算法从训练语料库中自动获取词性标注规则的方法,并将该方法与基于Apriori算法的词性标注规则获取方法进行了对比实验.实验结果显示,对于0.1万、0.2万和1万词级的小规模语料库,2种方法获取的词性标注规则条数均相同,但基于FP-Growth算法的时间耗费分别仅为基于Apriori算法的0.013 866%,0.010 399%,0.003 132%;对于10万、100万词级的训练语料库,基于Apriori算法无法获取任何规则,但基于FP-Growth算法依然可以在合理时间内获取有效的规则.这说明,基于FP-Growth算法的词性标注规则获取方法是可行且高效的,满足在优化训练语料库时能从不同规模的语料库中自动获取词性标注规则的实际需求.

关 键 词:词性标注规则  语料库  关联规则挖掘  Apriori算法  FP-Growth算法  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《吉首大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《吉首大学学报(自然科学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号