首页 | 本学科首页   官方微博 | 高级检索  
     

多策略融合的搭配抽取方法
引用本文:王大亮,涂序彦,郑雪峰,佟子健. 多策略融合的搭配抽取方法[J]. 清华大学学报(自然科学版), 2008, 48(4): 608-612
作者姓名:王大亮  涂序彦  郑雪峰  佟子健
作者单位:1. 北京科技大学,信息工程学院,北京,100083
2. 搜狐研发中心,北京,100084
摘    要:以往的词汇搭配抽取统计评价方法具有大致相同的效果,它们各有优劣,可以实现优势互补.该文提出多策略融合的搭配抽取方法. 首先,将互信息法用于衡量二元独立性,淘汰候选的无关二元组. 其次,对比χ2检验法与t检验法,发现使用χ2检验法能够更合理地反映搭配组合的同现性和期待性;然后,使用对数似然比检验法,解决其他方法无法克服的稀疏数据问题. 此外,加入构词法的启发式规则,最终形成一个多策略融合的方法.实验结果表明该方法的准确率较高,在实际应用中取得良好效果.

关 键 词:信息处理  搭配抽取  统计评价  自然语言处理
文章编号:1000-0054(2008)04-0608-05
修稿时间:2007-02-27

Collocation extraction with multiple hybrid strategies
WANG Daliang,TU Xuyan,ZHENG Xuefeng,TONG Zijian. Collocation extraction with multiple hybrid strategies[J]. Journal of Tsinghua University(Science and Technology), 2008, 48(4): 608-612
Authors:WANG Daliang  TU Xuyan  ZHENG Xuefeng  TONG Zijian
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号