首页 | 本学科首页   官方微博 | 高级检索  
     

大数据语音语料库的社会标注技术
作者姓名:李宏言  范利春  高鹏  徐波
作者单位:中国科学院自动化研究所
基金项目:国家“八六三”高技术项目(2011AA01A207)
摘    要:由于传统语料标注方法耗时耗力,已经难以适应大数据语料的处理,该文提出了大数据语音语料库的社会标注策略。引入了针对语音数据标注的六元组模型,将语音资源的自身特征考虑进去,并将标签对象扩展为更为广义的标记。提出基于兴趣+收获+报酬的标注模式,并建立标注质量的3层检验机制。通过工程实现和应用,验证了本文方法在标注效率、质量和成本等方面都具有明显优势。同时,该标注策略可以推广到其他语料的标注,特别是对主观性较强的翻译语料和评价型语料的标注。

关 键 词:语音识别  社会标注  大数据
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号