首页
|
本学科首页
官方微博
|
高级检索
全部学科
医药、卫生
生物科学
工业技术
交通运输
航空、航天
环境科学、安全科学
自然科学总论
数理科学和化学
天文学、地球科学
农业科学
哲学、宗教
社会科学总论
政治、法律
军事
经济
历史、地理
语言、文字
文学
艺术
文化、科学、教育、体育
马列毛邓
全部专业
中文标题
英文标题
中文关键词
英文关键词
中文摘要
英文摘要
作者中文名
作者英文名
单位中文名
单位英文名
基金中文名
基金英文名
杂志中文名
杂志英文名
栏目中文名
栏目英文名
DOI
责任编辑
分类号
杂志ISSN号
大数据语音语料库的社会标注技术
作者姓名:
李宏言
范利春
高鹏
徐波
作者单位:
中国科学院自动化研究所
基金项目:
国家“八六三”高技术项目(2011AA01A207)
摘 要:
由于传统语料标注方法耗时耗力,已经难以适应大数据语料的处理,该文提出了大数据语音语料库的社会标注策略。引入了针对语音数据标注的六元组模型,将语音资源的自身特征考虑进去,并将标签对象扩展为更为广义的标记。提出基于兴趣+收获+报酬的标注模式,并建立标注质量的3层检验机制。通过工程实现和应用,验证了本文方法在标注效率、质量和成本等方面都具有明显优势。同时,该标注策略可以推广到其他语料的标注,特别是对主观性较强的翻译语料和评价型语料的标注。
关 键 词:
语音识别
社会标注
大数据
本文献已被
CNKI
等数据库收录!
设为首页
|
免责声明
|
关于勤云
|
加入收藏
Copyright
©
北京勤云科技发展有限公司
京ICP备09084417号