首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于深度学习模型的非结构化数据标注方法研究
作者单位:;1.西北民族大学数学与计算机科学学院
摘    要:大型的、标记密集的数据集是利用大量在线论坛中发现的非结构化数据有效促进文本和图像分析的深度学习方法的创建.虽然这种非结构化数据包比租用的数据注释包花费更低,但它也更容易陷入自然语言应答的陷阱,因为数据的非结构化特性会使回答者可能无法正确回答所提的问题.为了解决这些问题,提出一种深度学习的方法来系统地识别混淆,并从Instagram收集的非结构化数据包注释的数据中提取答案.每个注释数据包含一个图像、一个机器生成的问题和一个非结构化数据包响应.本文使用一个基于Facebook人工智能研究的Pythia体系结构模型:(1)用R-CNN模型来识别突出的特征(自下而上);(2)问题文本用作上下文来衡量这些特征(自上而下).使用基于伯特BERT的分类器来重复训练来自问题和响应的文本特征(不包括图像特征)等任务.结果显示:基于伯特BERT模型(分类AUC-ROC=0.84,应答预测F1=0.77)优于Pythia体系结构(分类AUC-ROC=0.79,应答预测F1=0.46).此外,还提出了一种基于BERT的多任务并行训练模型(1)和(2)能够优于特定任务模型(分类AUC-ROC=0.84,应答预测F1=0.78).

关 键 词:Instagram  Pythia体系结构  数据包  深度学习  Facebook

Research on Unstructured Data Annotation Method Based on Deep Learning Model
Abstract:
Keywords:
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号