首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于数据增强的多层次论点立场分类方法
引用本文:林玩聪,韩明杰,靳婷.基于数据增强的多层次论点立场分类方法[J].广西师范大学学报(自然科学版),2023(6):62-69.
作者姓名:林玩聪  韩明杰  靳婷
作者单位:海南大学计算机科学与技术学院
基金项目:国家自然科学基金(61862021);;海南省自然科学基金(620RC565);
摘    要:本文旨在研究论点抽取技术,该技术的目的在于识别、抽取和分析文本信息中的论辩成分与结构。通过从若干句子中提取与辩题相关的论点,并判断该论点的立场为支持或反对,来完成对论辩事实文本的智能分析。以往的研究主要基于卷积神经网络和循环神经网络等深度学习模型,网络结构简单,无法从论辩中学习到更深层次的特征。为学习到论辩文本中更丰富的语义信息来对论辩立场进行分类,本文提出一种增强的RoBERTa模型EnhRoBERTa。该模型以预训练语言模型RoBERTa为基础,充分利用多层次的多头注意力机制,并且提取浅层和深层语义表示进行融合,从多个特征维度进一步理解论点和辩题之间的关系,完成对论点的立场分类。然而,考虑到论点对立场的分布不均衡问题,本文采用数据增强技术,增强对少样本的学习能力。在CCAC2022比赛数据集上的实验结果表明:本文模型相较于基线模型可以提取到更丰富的文本特征,取得61.4%的F1-score,比未使用预训练的基线模型TextCNN和BiLSTM提高约19个百分点,比RoBERTa提高3.8个百分点。

关 键 词:立场分类  数据增强  预训练语言模型  多头注意力  多层特征提取
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号