首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于RoBERTa-RCNN和注意力池化的新闻主题文本分类
引用本文:王乾,曾诚,何鹏,张海丰,余新言.基于RoBERTa-RCNN和注意力池化的新闻主题文本分类[J].郑州大学学报(理学版),2024(2):43-50.
作者姓名:王乾  曾诚  何鹏  张海丰  余新言
作者单位:1. 湖北大学计算机与信息工程学院;2. 湖北省软件工程技术研究中心;3. 智慧政务与人工智能应用湖北省工程研究中心
基金项目:国家自然科学基金项目(61977021,61902114);
摘    要:针对中文新闻主题因缺乏上下文信息而造成语义模糊和用词规范性不高的问题,提出一种基于RoBERTa-RCNN和多头注意力池化机制的新闻主题文本分类方法。利用数据增强技术对部分训练数据进行回译处理,再通过自编码预训练模型和RCNN对文本进行初步和深度的特征提取,并结合多头注意力思想改进最大池化层。该方法采用融合机制,改善了RCNN中最大池化策略单一和无法进行动态优化的缺陷。在三个新闻主题数据集上进行实验,使用更适用于新闻主题分类的Mish函数代替ReLU函数,并利用标签平滑来解决过拟合问题。结果表明,所提方法相比传统分类方法效果突出,并通过消融实验验证了模型在分类任务上的可行性。

关 键 词:预训练语言模型  文本分类  循环卷积神经网络  注意力机制  标签平滑  数据增强
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号