基于预训练模型融合深层特征词向量的中文文本分类 Chinese text classification based on pre-training model and deep feature word vector期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于预训练模型融合深层特征词向量的中文文本分类

引用本文：	汤英杰,刘媛华. 基于预训练模型融合深层特征词向量的中文文本分类[J]. 上海理工大学学报, 2023, 45(2): 189-197,204

作者姓名：	汤英杰刘媛华

作者单位：	上海理工大学管理学院, 上海 200093

基金项目：	国家自然科学基金资助项目（71771152）

摘要：	为解决传统模型表示出的词向量存在序列、上下文、语法、语义以及深层次的信息表示不明的情况，提出一种基于预训练模型（Roberta）融合深层特征词向量的深度神经网络模型，处理中文文本分类的问题。通过Roberta模型生成含有上下文语义、语法信息的句子向量和含有句子结构特征的词向量，使用DPCNN模型和改进门控模型（RGRU）对词向量进行特征提取和融合，得到含有深层结构和局部信息的特征词向量，将句子向量与特征词向量融合在一起得到新向量。最后，新向量经过softmax激活层后，输出结果。在实验结果中，以F1值、准确率、召回率为评价标准，在THUCNews长文本中，这些指标分别达到了98.41%，98.44%，98.41%。同时，该模型在短文本分类中也取得了很好的成绩。
关键词：	预训练模型 Roberta 模型 DPCNN 模型特征词向量中文文本分类
收稿时间：	2021-11-08
Chinese text classification based on pre-training model and deep feature word vector

TANG Yingjie,LIU Yuanhua. Chinese text classification based on pre-training model and deep feature word vector[J]. Journal of University of Shanghai For Science and Technology, 2023, 45(2): 189-197,204

Authors:	TANG Yingjie LIU Yuanhua

Affiliation:	Business School, University of Shanghai for Science and Technology, Shanghai 200093, China

Abstract:

Keywords:	pre-training model Roberta model DPCNN model feature word vector Chinese text classification

	点击此处可从《上海理工大学学报》浏览原始摘要信息
	点击此处可从《上海理工大学学报》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏