首页 | 本学科首页   官方微博 | 高级检索  
     

CCM-MF:基于多维度特征融合的中文文本分类模型
引用本文:马子晨,张顺香,刘云朵,王星光,张友强. CCM-MF:基于多维度特征融合的中文文本分类模型[J]. 广西科学, 2023, 30(1): 35-42
作者姓名:马子晨  张顺香  刘云朵  王星光  张友强
作者单位:安徽理工大学计算机科学与工程学院, 安徽淮南 232001;合肥综合性国家科学中心人工智能研究院, 安徽合肥 230088
基金项目:国家自然科学基金面上项目(62076006)和安徽省高校协同创新项目(GXXT-2021-008)资助。
摘    要:针对中文文本中不同维度特征所携带的语义信息具有差异性的问题,本文提出一种基于多维度特征融合的中文文本分类模型:CCM-MF (Chinese-text Classification Model Based on Fused Multi-dimensional Features)。该模型融合层次维度和空间维度特征,以提高中文文本分类的准确率。首先,在层次维度上,使用预训练模型ERNIE (Enhanced Representation through Knowledge Integration)获取包含字、词及实体级别特征的词向量;然后,在空间维度上,将包含层次维度特征的词向量分别输入到改进后的深度金字塔卷积神经网络(Deep Pyramid Convolutional Neural Networks,DPCNN)模型及附加注意力机制的双向长短期记忆网络(Attention-Based Bidirectional Long Short-Term Memory Networks,Att-BLSTM)模型中,得到局部语义特征和全局语义特征;最后,将得到的空间维度特征分别作用于Softmax分类器,再对计算结果进行融合并输出分类结果。通过在多个公开数据集上进行实验,较现有主流的文本分类方法,本模型在准确率上有更好的表现,证明了该模型的有效性。

关 键 词:中文文本分类|多维度|ERNIE|DPCNN|Att-BLSTM

CCM-MF:Chinese-text Classification Model Based on Fused Multi-dimensional Features
MA Zichen,ZHANG Shunxiang,LIU Yunduo,WANG Xingguang,ZHANG Youqiang. CCM-MF:Chinese-text Classification Model Based on Fused Multi-dimensional Features[J]. Guangxi Sciences, 2023, 30(1): 35-42
Authors:MA Zichen  ZHANG Shunxiang  LIU Yunduo  WANG Xingguang  ZHANG Youqiang
Affiliation:School of Computer Science and Engineering, Anhui University of Science and Technology, Huainan, Anhui, 232001, China;Institute of Artificial Intelligence, Hefei Comprehensive National Science Center, Hefei, Anhui, 230088, China
Abstract:
Keywords:Chinese text categorization|multiple dimensions|ERNIE|DPCNN|Att-BLSTM
点击此处可从《广西科学》浏览原始摘要信息
点击此处可从《广西科学》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号