首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
经典的卷积神经网络文本分类模型仅仅着眼于全局特征,没有考虑到局部特征.为了解决此问题,引入了注意力机制,用于提取文本中的关键词,把全局特征与局部特征综合在一起,使得文本的特征表达更加丰富.实验结果表明:卷积神经网络分类模型比传统的机器学习方法分类效果更好,而引入注意力机制后的卷积神经网络模型相比于经典的文本分类模型,分类效果也有了一定程度的提高.  相似文献   

2.
单词级别的浅层卷积神经网络(CNN)模型在文本分类任务上取得了良好的表现.然而,浅层CNN模型由于无法捕捉长距离依赖关系,影响了模型在文本分类任务上的效果.简单地加深模型层数并不能提升模型的效果.本文提出一种新的单词级别的文本分类模型Word-CNN-Att,该模型使用CNN捕捉局部特征和位置信息,利用自注意力机制捕捉长距离依赖.在AGNews、DBPedia、Yelp Review Polarity、Yelp Review Full、Yahoo! Answers等5个公开的数据集上,Word-CNN-Att比单词级别的浅层CNN模型的准确率分别提高了0.9%、0.2%、0.5%、2.1%、2.0%.  相似文献   

3.
经典的LSTM分类模型,一种是利用LSTM最后时刻的输出作为高一级的表示,而另一种是将所有时刻的LSTM输出求平均作为高一级的表示.这两种表示都存在一定的缺陷,第一种缺失了前面的输出信息,另一种没有体现每个时刻输出信息的不同重要程度.为了解决此问题,引入Attention机制,对LSTM模型进行改进,设计了LSTM-Attention模型.实验结果表明:LSTM分类模型比传统的机器学习方法分类效果更好,而引入Attention机制后的LSTM模型相比于经典的文本分类模型,分类效果也有了一定程度的提升.  相似文献   

4.
为了提高模型在文本分类任务中的分类性能,针对图神经网络中存在的过度平滑问题,同时增强模型在处理文本特征与文本表示方面的能力,提出了一种基于多状态图神经网络的文本分类算法(multi-state graph neural network, MSGNN)。多状态图神经网络是利用网络层的多个历史状态信息对图神经网络进行强化,构建合理的文本图结构数据作为模型输入。在缓解网络层过度平滑问题的同时,结合2种改进后的不同类型的图神经网络来增强模型的特征提取与特征聚合能力。利用多头自注意力机制对文本关键词的挖掘与利用能力,从多个文本子空间来生成高质量的文本表示,进而完成文本分类。通过在几个公开的文本分类数据集上进行实验分析,相较于其他神经网络的文本分类算法,该方法取得了较好的分类准确率。  相似文献   

5.
6.
为了解决中文电子病历文本分类的高维稀疏性、算法模型收敛速度较慢、分类效果不佳等问题,提出了一种基于注意力机制结合CNN-BiLSTM模型的病历文本分类模型。该模型首先使用word2vec工具进行词向量表示,利用多层卷积神经网络(convolutional neural networks, CNN)结构提取病历文本的局部特征,通过拼接操作丰富局部特征表示,再利用双向长短期记忆网络(bi-directional long short-term memory, BiLSTM)提取上下文的语义关联信息,获取句子级别的高层特征表达。最后通过Attention机制进行特征加权,降低噪声特征的影响,并输入softmax层进行分类。在多组对比实验的实验结果表明,该模型取得了97.85%的F1,有效地提升了文本分类的效果。  相似文献   

7.
深度学习作为机器学习领域新的研究方向,现已在图像处理、语音识别和机器翻译等领域取得了突破性的进展.在处理自然语言任务中,深度学习建立在低层特征基础上,组合形成更加抽象的高层特征,用以完成复杂的语言模型构建、语义理解和文本分类等任务,深受研究人员的关注.文本分类是自然语言处理中的一个重要应用,在文本信息处理过程中有着关键...  相似文献   

8.
基于卷积神经网络与随机森林算法的专利文本分类模型   总被引:1,自引:1,他引:0  
为解决专利文档的自动化分类,根据机械领域专利文本的特点,提出了一种基于卷积神经网络与随机森林的机械专利文本分类模型;该模型应用卷积神经网络作为有监督的文本特征提取器,结合随机森林作为分类器,面向机械领域专利文本进行专利文本分类。该模型被应用在包含96类的107 302份英文机械专利文档的数据集上。实验结果表明,该模型相比k近邻、Na6ve Bayes、随机森林等经典机器学习算法在准确率、召回率以及查全率方面均有显著提高。  相似文献   

9.
针对短文本具有稀疏性强和文本长度较小等特性, 为更好地处理短文本分类问题, 提出一个基于集成神经网络的短文本分类模型. 首先, 使用扩展词向量作为模型的输入, 从而使数值词向量可有效描述短文本中形态、 句法及语义特征; 其次, 利用递归神经网络(RNN)对短文本语义进行建模, 捕获短文本内部结构的依赖关系; 最后, 在训练模型过程中, 利用正则化项选取经验风险和模型复杂度同时最小的模型. 通过对语料库进行短文本分类实验, 验证了所提出模型有较好的分类效果, 且该分类模型可处理变长的短文本输入, 具有良好的鲁棒性.  相似文献   

10.
11.
文本分类是自然语言处理中一个重要的研究课题。近年来,图神经网络(graph neural network,GNN)在这一典型任务中取得了良好的效果。目前基于图结构的文本分类方法存在边噪声和节点噪声干扰、缺乏文本层次信息和位置信息等问题。为了解决这些问题,提出了一种基于正则约束的分层仿射图神经网络文本分类模型Text-HARC,该模型融合了图注意力网络(graph attention network,GAT)与门控图神经网络(gated graph neural network,GGNN),引入正则约束过滤节点与边噪声,分别使用仿射模块与相对位置编码补充词语表示。通过实验,该方法在TREC、SST1、SST2、R8四个基准数据集上的准确率提升明显,消融实验结果也验证了该方法的有效性。  相似文献   

12.
针对传统方法未能考虑词向量的动态性及句子间交互不充分等问题,提出基于BERT预训练模型及多视角循环神经网络的文本匹配模型。通过BERT-whitening方法对BERT输出的句向量进行线性变换优化,并利用多视角循环神经网络将两句子不同位置的BERT动态词向量进行双向交互计算;将句向量与词粒度交互向量进行融合后计算结果。实验结果表明,提出的模型相较于对比模型有明显性能提升,实用性良好。  相似文献   

13.
针对目前金融领域文本存在标注资源匮乏的问题,提出一种基于生成对抗网络的金融文本情感分类方法. 该方法以边缘堆叠降噪自编码器生成鲁棒性特征表示作为输入,在生成对抗过程中,通过向文本表示向量添加噪声向量再生成新样本,应用对抗学习思想优化文本特征表示. 在公开的跨领域情感评论Amazon数据集和金融领域数据集上进行实验,并与基准实验对比,结果表明,该方法在平均准确率上有显著提升.  相似文献   

14.
针对传统的基于向量的中文文本表示方法预处理过程比较复杂,应用于高维数据容易产生维数灾难的局限性,文章提出了一种基于张量空间模型的中文文本分类方法,用三阶张量表示文本集,将基于向量的kNN分类器扩展到张量上以构建分类器。该方法简化了预处理过程,提高了准确率,并使得更多张量学习方法能够在中文文本分类中得以应用。实验证明其具有较高的分类准确率,有一定的实用价值。  相似文献   

15.
基于随机森林的文本分类模型研究   总被引:3,自引:0,他引:3  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造.当森林中的决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reuter21578数据集上的实验表明,分类效果比较好,性能比较稳定,将共同C4.5,KNN,SM0,SVM4种典型的文本分类器进行了比较,结果显示它的分类性能胜于CA.5,同KNN,SMO和SVM方法相当.  相似文献   

16.
基于随机森林的文本分类模型研究   总被引:1,自引:1,他引:1  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造. 当森林中决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reuter21578数据集上的实验表明,分类效果比较好,性能比较稳定,将其同C4.5, KNN, SM0, SVM 4种典型的文本分类器进行了比较,结果显示它的分类性能胜于C4.5,同KNN, SMO和SVM方法相当.  相似文献   

17.
中文新闻信息分类的类别数量大,难以一次性获取均衡的分类性能。针对这一问题,提出了一种基于差错网络的文本分类反馈校正方法。首先对文本进行一次分类,^根据分类结果生成有向差错网络,得到标注类别与真实类别的候选映射规则。然后计算差错网络的类别关联度参数,再对候选映射规则进行筛选,得到标注类别与真实类别的映射规则。最后根据映射规则进行二次分类,实现分类反馈校正。实验表明,差错网络清晰地反映了类 别的相关度。通过映射关系进行反馈校正,比普通文本分类的F值提高了6.2%。在NLP&CC2014评测中,基于差错网络的方法平均正确率达到73% ,证明了该方法的有效性。  相似文献   

18.
针对抑郁相关量表大数据所面临的特征冗余、特征维度单一、特征子集难以确定等问题,提出了一种基于深度神经网络(deep nural network,DNN)的抑郁分类模型.通过结合主成分投影k-means(principal component, PC k-means),在不破坏原有特征空间的条件下对量表大数据进行特征选择,并对原始算法的随机性与聚类个数不确定的问题进行了优化;在此基础上,为了增强抑郁识别维度的多样性,构建了引入因子分解机(factorization machines,FM)的DNN抑郁分类模型.分析和对比结果表明:PC k-means不仅可以有效地选择特征,而且与传统分类器和FM-DNN结合,更能提高抑郁分类的准确率,为深度学习引入量表大数据分析提供了新的研究思路与方向.   相似文献   

19.
提出一种基于关键 $n$-grams 和门控循环神经网络的文本分类模型. 模型采用更为简单高效的池化层替代传统的卷积层来提取关键的 $n$-grams 作为重要语义特征, 同时构建双向门控循环单元(gated recurrent unit, GRU)获取输入文本的全局依赖特征, 最后将两种特征的融合模型应用于文本分类任务. 在多个公开数据集上评估模型的质量, 包括情感分类和主题分类. 与传统模型的实验对比结果表明: 所提出的文本分类模型可有效改进文本分类的性能, 在语料库 20newsgroup 上准确率提高约 1.95%, 在语料库 Rotton Tomatoes 上准确率提高约 1.55%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号