首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
针对长文本在文本分类时提取语义关键特征难度大,分类效果差等问题,建立基于循环神经网络变体和卷积神经网络(BGRU-CNN)的混合模型,实现中文长文本的准确分类。首先,通过PV-DM模型将文本表示为句向量,并将其作为神经网络的输入;然后,建立BGRU-CNN模型,经双向门控循环单元(B-GRU)实现文本的序列信息表示,利用卷积神经网络(CNN)提取文本的关键特征,通过Softmax分类器实现文本的准确分类;最后,经SogouC和THUCNews中文语料集测试,文本分类准确率分别达到89. 87%和94. 65%。测试结果表明,循环层提取的文本序列特征通过卷积层得到了进一步优化,文本的分类性能得到了提高。  相似文献   

2.
提出了一种利用深度去噪自编码器(SDAE)的自然语言指令意图理解方法.根据家庭服务机器人的使用环境和应用场景构建了一个自然语言文本指令语料库,并对语料库中各类指令进行意图标注,从而把文本指令理解问题转化为文本分类问题;在传统的文本向量空间模型的基础上,融合了文本指令的词性信息,定义了一种文本表示模型——词性向量空间模型;将SDAE应用于文本指令意图理解,提取指令的高阶特征;用高斯核支持向量机进行训练和预测,进而实现了自然语言指令的意图理解.在所建语料库上进行多折交叉验证,结果表明指令意图理解平均准确率达到96%以上.  相似文献   

3.
为了提高小样本条件下配电网故障辨识准确率,提出一种门控循环注意力网络模型.首先,通过注意力机制赋予故障相中关键周期较高权重,通过加权运算使得模型更加关注上述关键信息.其次,利用门控循环网络处理波形序列,该网络利用门控信号控制记忆传递过程,并借由记忆传递建立序列中不同阶段输入波形和故障类别概率间的关系,从而提升识别准确率.基于仿真数据和实际数据的实验均表明:所提方法在小样本条件下的可靠性和准确率远优于同等条件下支持向量机、梯度提升决策树、卷积神经网络等常用分类模型,为配电网故障辨识技术提供了一种新思路.  相似文献   

4.
现有的基于深度学习和神经网络的日志异常检测方法通常存在语义信息提取不完整、依赖日志序列构建和依赖日志解析器等问题.基于注意力机制多特征融合和文本情感分析技术,提出了一种日志异常检测方法 .该方法首先采用词嵌入方法将日志文本向量化以获取日志消息的词向量表示,接着将词向量输入到由双向门控循环单元网络和卷积神经网络组成的特征提取层中分别提取日志消息的上下文依赖特征和局部依赖特征,使用注意力机制分别加强两种特征中的关键信息,增强模型识别关键信息的能力.使用基于注意力机制的特征融合层为两种特征赋予不同权重并加权求和后输入由全连接层构成的输出层中,实现日志消息的情感极性分类,达到日志异常检测的目的 .在BGL公开数据集上的实验结果表明,该模型的分类准确率和F1值分别达到了96.36%和98.06%,与同类日志异常检测模型相比有不同程度的提升,从而证明了日志中的语义情感信息有助于异常检测效果的提升,并且经过实验证明了使用注意力机制的模型可以进一步提高文本情感分类效果,进而提升日志异常检测的准确率.  相似文献   

5.
为了从来源不同的威胁情报中提取关键信息,方便政府监管部门开展安全风险评估,针对威胁情报文本中英文混杂严重以及专业词汇生僻导致识别困难的问题,在BiGRU-CRF模型基础上,提出了一种融合边界特征以及迭代膨胀卷积神经网络(IDCNN)的威胁情报命名实体识别方法.该方法根据人工构造的规则词典将边界清晰的实体例如英文单词进行转化以减少模型在处理较长文本时容易造成的信息损失,通过IDCNN和双向门控循环单元(BiGRU)进一步提取了文本的局部和全局特征.通过在威胁情报语料库上进行实验,结果表明所提的方法模型在相关评价指标上均优于其他模型,F值达到87.4%.  相似文献   

6.
传统的词向量嵌入模型,如Word2Vec、GloVe等模型无法实现一词多义表达;传统的文本分类模型也未能很好地利用标签词的语义信息。基于此,提出一种基于XLNet+BiGRU+Att(Label)的文本分类模型。首先用XLNet生成文本序列与标签序列的动态词向量表达;然后将文本向量输入到双向门控循环单元(BiGRU)中提取文本特征信息;最后将标签词与注意力机制结合,选出文本的倾向标签词,计算倾向标签词与文本向量的注意力得分,根据注意力得分更新文本向量。通过对比实验,本文模型比传统模型在文本分类任务中的准确率更高。使用XLNet作为词嵌入模型,在注意力计算时结合标签词能够提升模型的分类性能。  相似文献   

7.
为解决文本情感分类准确率不高的问题,提出了一种特征加权融合的朴素贝叶斯情感分类算法.通过分析单个情感词对文本情感分类的贡献度特征,根据情感词对文本情感贡献度的权值调整贝叶斯模型的后验概率;将文本中所有相同极性的情感词作为一个特征整体,根据特征整体对文本情感贡献度的权值调整贝叶斯模型的整体概率.为了进一步提高分类的准确率以及提升分类模型的综合性能,将两种加权方式同时与朴素贝叶斯模型结合.结果表明,融合后的方法在数据集上的整体平均查准率、查全率分别提高1.83%和3.42%,平均F1值提高了2.76%.  相似文献   

8.
在基于深度学习的文本情感分类研究领域中,目前传统的模型主要是序列结构,即采用单一的预训练词向量来表示文本从而作为神经网络的输入,然而使用某一种预训练的词向量会存在未登录词和词语语义学习不充分的问题。针对此问题,提出基于并行双向门控循环单元(gated recurrent unit,GRU)网络与自注意力机制的文本情感分类模型,利用两种词向量对文本进行表示并作为并行双向GRU网络的输入,通过上下两个通道分别对文本进行上下文信息的捕捉,得到表征向量,再依靠自注意力机制学习词语权重并加权,最后对两个通道的输出向量进行向量融合,作为输入进入全连接层判别情感倾向。将本文模型与多个传统模型在两个公共数据集上进行实验验证,结果表明本文模型在查准率、查全率、F1值和准确率等性能指标上相比于双向门控循环单元网络模型、双向长短时记忆网络模型和双向门控循环单元网络与自注意力机制的单通道网络模型均有所提升。  相似文献   

9.
为了提升生鲜水果领域短文本情感分类的准确率,提出一种并行混合网络的情感分类模型。针对食品领域出现较多的一词多义现象,采用双向编码器表征模型(Bidirectional Encoder Representations from Transformers,BERT)来提供词的向量化表示;针对生鲜食品评论特殊的结构,采用分段池化卷积神经网络(Piecewise Convolutional Neural Network,PCNN)与双向门控循环单元(Bidirectional Gated Recurrent Unit,BiGRU)并行的模型来对文本序列进行特征的提取,最终使用Sigmoid来进行情感分类。为保证实验的公允,在公开数据集上进行实验,结果表明,本文提出的模型准确率达到了94.45%和85.88%。同时发现当PCNN选取合适的分段数之后,也能达到一个较好的效果,其准确率,召回率,F1值均高于复杂度更高的BiGRU模型。提出的模型在生鲜水果短文本的情感分类中表现良好,但是对于其他的生鲜食品表现未知。  相似文献   

10.
采用图神经网络模型为整个语料库构建异构图处理文本分类任务时,存在难以泛化到新样本和词序信息缺失的问题。针对上述问题,提出了一种融合双图特征和上下文语义信息的文本分类模型。首先,为每个文本独立构建共现图和句法依存图,从而实现对新样本的归纳式学习,从双图角度捕获文本特征,解决忽略单词间依存关系的问题;其次,利用双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)编码文本,解决忽略词序特征和难以捕捉上下文语义信息的问题;最后,融合双图特征,增强图神经网络模型的分类性能。在MR,Ohsumed,R8,R52数据集上的实验结果表明,相较于经典的文本分类模型,该模型能够提取更丰富的文本特征,在准确率上平均提高了2.17%,5.38%,0.61%,2.48%。  相似文献   

11.
使用基于长短项记忆(LSTM)和门阀递归单元(GRU)计算节点的双向递归神经网络提取文本特征,然后使用softmax对文本特征进行分类。这种基于深度学习的神经网络模型以词向量作为基本输入单元,充分考虑了单词的语义和语法信息,并且在神经网络的计算过程中严格遵守单词之间的顺序,保留原文本中语义组合的方式,可以克服传统文本分类方法的不足。使用本文所提方法在第三届自然语言处理和中文计算会议(NLPCC 2014)公布的新华社新闻分类语料和路透社RCV1-v2语料上进行实验,其分类F1值分别达到了88.3%和50.5%,相较于传统的基线模型有显著的提升。由于该方法不需要人工设计特征,因此具有很好的可移植性。  相似文献   

12.
针对Android平台恶意软件数量增长迅猛,种类日益增多的现状,提出了一种基于深度置信网络和门控循环单元网络混合的Android恶意软件检测模型。通过自动化提取Android应用软件的特征,包括权限等静态特征和应用运行时的动态特征进行训练,对Android恶意软件进行检测和分类。实验结果表明,混合了门控循环单元网络和深度置信网络的混合模型,在检测效果上优于传统的机器学习算法和深度置信网络模型。  相似文献   

13.
为了提高模型在文本分类任务中的分类性能,针对图神经网络中存在的过度平滑问题,同时增强模型在处理文本特征与文本表示方面的能力,提出了一种基于多状态图神经网络的文本分类算法(multi-state graph neural network, MSGNN)。多状态图神经网络是利用网络层的多个历史状态信息对图神经网络进行强化,构建合理的文本图结构数据作为模型输入。在缓解网络层过度平滑问题的同时,结合2种改进后的不同类型的图神经网络来增强模型的特征提取与特征聚合能力。利用多头自注意力机制对文本关键词的挖掘与利用能力,从多个文本子空间来生成高质量的文本表示,进而完成文本分类。通过在几个公开的文本分类数据集上进行实验分析,相较于其他神经网络的文本分类算法,该方法取得了较好的分类准确率。  相似文献   

14.
在威胁情报包含的信息中,与网络攻击相关的战术、技术、程序(TTPs)是最能刻画组织行为的关键信息。但是,TTPs信息抽象层次高,并且通常存在于语法结构不规则的网络威胁情报文本中。这导致传统的人工分析方法以及基于特征工程的机器学习方法难以快速有效地从中分类出TTPs。使用单一的深度学习特征提取器则因无法提取文本语意中完整的邻域特征和序列特征,导致技战术分类精度低。 针对上述问题,本文提出一种基于注意力机制和特征融合的深度学习模型:ACRCNN,用于网络威胁情报中的战术与技术的分类。该模型通过卷积与循环神经网络同时提取网络威胁情报文本中的邻域与序列信息,再由卷积层与池化层进行深层次的特征抽取与降维,完成特征融合。然后,通过注意力层完成特征加权,最终经由全连接层完成战术与技术的分类。实验结果表明,ACRCNN在战术、技术分类任务中表现优异,在F1指标上达到了91.91%、83.86%,对比现有模型,分别提高了2.46%和4.94%。  相似文献   

15.
针对现有突发事件演化关系抽取方法仅利用了句子本身的信息而忽略了背景知识的问题,引入概念图谱进行特征拓展,以获得更多的语义信息来改善演化关系抽取效果。首先根据概念图谱构建突发事件语义网络,通过特征迭代选择算法获得演化因子的概念特征,然后联合概念特征与突发事件文本作为双向门控循环单元(BiGRU)模型的输入进行特征学习,并利用注意力(Attention)机制对输出的特征信息序列实施加权变换,最后将学习到的特征序列输入到分类器进行演化关系分类。实验结果表明,所提出的基于概念图谱与BiGRU-Att模型的方法相比于现有方法,在准确率、召回率和F_1值等评价指标上均有提升。  相似文献   

16.
针对文本自动分类时可能存在一个文本属于多类的问题,提出了一种基于模糊向量空间模型和神经网络的文本自动分类方法。该方法采用模糊集理论,把特征项在文档中出现的位置作为反映文档主题的重要程度(隶属度),并在特征提取时充分考虑该位置信息,从而构造出模糊特征向量,使文本分类更接近手工分类方法。建立的网络由输入层、隐含层和输出层组成,其中输入层完成分类样本的输入,隐含层提取输入样本所隐含的模式特征,输出层用于输出分类结果。实验部分以万方数据库中部分文档数据为例验证了该方法的有效性。  相似文献   

17.
为了分析突发事件期间网络舆论的情感倾向,以更有效地调节人们的情绪,维护社会稳定。本文提出了一种融合BERT模型和多通道卷积神经网络的深度学习方法用于细粒度情感分类,以获取更加丰富的文本语义特征信息。通过BERT 对输入的文本进行编码,以增强文本的语义特征表示,再通过具有多个不同大小的卷积核的并行卷积层来学习文本特征,捕获文本的深层次特征,提升模型在文本分类的性能。对比实验表明,该模型在准确性、召回率和F1值方面均优于传统的情感分类模型,并能显著改善细粒度情感分类的性能。除此之外,本文还探究了表情符号对细粒度情感分类模型的影响,实验结果表明表情符号转换成文字后可以增强文本的情感特征提取能力,提升模型分类性能。  相似文献   

18.
郑嘉颖  王杰  付攀  李桢  边桂彬 《科学技术与工程》2023,23(29):12620-12627
为解决样本分布不均衡的连续动作序列分割识别精度不高的问题,提出一种基于深度学习的新型连续动作分割与识别模型,该模型能够从多维时间序列中提取更丰富全面的动作特征。使用基于双向长短时记忆网络(bidirectional long short-term memory networks, Bi-LSTM)的特征提取单元提取数据特征,利用基于注意力机制的特征融合模块融合多种模态的特征,并利用全连接层构建的解码器完成最终分类。实验中使用多种传感器采集了眼科手术中连续环形撕囊操作的连续动作多模态数据对算法进行验证实验。实验结果显示,与使用长短时记忆网络(LSTM)和门控循环单元(gated recurrent unit, GRU)的数据层融合算法以及4种特征层融合策略相比,所提出的模型具有更好的性能。对于数据量最小的动作类别,该算法的识别精度提高了14%以上,全局F1分数提升8%以上,整体识别准确度达到90.72%。这些结果表明,该模型能够有效解决样本分布不均衡的连续动作序列分割识别精度问题,并为多模态连续动作分割与样本不均衡问题的解决提供了新的思路和方法。  相似文献   

19.
为了解决中文电子病历文本分类的高维稀疏性、算法模型收敛速度较慢、分类效果不佳等问题,提出了一种基于注意力机制结合CNN-BiLSTM模型的病历文本分类模型。该模型首先使用word2vec工具进行词向量表示,利用多层卷积神经网络(convolutional neural networks, CNN)结构提取病历文本的局部特征,通过拼接操作丰富局部特征表示,再利用双向长短期记忆网络(bi-directional long short-term memory, BiLSTM)提取上下文的语义关联信息,获取句子级别的高层特征表达。最后通过Attention机制进行特征加权,降低噪声特征的影响,并输入softmax层进行分类。在多组对比实验的实验结果表明,该模型取得了97.85%的F1,有效地提升了文本分类的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号