首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
自然语言处理中,文本情绪分类目前以情感极性分类居多,更加细粒度的情绪分类却很少,并且基本上都为英文文本情绪分类。本文针对中文文本情绪分类,设计并实现了一种双通道多核卷积神经网络中文文本情绪分类方法。在特征提取部分,设计了双通道特征提取方法,采用word2vec预先训练词向量的词袋方式并引入注意力机制,提取的特征向量在关注局部特征信息的基础上加入了文本上下文之间的关系信息,能够涵盖文本全局特征;在卷积部分,设计了多种不同卷积核分别卷积池化后再组合的方式,从而得到更加全面的文本特征。理论分析和实验结果表明,双通道多核卷积神经网络中文文本情绪分类方法分类准确率达86%,比单层卷积神经网络的分类准确率提高了4%,同时解决了单层卷积神经网络特征提取不够全面和多层卷积神经网络特征提取过于抽象的问题。  相似文献   

2.
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Movers Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。  相似文献   

3.
针对长文本在文本分类时提取语义关键特征难度大,分类效果差等问题,建立基于循环神经网络变体和卷积神经网络(BGRU-CNN)的混合模型,实现中文长文本的准确分类。首先,通过PV-DM模型将文本表示为句向量,并将其作为神经网络的输入;然后,建立BGRU-CNN模型,经双向门控循环单元(B-GRU)实现文本的序列信息表示,利用卷积神经网络(CNN)提取文本的关键特征,通过Softmax分类器实现文本的准确分类;最后,经SogouC和THUCNews中文语料集测试,文本分类准确率分别达到89. 87%和94. 65%。测试结果表明,循环层提取的文本序列特征通过卷积层得到了进一步优化,文本的分类性能得到了提高。  相似文献   

4.
随着互联网应用的日益普及,短文本作为电子数据证据在法庭科学中日益重要,法院亟需对大量网络聊天内容作者归属进行同一认定。传统机器学习方法对特征选取非常敏感,因为在实践中较难提取到准确的作者写作习惯特征,所以影响了传统机器学习方法的实践效果。针对文本短、特征少、特征提取困难的缺点,提出了融合多属性的神经网络中文短文本作者识别方法。首先将文本的结构特征、语义特征、发送时间、发送位置、发送频率等属性融合进文本序列,对文本序列进行词向量化表示,采用卷积层和Bi-LSTM层自动提取局部特征和上下文关系特征,通过注意力机制动态调整特征权重,使用Softmax分类器得到文本作者。以最大熵模型做对比实验,实验结果表明卷积层和Bi-LSTM层能"学习"到短文本上下文特征,注意力机制能更多"学习"到文本序列不同位置的关键特征,融合多属性的神经网络方法的作者识别精度比传统模型大约提高了5%。  相似文献   

5.
在互联网和社交媒体迅猛发展的背景下,网络中出现了大量的短文本数据,这些数据在舆情监控、情感分析和新闻分类等自然语言处理领域展现出了非常高的经济和学术价值.但短文本数据固有的特征给短文本分类带来了不小的挑战,如文本稀疏和缺乏丰富的上下文语义等.针对这些问题,提出了一种结合多元语义特征和图卷积神经网络(GCN)的短文本分类模型,该模型通过哈尔滨工业大学的语言技术平台获取短文本的多种语义特征,并将这些语义特征同短文本一起构建一个多元异构图,然后将其作为GCN的输入,利用GCN学习短文本更深层特征,最后通过Softmax函数获取每个类别的概率分布,进而实现短文本分类.试验结果表明,本模型在短文本分类的F1评分上比传统单一模型提高了4%.  相似文献   

6.
提出了一种基于卷积循环神经网络的文本特征提取方法,同时对比使用统计学中的TF-IDF以及Word2vec方法的文本特征表示,将提取的特征分别放入SVM与随机森林分类器中对来源于中国知网的中文学术论文数据集进行分类。实验结果表明,使用卷积神经网络和卷积循环神经网络特征提取模型提取的特征所取得的分类效果比TF-IDF、Word2vec特征提取方法得到的分类效果更好,同时使用SVM和随机森林分类器取得的分类效果略好于原生的神经网络。  相似文献   

7.
经典的卷积神经网络文本分类模型仅仅着眼于全局特征,没有考虑到局部特征.为了解决此问题,引入了注意力机制,用于提取文本中的关键词,把全局特征与局部特征综合在一起,使得文本的特征表达更加丰富.实验结果表明:卷积神经网络分类模型比传统的机器学习方法分类效果更好,而引入注意力机制后的卷积神经网络模型相比于经典的文本分类模型,分类效果也有了一定程度的提高.  相似文献   

8.
针对短文本具有稀疏性强和文本长度较小等特性, 为更好地处理短文本分类问题, 提出一个基于集成神经网络的短文本分类模型. 首先, 使用扩展词向量作为模型的输入, 从而使数值词向量可有效描述短文本中形态、 句法及语义特征; 其次, 利用递归神经网络(RNN)对短文本语义进行建模, 捕获短文本内部结构的依赖关系; 最后, 在训练模型过程中, 利用正则化项选取经验风险和模型复杂度同时最小的模型. 通过对语料库进行短文本分类实验, 验证了所提出模型有较好的分类效果, 且该分类模型可处理变长的短文本输入, 具有良好的鲁棒性.  相似文献   

9.
基于卷积神经网络, 提出一种基于改进卷积神经网络的短文本分类模型. 首先, 采用不同编码方式将短文本映射到不同空间下的分布式表示, 提取不同粒度的数字特征作为短文本分类模型的多通道输入, 并根据标准知识库提取概念特征作为先验知识, 提高短文本的语义表征能力; 其次, 在全连接层增加自编码学习策略, 在近似恒等的基础上进一步组合数字特征, 模拟数据内部的关联性; 最后, 利用相对熵原理为模型增加稀疏性限制, 降低模型复杂度的同时提高模型的泛化能力. 通过对开源数据集进行短文本分类实验, 验证了模型的有效性.  相似文献   

10.
基于卷积神经网络, 提出一种基于改进卷积神经网络的短文本分类模型. 首先, 采用不同编码方式将短文本映射到不同空间下的分布式表示, 提取不同粒度的数字特征作为短文本分类模型的多通道输入, 并根据标准知识库提取概念特征作为先验知识, 提高短文本的语义表征能力; 其次, 在全连接层增加自编码学习策略, 在近似恒等的基础上进一步组合数字特征, 模拟数据内部的关联性; 最后, 利用相对熵原理为模型增加稀疏性限制, 降低模型复杂度的同时提高模型的泛化能力. 通过对开源数据集进行短文本分类实验, 验证了模型的有效性.  相似文献   

11.
在对中分辨率遥感图像进行场景分类时,传统的特征提取方法无法提取全面的特征,若使用卷积神经网络进行场景分类,同一大小的卷积核无法提取尺寸大小各异的地物特征,导致分类精度降低.为了提取不同尺寸的地物特征,提高分类精度,本文提出一种基于多尺度特征融合的中分辨率遥感场景分类算法.对传统的卷积神经网络进行改进以适应中分辨率遥感数据集,并在其基础上添加多尺度池化,将连接多层次的特征图谱输入到全连接层进行分类.实验表明,多层特征融合方法提取的特征信息比单层多尺度池化方法提取的特征信息更全面,分类效果更优.与其他的传统分类方法相比,本文方法获得更好的分类结果.  相似文献   

12.
结合卷积神经网络对于特征提取的优势和循环神经网络的长短时记忆算法的优势,提出一种新的基于多尺度的卷积循环神经网络模型,利用卷积神经网络中的多尺寸滤波器提取出具有丰富上下文关系的词特征,循环神经网络中的长短时记忆算法将提取到的词特征与句子的结构联系起来,从而完成文本情感分类任务.实验结果表明:与多种文本情感分类方法相比,文中算法具有较高的精度.  相似文献   

13.
为解决课程评论中隐式评价对象识别问题,提出了一种基于文本分类的隐式评价对象的识别方法。首先通过word2vec 模型获得训练文本对应的词向量,获得短文本特征; 其次将短文本特征在TextCNN 中进一步提取高层次特征,通过K-max 池化操作后放入Softmax 分类器中进行训练得出分类模型; 最后利用训练好的分类器对隐式评价句进行分类,获取隐式评价句对应的评价对象。实验表明,基于卷积神经网络对隐式课程评论进行属性分类,课程评论的隐式评价对象识别正确率达到89. 9%,满足了课程评论中对隐式评价句对象识别的需求。  相似文献   

14.
由于短文本特征较少,传统的机器学习方法直接应用到短文本分类上,准确率往往不高.新闻标题相较于一般的短文本来说特征更少,在分类过程中难以提高准确率.首先采用3种方式对新闻标题的特征进行扩展,包括采用word2vec的方法寻找新闻标题中每个词在语义空间最相近的词,将最相近的词作为标题扩展词;采用fp-growth方法挖掘外部语料库的频繁项对新闻标题进行扩展;字向量和词向量两种标题表达方式扩展语义信息.其次提出了深度神经决策森林的分类算法.实验结果表明使用字词向量的双路卷积神经网络相对于单一词向量的卷积神经网络特征提取能力更强;使用深度神经决策森林算法在扩展后新闻标题验证集上的分类准确率达82.2%,比仅采用双路卷积神经网络分类的准确率提高约百分之二.  相似文献   

15.
通过提出一种多路融合卷积神经网络(multi-mixed convolutional neural network,MMCNN)对网购商品评论数据进行文本情感分类。采用skip-gram模型进行词向量的训练,并用训练好的向量表示评论数据。针对评论数据长短不一的情况,提出了循环词向量填充和随机词向量填充算法,有助于提升模型分类的准确率。针对传统卷积神经网络特征提取方式单一的问题,将多路卷积特征和池化特征在全连接层进行了特征融合,以此提升网络的文本分类效果。选择京东网站上45 000条婴儿奶粉的评论数据进行试验,并与支持向量机、最大熵模型、朴素贝叶斯等传统机器学习方法以及经典卷积神经网络方法进行对比。试验结果表明,提出的多路融合卷积神经网络具有较高的分类正确率。  相似文献   

16.
针对传统有监督分类方法卷积神经网络(CNN)在有标签样本数较少时正确率偏低的缺点,提出一种结合聚类的半监督分类方法。该方法利用传统无监督聚类方法 K-means对卷积神经网络提取到的样本特征进行聚类并标记,扩充有标签样本数量,使得最终训练得到的卷积神经网络能够更好地进行分类。利用该方法在MNIST手写数据集上进行三组实验,实验结果显示,与K-means和卷积神经网络相比,本方法整体结构简单,便于实现,具有较高的分类准确率。  相似文献   

17.
文本情感分析就是分析主观文本的情感倾向.针对情感分析中标签样本不足以及不同领域中情感表达存在差异的问题,提出一种基于卷积神经网络的跨领域情感分析方法,利用源领域标签样本完成对目标领域的无监督情感分析.首先,量化词项的情感极性、基于词向量度量词项的领域一致性,并在此基础上选择情感强烈且语义一致的词项作为领域间的共享词;然后,采用卷积神经网络提取文本特征,基于共享词的极性对源领域情感文本进行特征扩展;其次,基于扩展的文本完成情感分类器的训练,并对目标领域的情感文本进行分类;最后,在Amazon数据集上进行实验分析,实验结果表明该方法可以提高跨领域情感分类的准确率.  相似文献   

18.
目前的神经网络一般只将词粒度层面的词向量作为输入,忽略了语义层面的全局语义特征.针对此问题,提出了一种基于局部特征和全局特征融合的情感分类方法,以解决评论特征稀疏和主题聚焦性差的问题.对于局部特征,选择基于情感词典和BiLSTM神经网络模型提取基于词向量的文本特征.对于文本集的全局主题特征,采用神经主题模型提取文本主题特征,并将其作为全局特征来表示短文本信息.最终将基于局部加权词向量的文本特征和基于神经主题模型的文本主题特征进行拼接,并通过Softmax层输出,完成文本情感分类.结果表明:融合全局主题语义和局部加权词向量可以更加丰富神经网络的特征,从而有效地提高情感分类的准确率.  相似文献   

19.
手写体中文的自动识别是中文文档数字化的前提和基础,由于中文字符数目繁多、相似性强、字体种类繁多、书写随意、缺乏统一规范等原因,一直是计算机视觉领域中一个具有挑战性的问题.为解决这一难题,提出了一种基于卷积神经网络的手写体中文识别方法.在经典LeNet-5网络模型的基础上进行改进,提出了一种LeNet-Ⅱ模型.利用改进的Inception模块和空洞卷积,设计了一种并行的双路卷积神经网络结构;两路分支可分别提取手写中文图像中不同尺度的特征,获得多个尺度的特征图像;通过对其进行特征融合,可以达到丰富特征图像多样性、提升识别准确率的目的;最后经过全连接层进行分类.利用经典手写体中文数据集进行训练,利用该模型实现了3 755类手写体中文字符及相关文本的自动识别.实验结果表明,基于改进LeNet-5模型的手写体中文识别方法,在同一训练数据集上的收敛速度和识别准确率明显优于经典LeNet-5模型,对经典数据集的识别准确率可以达到95.21%,也高于其他传统算法;此外,对4幅手写体中文文本的平均识别准确率达到97.30%,超出了人类表现,取得了理想的实际效果.  相似文献   

20.
用于文本情感分析的深度学习模型如递归神经网络等参数较多,因此需要大量高质量标记训练数据对模型进行训练和优化。在实际应用中,特定领域难以获取高质量带情感标签评论数据。在跨领域文本情感分类任务中,针对不同领域数据分布差异性,提出了基于句法结构迁移和领域融合的跨领域文本情感分类方法,可以解决特定领域对带标签数据依赖问题。句法结构迁移方面,将依存语法特征加入到递归神经网络中,设计了一种可迁移的依存句法递归神经网络模型,通过句法结构迁移有效地迁移跨领域结构信息,为情感迁移提供支撑。领域融合方面,在传统的最大均值差异领域度量方法上细化了跨领域同类别距离度量信息。通过约束源领域和目标领域的分布,可以保证2个领域距离在学习过程中尽可能减小,有效地提取领域通用特征。实验结果表明,该方法比已有方法有效提高了跨领域情感分类准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号