首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
深度学习作为机器学习领域新的研究方向,现已在图像处理、语音识别和机器翻译等领域取得了突破性的进展.在处理自然语言任务中,深度学习建立在低层特征基础上,组合形成更加抽象的高层特征,用以完成复杂的语言模型构建、语义理解和文本分类等任务,深受研究人员的关注.文本分类是自然语言处理中的一个重要应用,在文本信息处理过程中有着关键...  相似文献   

2.
文本分类(Text Categorization,TC)指的是把一个自然语言文本,根据其主题归入到预先定义好的类别中的过程.文本分类是自然语言处理的一个基础性工作,也是近年来人们研究的热点话题.针对朴素贝叶斯算法在小样本集分类效果不高的原因进行了分析,对其进行了改进和调整,提出了基于改进的朴素贝叶斯文本分类方法,试验结果表明,该方法取得了更好的效果.  相似文献   

3.
信息抽取任务旨在从非结构化的文本中抽取出结构化的信息,帮助将海量信息进行自动分类、提取和重构,提高信息的利用率.目前,基于深度神经网络的信息抽取技术已经成为自然语言处理领域最重要的研究主题之一,它提供了分析非结构化文本的有效手段,是实现大数据资源化、知识化和普适化的核心技术,此外进一步为更高层面的应用和任务提供了支撑....  相似文献   

4.
使用基于长短项记忆(LSTM)和门阀递归单元(GRU)计算节点的双向递归神经网络提取文本特征,然后使用softmax对文本特征进行分类。这种基于深度学习的神经网络模型以词向量作为基本输入单元,充分考虑了单词的语义和语法信息,并且在神经网络的计算过程中严格遵守单词之间的顺序,保留原文本中语义组合的方式,可以克服传统文本分类方法的不足。使用本文所提方法在第三届自然语言处理和中文计算会议(NLPCC 2014)公布的新华社新闻分类语料和路透社RCV1-v2语料上进行实验,其分类F1值分别达到了88.3%和50.5%,相较于传统的基线模型有显著的提升。由于该方法不需要人工设计特征,因此具有很好的可移植性。  相似文献   

5.
图书的自动分类是图书管理和图书推荐算法中的基础工作,也是难点之一,而且目前针对中文分类算法主要集中在短文本领域中,鲜有对图书等长文本分类的研究.该文对深度学习分类算法进行了深入细致的研究,并对BERT预训练模型及其变体进行相应的改进.利用复杂层级网络叠加双向Transformer编码器来提取隐藏在文本中的细粒度信息.在...  相似文献   

6.
为解决汉语自然语言处理任务中未登录词问题,人们经常利用汉字的笔画、偏旁、拼音等细粒度特征提高模型的学习能力.为找出这类特征的最佳组合,通过统计方法研究了汉字的音节、起笔、偏旁、声调、词频、笔画数等特征,提出一种可融合多种汉字特征的跨象限助记符映射模型,即相码模型,该模型可自动实现中文字、词与字母编码间的可逆映射.在字符级模型的文本分类实验中,效果理想.此外,模型生成的编码长度适中,保留了可读特性,可用于特殊场合的文本标注,也能为中文文本提供等量的平行语料数据.可见,相码模型是自然语言处理中一个较好的辅助模型.  相似文献   

7.
随着深度学习的发展,方面级情感分类已经在单领域和单一语言中取得了大量的研究成果,但是在多领域的研究还有提升的空间。通过对近年来文本方面级情感分类方法进行归纳总结,介绍了情感分类的具体应用场景,整理了方面级情感分类常用的数据集,并对方面级情感分类的发展进行了总结与展望,提出未来可在以下领域开展深入研究:1)探索基于图神经网络的方法,弥补深度学习方法存在的局限性;2)学习融合多模态数据,丰富单一文本的情感信息;3)开展更多针对多语言文本和低资源语言的研究。  相似文献   

8.
提出一种基于关键词学习的文本分类方法.采用LDA主题模型抽取文本的关键词,通过关键词的词袋构造文本的特征矩阵并进行PCA降维,将低阶特征矩阵输入由卷积神经网络和BP神经网络的混合网络中对文本分类进行学习.为提高文本分类效果,引入与BP神经网络同构的深度神经网络对BP神经网络的初始权值进行初始化.在多数据集上的实验表明,本文方法明显提高文本分类的准确率.  相似文献   

9.
针对自然语言处理的文本情感分类问题,提出一种基于集成学习的文本情感分类方法;基于微博数据的特殊性,首先对微博数据进行分词等预处理,结合词频-逆文档频率(TF-IDF)和奇异值分解(SVD)方法进行特征提取和降维,再通过堆叠泛化(stacking)集成学习的方式进行分类模型融合。结果表明,模型融合对文本情感分析的准确率达到93%,可以有效地判别微博文本的情感极性。  相似文献   

10.
自然语言处理(Natural Language Processing,NLP)可分为自然语言理解(Natural Language Understanding,NLU)和自然语言生成(Natural Language Generation,NLG)两大类子任务。预训练语言模型和神经语言模型在自然语言理解的整个流程中占据重要地位。本文梳理了文本预训练语言模型的发展流程,并分析当下主流的预训练语言模型以及深度学习模型的不足,基于经典预训练语言模型(Word2Vec)和卷积神经网络分类模型(CNN),提出一种简化的文本分类模型(Simplified CNN),在多个情感分析(Sentiment Analysis,SA)基准数据集上进行实验测试,实验结果表明,在文本分类任务上,简单网络可以得到与复杂网络相媲美的分类效果并且运行时间优于复杂网络,与传统的分类模型相比较,在分类效果上表现出了优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号