首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
文本分类是自然语言处理与理解当中重要的一个研究内容,在文本信息处理过程中有关键作用.目前深度学习已经在图像识别、机器翻译等领域取得了突破性的进展,而且它也被证明在自然语言处理任务中拥有着提取句子或文本更高层次表示的能力,也备受自然语言处理研究人员的关注.文章以基于深度学习的文本分类技术为研究背景,介绍了几种基于深度学习神经网络模型的文本分类方法,并对其进行分析.  相似文献   

2.
针对文本情感分类任务中,有情感标注的语料在不同语言中的不均衡问题,结合深度学习和迁移学习,提出一种基于对抗长短时记忆网络(ALSTM)的跨语言文本情感分类方法.设置双语各自独立的特征提取网络和共享特征提取网络,把获取到的特征拼接输入到分类器进行分类.在共享特征提取网络中,设置语言分类器,运用对抗思想优化模型,通过投票法决定文本最终的情感极性.实验表明:该方法可以取得跨语言文本情感分类任务更高的准确度.  相似文献   

3.
基于领域知识的文本分类   总被引:3,自引:0,他引:3  
提出了一种基于知识的文本分类方法,其中引入领域知识,利用领域特征作为文本特征,增强文本表示能力,将文本分类过程看作集聚计算过程.文本索引过程采用了改进型特征选取和权重计算方法.提出了一种基于互信息的学习算法,从训练语料中自动学习领域特征集聚计算公式.实验结果显示基于领域知识的文本分类技术总体性能优于传统的贝叶斯分类模型,领域知识的应用能够有效改善对相似主题和相反主题的分类性能.  相似文献   

4.
由于预训练模型输入分词数量限制,基于BERT的长文本分类任务效果与长文本分割后的文本段集合的处理及特征融合密切相关,现有的长文本分类研究在融合文本段特征时更关注文本段之间原始的顺序关系,而本文提出了一种基于BERT和集合神经网络的长文本分类模型.该方法以BERT为基础,可处理从同一文本样本分割得到的任意数量文本段,经过BERT后得到文本段特征,再将所有文本段特征输入到具有置换不变性的集合神经网络层中,提取出集合级别特征来优化长文本的特征表达.通过在三个数据上的实验分析,论文在平均分词长度较长的数据集上取得了90.82%的准确率,高出目前最优方法4.37%.  相似文献   

5.
基于Python语言,利用公开中文语料库,测试不同算法模型对中文文本分类的效果.选择语料中不同数量的语料种类,首先对文本进行格式化读取、清洗等处理,而后以2:1:1的比例,分为训练集、验证集、测试集,最后依照文本表示、特征提取、分类算法选择、效果评估的步骤,依次在词袋、词嵌入、语言3种模型中选取典型代表进行中文文本分类.在深度学习模型的帮助下,文本分类得到了快速的发展,当前的主流分类方法基本都能满足不同任务的文本分类需求,特别是BERT语言模型可极大地提升文本分类的效果.  相似文献   

6.
基于正交投影的BiLSTM-CNN的情感特征抽取方法旨在从文本中获取带权重的中性词向量,得到具有更高区分度的情感特征,为文本情感分类提供有力的技术支持.传统的深度学习模型会忽略关键局部上下文信息中的特殊意义词,导致获取的情感特征不够丰富.针对这一问题,本文提出一种基于正交投影的BiLSTM-CNN情感特征抽取方法.首先,将中性词向量投影到情感极性词的正交空间中,得到加权中性词向量,同时通过CNN深度学习模型抽取文本关键语义;然后,利用BiLSTM-Attention模型和带权重的中性词向量,从提取出的关键语义中学习可增强句子情感的语义特征,使文本在情感分类时更具判别性.实验结果表明本文所提出的情感特征抽取方法可以获取更完整的情感特征,从而显著提高文本情感分类的准确率.  相似文献   

7.
近年来,随着移动通信和信息技术的发展,网络上和实际应用场景中需要处理越来越多的长度不超过20字并且不带有辅助标签信息的超短文本数据.超短文本因其固有的词义多义性、文本特征极度稀疏、上下文明显缺失以及明辨语义困难等特点,如何对其进行有效地分类成为文本分类领域亟需解决的新问题.本文针对传统的短文本分类方法KNN和决策树在商品类超短文本上存在的由于特征稀少而导致分类器性能不佳的问题,提出了一种基于深度随机森林的商品类超短文本分类方法.该方法采用"分流"策略,利用外部知识库进行辅助,对知识库中存在明确类别的商品名直接确定其分类,对无法直接抽取类别的商品名,采用Word2vec对其在外部知识库中的描述进行向量化,并利用深度随机森林对向量进行分类,同时不断优化分类器直到训练集大小达到设定的阈值.实验结果表明,与传统的分类方法KNN和决策树相比,本文提出的分类方法在平均准确率上分别提高了22.78%和17.22%,平均召回率上分别提高了22.85%和15.23%.   相似文献   

8.
针对网络文本信息的安全性判别问题,采取改进的邻近分类算法挖掘文本.该改进邻近分类方法在传统方法定义分类特征的同时,起用共线性判别矩阵,对具有共线属性的特征合并处理.这种改进策略,不仅可以增加分类特征的准确性,也可以加快文本信息的分类进程.对Spambase语料库开展实验研究,从精度、召回率、联判度、误差4个维度对分类效果进行评价.结果显示:改进的邻近分类方法具有明显的优势,可以更加准确地区分安全文本和危险文本.  相似文献   

9.
传统的文本分类算法都是采用期望交叉熵、信息增益和互信息等统计方法,通过设置阈值获取特征集,如果训练集的数据量较大,则容易出现特征项不明确,特征信息丢失等缺陷,为解决上述问题,提出运用“深度学习”中的稀疏自动编码器算法自动提取文本特征,然后结合深度置信网络形成SD算法进行文本分类。实验表明,在训练集较少的情况下,SD算法的分类性能低于传统的支持向量机,但是在处理高维数据时,SD算法则比支持向量机具有较高的准确率和召回率。  相似文献   

10.
一种基于领域语义相关性挖掘的迁移学习方法   总被引:1,自引:0,他引:1  
针对基于特征的迁移学习方法 TPLSA只考虑领域共享主题而忽略领域独有主题的不足,提出一种基于领域语义相关性挖掘的迁移学习方法.首先,挖掘领域共享主题与独有主题;然后,构造新特征空间,将源领域、目标领域文本在新特征空间中进行表示;最后,在新特征空间中对目标领域的文本进行分类.实验结果表明该方法具有优越性.  相似文献   

11.
自动化、高效率和细粒度是恶意软件检测与分类领域目前面临的主要挑战.随着深度学习在图像处理、语音识别和自然语言处理等领域的成功应用,其在一定程度上缓解了传统分析方法在人力和时间成本上的巨大压力.因此本文提出一种自动、高效且细粒度的恶意软件分析方法-mal2vec,其将每个恶意软件看成是一个具有丰富行为语义信息的文本,文本的内容由恶意软件动态执行时的API序列构成,采用经典的神经概率模型Doc2Vec对文本集进行训练学习.实验结果表明,与Rieck~([1])等人的分类效果相比,本文方法得到的效果有明显提升.特别的,不同于其他深度学习的方法,本文方法能够抽取模型训练的中间结果进行显式表示,这种显式的中间结果表示具有可解释性,可以让我们从细粒度层面分析恶意软件家族的行为模式.  相似文献   

12.
随着深度学习的发展,方面级情感分类已经在单领域和单一语言中取得了大量的研究成果,但是在多领域的研究还有提升的空间。通过对近年来文本方面级情感分类方法进行归纳总结,介绍了情感分类的具体应用场景,整理了方面级情感分类常用的数据集,并对方面级情感分类的发展进行了总结与展望,提出未来可在以下领域开展深入研究:1)探索基于图神经网络的方法,弥补深度学习方法存在的局限性;2)学习融合多模态数据,丰富单一文本的情感信息;3)开展更多针对多语言文本和低资源语言的研究。  相似文献   

13.
针对当前文本分类算法未能充分利用标签的语义表示导致文本表示学习与分类预测割裂的问题,提出一种融合文本内容编码和标签引导文本编码的文本分类方法.在文本内容编码部分,通过长短时记忆网络获得文本序列累计语义表示,通过自注意力机制捕获和强化文本长距离语义依赖.在标签引导文本编码部分,设计交互注意力机制,通过标签引导得到经由标签的语义表示过滤下文本的新表示.最后将两部分输出融合,得到同时具有本地内容语义信息和全局任务指导信息的文本表示,使得模型在文本表示阶段即对分类任务具有早期感知力.实验结果表明本研究方法在真实数据集上可有效提升文本分类任务性能.  相似文献   

14.
在对文本分类领域发展现状进行研究的基础上,提出了一种面向文本分类的深度置信网络特征提取方法,通过引入词向量模型和深度置信网络解决传统文本分类方法在文本表示及特征提取方面存在的语义缺失问题,实验结果表明,该方法在文本分类中有更高的准确率。  相似文献   

15.
跨境民族文本分类任务是跨境民族文化分析中的基础性工作,其目的是将跨境民族文化文本进行归类处理。针对跨境民族文化数据分类面临类别交叉的问题,提出融合领域知识图谱的跨境民族文本分类方法,利用跨境民族文化知识图谱对文本中的跨境民族实体进行语义扩展,通过实体在知识图谱中的类别特征来增强文本的类别语义特征。此外,通过掩码自注意力机制分别对文本的词级、句子级进行特征提取以此得到文本中句子的局部特征和全局特征。实验表明,本文方法在跨境民族文化数据集中相比基线模型的F1值提升了11.9%。  相似文献   

16.
针对现有文本分类模型上下文信息挖掘不足、全局特征表示提取不充分等问题,提出了一种基于张量的残差图卷积网络模型.首先,以归纳学习方式构建文本图,挖掘文本中蕴含的句法关系、语义关系和序列关系并整合构建邻接张量,捕获文档的高阶上下文信息与关键局部特征信息;然后,利用残差连接加深网络深度,处理图卷积网络过平滑问题,提升模型的泛化能力;最后,设计图读出机制聚集所有节点特征,提取文本的全局特征表示.在R8和MR数据集上进行了实验评估,实验结果表明与已有文本分类方法相比,所提方法取得了优越的分类效果.  相似文献   

17.
文本自动分类是文本挖掘的基础,可广泛地应用于信息检索,web挖掘等领域.在分类前首先要将文本表示成计算机能处理的形式,提出了一种将隐含语义索引(LSI)与文本聚类相结合的中文文本自动分类的方法.在挖掘文本的语义信息,提高分类速度上均取得了较好的效果.通过实验验证了方法的有效性.  相似文献   

18.
梁丹凝  周书民 《江西科学》2010,28(2):265-268
根据短信可转化为文本的特性,将文本分类算法运用到短信处理技术之中。通过对短信文本进行预处理、特征选择及分类器等步骤,将短信文本按不同领域进行分类,最后分析意见所涉及的领域分类,有针对性地为政府决策提供可靠依据。  相似文献   

19.
为了消除传统机器学习中分类方法的限制,提出一种基于主题模型与迁移学习的文本分类方法.将文本集合成由共同主题和特定主题所联合起来的混合模型;然后,通过这两类主题相关性推断出不同领域之间主题的映射关系;最后,融合共同主题以及映射后的特定主题形成一个新的特征空间,并在此特征空间中完成文本的分类.实验结果表明,相较于其他分类方...  相似文献   

20.
分析了微博短文本的专有特征,介绍了微博短文本的预处理流程.以新浪微博为网络舆情数据获取平台,简述了微博文本分类处理实现过程,基于Hadoop进行了网络舆情微博分类设计,为网络舆情监控任务的完成做数据依据.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号