首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 97 毫秒
1.
针对网络文本信息的安全性判别问题,采取改进的邻近分类算法挖掘文本.该改进邻近分类方法在传统方法定义分类特征的同时,起用共线性判别矩阵,对具有共线属性的特征合并处理.这种改进策略,不仅可以增加分类特征的准确性,也可以加快文本信息的分类进程.对Spambase语料库开展实验研究,从精度、召回率、联判度、误差4个维度对分类效果进行评价.结果显示:改进的邻近分类方法具有明显的优势,可以更加准确地区分安全文本和危险文本.  相似文献   

2.
在少数民族语言信息处理领域,由于文本分类标注数据的稀缺,相关研究工作进展缓慢.为了充分利用有限的标注数据,更有效地挖掘出文本之间的关系,本文对藏文提出一种基于预训练模型和图卷积神经网络的长文本分类方法CINO-GCN.首先利用在实验数据集上经过微调的少数民族多语言预训练模型(Chinese Minority Pretrained Language Model, CINO)得到藏文长文本的初始文档向量和藏文音节向量.然后根据整个数据集范围的音节共现关系与音节和文档间的TF-IDF值来对藏文文本图进行建模.最后将文本图和结点特征一同输入至图卷积神经网络(graph convolutional networks, GCN)层,得到的文档表示经过Softmax得到分类结果.将该方法在公开的TNCC藏文新闻文本分类数据集上与当前几种主流的深度学习模型进行了多组对比实验,分类准确率达到73.51%,远优于其他基线模型;同时设计了消融实验验证模型各部分对分类结果的增益.实验结果表明,该文提出的模型能够结合预训练词向量和图神经网络的优势,显著提高藏文文本分类的准确率.  相似文献   

3.
近年来,随着移动通信和信息技术的发展,网络上和实际应用场景中需要处理越来越多的长度不超过20字并且不带有辅助标签信息的超短文本数据.超短文本因其固有的词义多义性、文本特征极度稀疏、上下文明显缺失以及明辨语义困难等特点,如何对其进行有效地分类成为文本分类领域亟需解决的新问题.本文针对传统的短文本分类方法KNN和决策树在商品类超短文本上存在的由于特征稀少而导致分类器性能不佳的问题,提出了一种基于深度随机森林的商品类超短文本分类方法.该方法采用"分流"策略,利用外部知识库进行辅助,对知识库中存在明确类别的商品名直接确定其分类,对无法直接抽取类别的商品名,采用Word2vec对其在外部知识库中的描述进行向量化,并利用深度随机森林对向量进行分类,同时不断优化分类器直到训练集大小达到设定的阈值.实验结果表明,与传统的分类方法KNN和决策树相比,本文提出的分类方法在平均准确率上分别提高了22.78%和17.22%,平均召回率上分别提高了22.85%和15.23%.   相似文献   

4.
由于预训练模型输入分词数量限制,基于BERT的长文本分类任务效果与长文本分割后的文本段集合的处理及特征融合密切相关,现有的长文本分类研究在融合文本段特征时更关注文本段之间原始的顺序关系,而本文提出了一种基于BERT和集合神经网络的长文本分类模型.该方法以BERT为基础,可处理从同一文本样本分割得到的任意数量文本段,经过BERT后得到文本段特征,再将所有文本段特征输入到具有置换不变性的集合神经网络层中,提取出集合级别特征来优化长文本的特征表达.通过在三个数据上的实验分析,论文在平均分词长度较长的数据集上取得了90.82%的准确率,高出目前最优方法4.37%.  相似文献   

5.
多标签文本分类是自然语言处理领域的重要任务之一.文本的标签语义信息与文本的文档内容有紧密的联系,而传统的多标签文本分类方法存在忽略标签的语义信息以及标签的语义信息不足等问题.针对以上问题,提出一种融合标签嵌入和知识感知的多标签文本分类方法 LEKA (Label Embedding and Knowledge-Aware).该方法依赖于文档文本以及相应的多个标签,通过标签嵌入来获取与标签相关的注意力.考虑标签的语义信息,建立标签与文档内容的联系,将标签应用到文本分类中.另外,为了增强标签的语义信息,通过知识图谱嵌入引入外部感知知识,对标签文本进行语义扩展.在AAPD和RCV1-V2公开数据集上与其他分类模型进行了对比,实验结果表明,与LCFA (Label Combination and Fusion of Attentions)模型相比,LEKA的F1分别提高了3.5%和2.1%.  相似文献   

6.
KNN文本分类算法中的特征选取方法研究   总被引:1,自引:0,他引:1  
曹勇  吴顺祥 《科技信息》2006,(12):26-28
对基于中文的文本分类过程进行了介绍,重点介绍了文本分类中几种特征选取的方法,详细介绍了KNN分类算法,最后介绍了文本分类的评估方法并通过实验测试对比了几种特征选择的方法在基于KNN技术的文本分类中的使用效果.  相似文献   

7.
基于k-近邻方法的渐进式中文文本分类技术   总被引:3,自引:0,他引:3  
针对k-近邻方法分类准确率较高、但分类效率较低的特性,提出了一种基于k近邻方法的渐进式中文文本分类技术,利用文本的标题、摘要、关键词、重点段落进行渐进式的分类处理.这样,不用分析全文就能将部分待分类文本成功分类,从而提高了文本分类的效率.实验结果表明,该方法在保证分类准确率的基础上能够有效地提高分类效率.  相似文献   

8.
基于LSI和Rough集的文本分类研究   总被引:2,自引:0,他引:2  
针对传统的基于VSM的文本分类算法未能考虑到VSM中各特征向量间相互影响关系,构成VSM的词条集合并不能完全、准确地反映文本的内容,分类精度不是很理想的问题,提出了一种基于LSI和Rough集的文本分类方法.在构造VSM的过程中引入了LSI理论,将语义关系体现在VSM中,从而减少了向量空间的维数,然后再运用粗糙集理论中规则推理方法,建立文本分类的规则库,对于任意一个未知文本,只需要将其条件属性与规则库中的规则进行相似匹配,即可完成分类.实验表明,该方法在文本分类的精度和效率方面比传统的基于VSM的文本分类方法均有10%以上的提高.  相似文献   

9.
在中文文本分类模型中提出文本的KWP度量.在文本分类系统中SVM决策表上建立CKWP约简方法,利用CKWP值标注训练集文本的方法改进了中文文本分类系统.实验结果表明,CKWP标注后的文本提取规则在决策过程中拥有更大的权重、更高的优先级,同时,CKWP标注后的KNN方法在查全率、查准率、微平均三个指标上领先标准方法及粗糙集方法.  相似文献   

10.
在基于LDA的短文本分类基础上进行改进,提出信息增益结合LDA的短文本分类方法.该方法采用信息增益计算词汇对于文本分类的贡献度,提高"作用词"的权重,过滤掉"非作用词",最后对过滤后的短文本进行LDA主题建模,并采用中心向量法建立文本类别模型.实验证明,该方法随着作用词比例的减少,分类性能有较大的提高.  相似文献   

11.
一种基于类别核心词的概念映射方法   总被引:1,自引:0,他引:1  
由于同义词和多义词的存在,使得基于特征词的文本分类方法分类精度不高.近几年,基于概念的文本分类方法得到人们的重视.在此提出一种基于类别核心词的概念映射方法,首先从文本中抽取类别核心词,借助<知网>将特征词映射到基于类别核心词的概念空间,然后在概念空间上完成文本分类工作.实验结果表明,基于类别核心词的概念映射方法及相应的基于概念的文本分类能够有效提高文本分类的精度.  相似文献   

12.
针对文本情感分类中情感语义特征利用不足、特征降维效果欠佳等影响分类效果的问题,提出了一种通过扩展语义相似的情感词以及引入词语间统计特征的高精度网络评论情感分类方法.该方法利用神经网络Skip-gram模型生成词嵌入,通过词嵌入相似性度量将语义相似的词语扩展为情感特征;再利用词语间的统计特征进行特征降维;通过多个弱分器加权构建Adaboost分类模型实现网络评论情感分类.基于酒店评论和手机评论公开测试集进行实验,结果表明其情感分类的正确率分别达到90.96%和93.67%.方法扩展语义相似情感词有利于丰富文本情感语义特征,引入词语间的统计特征有更好的特征降维效果,可以进一步提升文本情感分类的效果.   相似文献   

13.
介绍了综合文摘类期刊的分类情况,分析了综合文摘类期刊的基本特点,结合读者的阅读习惯,提出了此类期刊较为适用的分类方法。  相似文献   

14.
介绍了集合论的基本概念,阐述了分类法和主题词的集合分析与运算,论述了分类法、非控主题词和主题词的集间关系。  相似文献   

15.
提出一种结合LDA及语义相似度的商品评论情感分类方法。该方法首先使用LDA对商品语料库建模,获取文档-主题矩阵;人工选择k对褒义词、贬义词,基于HowNet语义相似度计算主题(评价对象+观点内容)与各个褒义词和贬义词的相似度,达到对观点词极性判断,计算文本观点词情感极性的加权和作为文本的情感极性。实验表明,与基于向量空间的SVM分类方法相比,该情感分类方法在分类指标上表现更好。  相似文献   

16.
针对信息搜索与挖掘中存在的关键词多义性及用户对所要查询信息的分类存在一定的模糊性问题,提出了一种基于模糊分类网络的信息挖掘方法。该方法利用模糊分类网络固有的对模糊信息的非线性处理能力和自适应学习机制,通过对WEB页面大量分类文档信息的学习,建立了基于模糊分类网络的信息分类器和挖掘模型。构造的信息分类模型结构简单、学习收敛速度快且易于实现。文中给出了分类策略和实现算法,并以中国石油网油气管道专题信息分类为例验证了方法的有效性。  相似文献   

17.
传统的词向量嵌入模型,如Word2Vec、GloVe等模型无法实现一词多义表达;传统的文本分类模型也未能很好地利用标签词的语义信息。基于此,提出一种基于XLNet+BiGRU+Att(Label)的文本分类模型。首先用XLNet生成文本序列与标签序列的动态词向量表达;然后将文本向量输入到双向门控循环单元(BiGRU)中提取文本特征信息;最后将标签词与注意力机制结合,选出文本的倾向标签词,计算倾向标签词与文本向量的注意力得分,根据注意力得分更新文本向量。通过对比实验,本文模型比传统模型在文本分类任务中的准确率更高。使用XLNet作为词嵌入模型,在注意力计算时结合标签词能够提升模型的分类性能。  相似文献   

18.
传统分布式语义文本分类方法难以高效地在云计算环境下实现文本快速准确分类,为此,提出一种新的云计算环境下分布式语义文本自适应分类方法。通过期望交叉熵对分布式语义文本特征进行选择,针对任意类别中的词,按照权重值从大到小的顺序对其进行排列,将排在前面的若干词看作特征词,针对分布式语义文本集中的所有类别进行同样的操作,将获取的所有类别特征词结合在一起,建立特征词典。针对主题引入加权策略,通过权重值对不同主题针对不同类别的判断能力进行描述,以获取最佳主题,给出新文本特征产生过程。依据提取的分布式语义文本特征,通过朴素贝叶斯分类器实现分布式语义文本的自适应分类。实验结果表明,所提方法分类精度和效率高。  相似文献   

19.
针对LDA(Latent Dirichlet Allocation)主题模型生成的大量topic,很大部分topic内部词语相关度很低,可解释性差,对语言模型后的应用效果带来一定的影响.针对这一问题,该文提出了一种基于主题加权LDA模型的情感分类方法,该模型实现不同主题中内部相关的词语特征加权计算,能够消除不同主题内具有相关度词语的相互影响.实验结果表明,与传统LDA模型分类方法对比,该文提出的基于主题加权LDA模型的情感分类方法平均F1值提高了6.7%~8.1%,验证了该文提出的方法是有效的,提高了分类效果.  相似文献   

20.
基于LSTM的中文文本分类方法能够正确地识别文本所属类别,但是其主要关注于学习与主题相关的文本片段,往往缺乏利用词语其他方面的信息,特别是词性之间的隐含的特征信息。为了有效地利用词语的词性信息以便学习大量的上下文依赖特征信息并提升文本分类效果,提出了一种结合词性信息的中文文本分类方法,其能够方便地从词语及其词性中学习隐式特征信息。利用开源数据并设计一系列对比实验用于验证方法的有效性。实验结果表明,结合词性信息的基于注意力机制的双向LSTM模型,在中文文本分类方面的分类效果优于常见的一些算法。因此识别文本的类别不仅与词语语义信息高度相关,而且与词语的词性信息有很大关系。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号