首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
研究了统计语言模型中b igram模型在自动文本分类中的应用,针对传统的向量空间模型在计算文本相似度时假设特征项相互独立的缺点,提出了一种新的利用词对及词序信息来改善文本分类结果的方法.实验结果表明:该方法是可行且有效的.  相似文献   

2.
基于领域知识的文本分类   总被引:3,自引:0,他引:3  
提出了一种基于知识的文本分类方法,其中引入领域知识,利用领域特征作为文本特征,增强文本表示能力,将文本分类过程看作集聚计算过程.文本索引过程采用了改进型特征选取和权重计算方法.提出了一种基于互信息的学习算法,从训练语料中自动学习领域特征集聚计算公式.实验结果显示基于领域知识的文本分类技术总体性能优于传统的贝叶斯分类模型,领域知识的应用能够有效改善对相似主题和相反主题的分类性能.  相似文献   

3.
目前众多文本分类方法已经得到了广泛的应用,然而针对不同的语言结构,各分类方法的泛化能力也有差异,因此本文利用机器学习算法中的GaussianNB模型对藏文新闻类文本语料进行分类,检验该分类模型在藏文语言结构中具有良好的分类性能.分类过程中首先以一码元为文本特征,采用特征频度统计方法,形成特征值向量,然后对特征向量进行降维处理,最后通过分类实验结果,验证了该模型对藏文文本具有良好的分类效果.  相似文献   

4.
在少数民族语言信息处理领域,由于文本分类标注数据的稀缺,相关研究工作进展缓慢.为了充分利用有限的标注数据,更有效地挖掘出文本之间的关系,本文对藏文提出一种基于预训练模型和图卷积神经网络的长文本分类方法CINO-GCN.首先利用在实验数据集上经过微调的少数民族多语言预训练模型(Chinese Minority Pretrained Language Model, CINO)得到藏文长文本的初始文档向量和藏文音节向量.然后根据整个数据集范围的音节共现关系与音节和文档间的TF-IDF值来对藏文文本图进行建模.最后将文本图和结点特征一同输入至图卷积神经网络(graph convolutional networks, GCN)层,得到的文档表示经过Softmax得到分类结果.将该方法在公开的TNCC藏文新闻文本分类数据集上与当前几种主流的深度学习模型进行了多组对比实验,分类准确率达到73.51%,远优于其他基线模型;同时设计了消融实验验证模型各部分对分类结果的增益.实验结果表明,该文提出的模型能够结合预训练词向量和图神经网络的优势,显著提高藏文文本分类的准确率.  相似文献   

5.
针对文本情感分类任务中,有情感标注的语料在不同语言中的不均衡问题,结合深度学习和迁移学习,提出一种基于对抗长短时记忆网络(ALSTM)的跨语言文本情感分类方法.设置双语各自独立的特征提取网络和共享特征提取网络,把获取到的特征拼接输入到分类器进行分类.在共享特征提取网络中,设置语言分类器,运用对抗思想优化模型,通过投票法决定文本最终的情感极性.实验表明:该方法可以取得跨语言文本情感分类任务更高的准确度.  相似文献   

6.
电网设备缺陷部位识别是设备故障分析的关键环节。该文提出一种基于预训练语言模型双向Transformers偏码表示(Bidirectional encoder representation from transformers,BERT)的电网设备缺陷文本分类方法。基于BERT预训练语言模型对电网设备缺陷部位文本进行预训练生成具有上下文特征的词嵌入(Word embedding)向量作为模型输入,然后,利用双向长短时记忆(Bi-directional long short-term memory)网络对输入的电网设备缺陷文本向量进行双向编码提取表征缺陷文本的语义表征,并通过注意力机制增强电网设备缺陷文本中与缺陷部位相关的领域词汇的语义特征权重,进而得到有助于电网设备缺陷部位分类的语义特征向量。通过模型的归一化层实现电网设备缺陷部位文本分类。在主变压器、SF6真空断路器这两种设备缺陷文本数据集上实验结果表明,提出的方法比基于BiLSTM-Attention模型的F_1值分别提升了2.77%和2.95%。  相似文献   

7.
黄璐  谷军  李然  李向军 《科技信息》2013,(9):162-162,194
文本分类技术可以有效提高信息资源的可用性和利用率。提出一种基于改进的TF.IDF和支持向量机(SVM)结合进行多类别文本分类的方法。在文本的TF.IDF特征计算中,加入特征词权重,有效加强了重点词汇的特征标引作用。将提取出的文本特征向量送入组合SVM进行多类别文本分类。实验结果表明,本文提出的多类别文本分类方法具有较好的分类效果,为信息资源的充分利用了奠定良好基础。  相似文献   

8.
在自动文本分类系统中,特征选择是有效降低文本向量维数的一种方法.在分析常用的一些特征选择的评价函数的基础上,提出了一种新的特征选择方法.在标准中文网页数据集上的分类实验表明,该方法提高了文本分类的准确率.  相似文献   

9.
一种基于VSM文本分类系统的设计与实现   总被引:10,自引:0,他引:10  
阐述了一个基于改进向量空间模型的中文文本分类系统的设计与实现 ,包括对该系统的结构、预处理、特征提取、训练算法 ,分类算法等关键技术的介绍 .通过引入结构层次权重系数来改进文本特征项权重 ,同时提出一种新的训练算法和文本相似度域值计算方法 .实验结果证明 :该分类系统能有效地提高文本分类效果 ,开放性测试的平均准确率在 80 %以上 ,且平均查全率达到了 86 % .  相似文献   

10.
基于演化超网络的中文文本分类方法   总被引:2,自引:0,他引:2  
为了提高中文文本的分类效果,提出了一种基于演化超网络的中文文本分类方法.采用中国科学院计算技术研究所的汉语词法分析系统对中文文本进行分词,保留文本中的名词、动词和形容词作为特征;以X2统计方法进行特征选择;利用布尔权重计算特征权值.经处理后的特征向量作为系统的训练集和测试集数据.运用超边替代策略训练超网络分类模型,并实现对测试集特征向量的分类.对不同阶数设定下的演化超网络模型进行了性能分析,并将其与传统的KNN和SVM算法进行了比较.结果表明,本方法对复旦大学语料和搜狐语料可获得87.2%和72.5%的宏识别率、86.9%和70.5%的宏召回率、87.0%和71.5%的宏F1,接近或优于KNN和SVM分类方法.所提出的方法是一种有效的中文文本分类手段.  相似文献   

11.
基于投影寻踪的kNN文本分类算法的加速策略   总被引:1,自引:1,他引:0  
传统的k近邻(k-nearest neighbors,kNN)文本分类中,由于文本被表示成向量空间模型后维数非常高,且训练文本的数目巨大,kNN分类算法通常被视为是一种虽然有效,但并非高效的文本分类算法。针对传统kNN分类算法效率低下的问题,提出了一种基于投影寻踪思想的kNN分类算法加速策略。基本思想是:通过投影的方法缩减训练集的规模,同时在寻找k近邻过程中对文本进行降维处理,从两方面着手降低算法的计算开销。实验数据表明,优化后的kNN算法比传统kNN算法在时间性能上有较大的提升,同时保证了分类的精度。  相似文献   

12.
为了提高模型在文本分类任务中的分类性能,针对图神经网络中存在的过度平滑问题,同时增强模型在处理文本特征与文本表示方面的能力,提出了一种基于多状态图神经网络的文本分类算法(multi-state graph neural network, MSGNN)。多状态图神经网络是利用网络层的多个历史状态信息对图神经网络进行强化,构建合理的文本图结构数据作为模型输入。在缓解网络层过度平滑问题的同时,结合2种改进后的不同类型的图神经网络来增强模型的特征提取与特征聚合能力。利用多头自注意力机制对文本关键词的挖掘与利用能力,从多个文本子空间来生成高质量的文本表示,进而完成文本分类。通过在几个公开的文本分类数据集上进行实验分析,相较于其他神经网络的文本分类算法,该方法取得了较好的分类准确率。  相似文献   

13.
由于word2vec、Glove等静态词向量表示方法存在无法完整表示文本语义等问题,且当前主流神经网络模型在做文本分类问题时,其预测效果往往依赖于具体问题,场景适应性差,泛化能力弱。针对上述问题,提出一种多基模型框架(Stacking-Bert)的中文短文本分类方法。模型采用BERT预训练语言模型进行文本字向量表示,输出文本的深度特征信息向量,并利用TextCNN、DPCNN、TextRNN、TextRCNN等神经网络模型构建异质多基分类器,通过Stacking集成学习获取文本向量的不同特征信息表达,以提高模型的泛化能力,最后利用SVM作为元分类器模型进行训练和预测。与word2vec-CNN、word2vec-BiLSTM、BERT-texCNN、BERT-DPCNN、BERT-RNN、BERT-RCNN等文本分类算法在网络公开的三个中文数据集上进行对比实验,结果表明,Stacking-Bert集成学习模型的准确率、精确率、召回率和F1值均为最高,能有效提升中文短文本的分类性能。  相似文献   

14.
文本生成是自然语言处理的一项重要任务. 针对生成的文本大多缺乏多样性,且当生成文本过长时,文本生成的质量会有明显下降的问题,提出了一种采用Sentences and Words(SW)奖励机制的传递向量文本生成对抗网络. 首先,为生成器提出了层次结构设计,包括传递特征向量训练模块和生成向量训练模块,同时传递判别模型中真实文本特征向量给生成器的传递特征向量训练模块,由此来提高长文本生成的准确率,生成向量训练模块接收其生成词序列;然后,在训练过程中,使用关系存储核心代替传统的长短期记忆循环神经网络模型作为生成器,提高了模型的表达能力和捕获信息的能力;最后,采用SW奖励机制提高文本生成的多样性. 实验结果表明,分层学习的多奖励文本生成对抗网络(Generation Adversarial Network Based on Hierarchical Learning with Multi-reward Text,HLMGAN)模型在合成数据负对数似然度和双语互译质量评估辅助工具指标中均有所提升.  相似文献   

15.
This study investigates the feasibility of applying complex networks to fine-grained language classification and of employing word co-occurrence networks based on parallel texts as a substitute for syntactic dependency networks in complex-network-based language classification.14 word co-occurrence networks were constructed based on parallel texts of 12 Slavic languages and 2 non-Slavic languages,respectively.With appropriate combinations of major parameters of these networks,cluster analysis was able to distinguish the Slavic languages from the non-Slavic and correctly group the Slavic languages into their respective sub-branches.Moreover,the clustering could also capture the genetic relationships of some of these Slavic languages within their sub-branches.The results have shown that word co-occurrence networks based on parallel texts are applicable to fine-grained language classification and they constitute a more convenient substitute for syntactic dependency networks in complex-network-based language classification.  相似文献   

16.
针对当前电力文本分类方法中因忽视类别标签之间潜在语义关联关系而导致分类性能低效的问题,提出一种基于层次化分类模型的电力文本分类方法.首先,利用采集的电力成果非结构化文档,采用自动化信息提取技术和标注技术,构建电力文本多标签分类训练集,并结合领域知识分析,构建类别标签之间的层次化关系.然后,提出基于类别结构和标签语义混合...  相似文献   

17.
随着深度学习的发展,方面级情感分类已经在单领域和单一语言中取得了大量的研究成果,但是在多领域的研究还有提升的空间。通过对近年来文本方面级情感分类方法进行归纳总结,介绍了情感分类的具体应用场景,整理了方面级情感分类常用的数据集,并对方面级情感分类的发展进行了总结与展望,提出未来可在以下领域开展深入研究:1)探索基于图神经网络的方法,弥补深度学习方法存在的局限性;2)学习融合多模态数据,丰富单一文本的情感信息;3)开展更多针对多语言文本和低资源语言的研究。  相似文献   

18.
张杨帆  丁锰 《科学技术与工程》2022,22(29):12945-12953
利用文本分析技术可以帮助民警快速地准确地提取电子数据,使用预训练语言模型进行下游任务能够有效减轻过拟合,在使用微调BERT进行文本分类的时候一般将[CLS]位对应的隐含层表示作为句向量输入到全连接层中进行分类,这会产生一部分语义信息的丢失从而导致分类准确率的下降。针对这一问题,提出在BERT后接一个语义特征提取器以充分利用高层的语义信息,使用不同大小的二维卷积核对BERT输出的隐藏状态进行卷积,然后用共享权重的Squeeze-and-Excitation模块对通道进行加权,通过最大池化层后连结起来,最后输入到全连接层进行分类。在自建的涉案对话文本数据集和公开数据集THUCNews上进行测试,结果表明,与BERT基线模型和其他分类模型相比,改进后的微调BERT模型具有更好的分类效果。  相似文献   

19.
针对文本分类存在的高维文本问题,提出文档频率(DF)-卡方统计量特征提取方式,对特征项进行有效约减,降低文本维度,提高分类精度.在K最近邻(KNN)算法的基础上,针对待分类文本需要和大量训练集样本进行相似度计算的问题,提出一种基于分组中心向量的KNN算法,对类别内的样本集分组求出各组中心向量,使其重新代表训练库计算相似度,降低计算复杂度,提升算法的分类性能.通过实验表明:相较传统KNN算法,改进的算法在准确率、召回率及F值方面都有提升,与其他分类算法相比,具有一定的优势.  相似文献   

20.
提出一种基于多重假设检验的特征加权朴素贝叶斯分类算法, 该算法通过特征选择方法得到多个特征词集合, 再按多重假设检验错误率为每个特征词集合配以不同的权重系数并参与到分类器的构建中. 该方法已经应用到市长公开电话的文本分类中, 通过构建的3个特征加权朴素贝叶斯分类器实现了投诉文本的计算机自动分类, 且相对传统方法提高了分类器的效率和精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号