首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
针对多标签文本分类任务中如何有效地提取文本特征和获取标签之间潜在的相关性问题,提出一种CNN(convolutional neural networks)结合Bi-LSTM (bi-directional long short-term memory)的模型.首先,通过CNN网络和最大池化提取文本的特征;然后,利用训练的Labeled-LDA(labeled latent dirichlet allocation)模型获取所有词与标签之间的词-标签概率信息;接着,使用Bi-LSTM网络和CNN网络提取当前预测文本中每个词的词-标签信息特征;最后,结合提取的文本特征,预测与当前文本相关联的标签集.实验结果表明,使用词-标签概率获取文本中词与标签之间的相关性信息,能够有效提升模型的F1值.  相似文献   

2.
本文提出了一种基于编码解码器与深度主题特征的模型,实现了多标签文本分类.针对传统多标签文本分类方法的特征语义缺失的问题,采用一种长短时记忆(long short-term memory,LSTM)网络提取文本的局部特征与主题模型(latent dirichlet allocation,LDA)提取文本的全局特征的深度主题特征提取模型(deep topic feature extraction model,DTFEM),得到具有文本深层语义特征的语义编码向量,并将该编码向量作为解码器网络的输入.解码器网络将多标签文本分类的任务看作序列生成的过程,解决了多标签文本分类的标签相关性的问题,并加入attention机制,计算注意力分布概率,突出关键输入对输出的作用,改进了由于输入过长导致的语义缺失问题,最终实现多标签文本分类.实验结果表明,该模型能够获得比传统的多标签文本分类系统更优的结果.另外,实验证明使用深度主题特征的方法可以提高多标签文本分类的性能.  相似文献   

3.
提出了一种基于双向长短期记忆网络和标签嵌入的文本分类模型。首先利用BERT模型提取句子特征,然后通过BiLSTM和注意力机制得到融合重要上、下文信息的文本表示,最后将标签和词在联合空间学习,利用标签与词之间的兼容性得分对标签和句子表示加权,实现标签信息的双重嵌入,分类器根据给定标签信息对句子进行分类。在5个权威数据集上的实验表明,该方法能有效地提高文本分类性能,具有更好的实用性。  相似文献   

4.
特征选择是提高多标签分类性能的一种关键技术,一些特征选择算法在选择与标签相关的特征时没有从多个角度考虑标签结构,致使好的特征未能被选取,影响分类性能.为此,提出一种多角度标签结构和特征融合的多标签特征选择MLSFF.该算法的主要特点是:1)从三个角度考虑标签结构,提取三个重要的特征子集.2)融合提取的三个特征子集将整个...  相似文献   

5.
李忠  杨百一  李莹  李晓丽 《科学技术与工程》2021,21(35):15284-15289
针对灾害求助信息辨识不准确、响应能力不足的问题,本文提出了基于ALBERT和双向GRU的文本多标签分类模型。首先利用ALBERT预处理语言模型对文本信息进行编码,获取文本的动态词特征向量,并送入双向GRU神经网络进行训练,根据不同的单词赋予不同的权重,应用Attention机制进行解码。利用模拟退火算法求解最优阈值,以微平均值作为评价函数,确定样本的标签类别归属。与逻辑回归、朴素贝叶斯和LSTM长短期记忆神经网络等模型进行比较,结果显示,多标签分类模型具有更高的准确率,达到95%,汉明损失仅到0.05,能够更好地辨别灾情求助信息,提高救援效率。  相似文献   

6.
针对当前文本分类算法未能充分利用标签的语义表示导致文本表示学习与分类预测割裂的问题,提出一种融合文本内容编码和标签引导文本编码的文本分类方法.在文本内容编码部分,通过长短时记忆网络获得文本序列累计语义表示,通过自注意力机制捕获和强化文本长距离语义依赖.在标签引导文本编码部分,设计交互注意力机制,通过标签引导得到经由标签的语义表示过滤下文本的新表示.最后将两部分输出融合,得到同时具有本地内容语义信息和全局任务指导信息的文本表示,使得模型在文本表示阶段即对分类任务具有早期感知力.实验结果表明本研究方法在真实数据集上可有效提升文本分类任务性能.  相似文献   

7.
多标签文本分类是自然语言处理领域的重要任务之一.文本的标签语义信息与文本的文档内容有紧密的联系,而传统的多标签文本分类方法存在忽略标签的语义信息以及标签的语义信息不足等问题.针对以上问题,提出一种融合标签嵌入和知识感知的多标签文本分类方法 LEKA (Label Embedding and Knowledge-Aware).该方法依赖于文档文本以及相应的多个标签,通过标签嵌入来获取与标签相关的注意力.考虑标签的语义信息,建立标签与文档内容的联系,将标签应用到文本分类中.另外,为了增强标签的语义信息,通过知识图谱嵌入引入外部感知知识,对标签文本进行语义扩展.在AAPD和RCV1-V2公开数据集上与其他分类模型进行了对比,实验结果表明,与LCFA (Label Combination and Fusion of Attentions)模型相比,LEKA的F1分别提高了3.5%和2.1%.  相似文献   

8.
针对面向实际应用场景中数据标签易残缺导致有监督多标签分类方法可用训练数据量减少,未能利用大量标签缺失数据中蕴含的样本特征空间关联知识以最大化判别间隔,限制多标签分类效果等问题,本文提出一种融合样本相似性的弱监督多标签分类方法.该方法利用标签相关性和样本相似性恢复标签以提高数据利用率,并将标签恢复嵌入到训练过程中以便挖掘标签相关性,通过近端加速梯度法进行参数优化,建立弱监督学习场景的多标签分类模型.在真实数据集上的实验结果表明,该方法能够利用样本相似性有效提升模型在标签残缺时的分类能力,实用价值大.   相似文献   

9.
针对传统多标签文本分类模型未考虑标签之间以及标签与文本各个部分之间的相关性、低频标签预测效果不佳的问题,使用图嵌入和区域注意力技术来挖掘标签之间以及标签和文本之间的关系,提出了编码器-图嵌入和区域注意力机制-解码器模型来处理多标签分类任务.采用Bi-LSTM作为编码器,使用图嵌入技术生成标签嵌入矩阵;利用区域注意力机制结合单词级别与区域级别的信息,使得模型在预测每个标签时考虑文本不同部分的信息,挖掘了文本与标签之间的潜在关联;使用循环神经网络和多层感知机作为解码器结合随机策略梯度算法,减少训练损失,改善多标签分类效果.在AAPD和RCV1-V2多标签文本分类数据集上进行试验,根据数据集特征设置相关参数,以micro-F1和Hamming Loss作为评价指标,对比所提出模型与LP、卷积神经网络等9个经典模型.结果表明,所提出模型能够根据高频标签预测出低频标签,在2个数据集上的micro-F1和Hamming Loss均优于经典模型.  相似文献   

10.
结合卷积神经网络对于特征提取的优势和循环神经网络的长短时记忆算法的优势,提出一种新的基于多尺度的卷积循环神经网络模型,利用卷积神经网络中的多尺寸滤波器提取出具有丰富上下文关系的词特征,循环神经网络中的长短时记忆算法将提取到的词特征与句子的结构联系起来,从而完成文本情感分类任务.实验结果表明:与多种文本情感分类方法相比,文中算法具有较高的精度.  相似文献   

11.
合并症预测是典型的多标签分类问题,有效利用标签之间的相关性是提高多标签分类模型精度的关键.针对该问题提出了高血压患者常见合并症的预测模型AR-MLKNN(multi-label k-nearest neighbor based on association rules),首先从不同语义空间的临床概念中构建了患者特征表示,然后通过疾病标签关联信息量化合并症并发关系,并基于样本k邻城内标签的概率分布以后验概率的方式计算样本对每个疾病标签的隶属概率.利用合并症并发关系和疾病标签隶属概率映射形成合并症风险矩阵,基于合并症风险值,根据最小化分类损失的原则动态调整分类阈值以获取最优分类结果.实验结果表明该模型可以对高血压合并症进行较为准确的预测,F1-score达到82%,相较于常规的ML-KNN(multi-label k-nearest neighbor)模型提高了8%,在临床辅助决策领域具有一定的应用价值.  相似文献   

12.
针对ML-GCN中标签共现嵌入维度过高影响模型分类性能和ML-GCN中没有充分发掘标签之间不对称关系的问题,提出一种基于图注意力网络的多标签图像分类模型ML-GAT;ML-GAT模型首先对高维标签语义嵌入矩阵进行降维;然后通过降维后的低维标签语义嵌入表示和标签类别共现图得到标签共现嵌入;与此同时ML-GAT将多标签原始...  相似文献   

13.
多标签分类中,一个样本可能属于多个类别,且在小样本场景下模型性能更容易受到样本中复杂语义特征的影响。然而,目前常用的原型网络方法仅使用每类支持集样本的均值作为标签原型,导致原型中存在其他类别特征带来的噪声,弱化了原型间的差异性,影响预测效果。本文提出一种利用实例级注意力的多标签小样本原型网络分类方法,通过提高支持集中与当前标签关联度高的样本的权重,减少其他标签特征的干扰,增大标签原型之间的区分度,进而提高预测的精确率.实验表明,方法通过引入实例级注意力强化了多标签原型网络的学习能力,分类效果明显提升.  相似文献   

14.
针对当前电力文本分类方法中因忽视类别标签之间潜在语义关联关系而导致分类性能低效的问题,提出一种基于层次化分类模型的电力文本分类方法.首先,利用采集的电力成果非结构化文档,采用自动化信息提取技术和标注技术,构建电力文本多标签分类训练集,并结合领域知识分析,构建类别标签之间的层次化关系.然后,提出基于类别结构和标签语义混合...  相似文献   

15.
提出一种基于关键 $n$-grams 和门控循环神经网络的文本分类模型. 模型采用更为简单高效的池化层替代传统的卷积层来提取关键的 $n$-grams 作为重要语义特征, 同时构建双向门控循环单元(gated recurrent unit, GRU)获取输入文本的全局依赖特征, 最后将两种特征的融合模型应用于文本分类任务. 在多个公开数据集上评估模型的质量, 包括情感分类和主题分类. 与传统模型的实验对比结果表明: 所提出的文本分类模型可有效改进文本分类的性能, 在语料库 20newsgroup 上准确率提高约 1.95%, 在语料库 Rotton Tomatoes 上准确率提高约 1.55%.  相似文献   

16.
针对传统文本分类方法忽略词语间的语义特征的问题,并为了改善输入文本的表示质量,提出一种基于短语结构和词语词性相结合的情感分类方法.该方法首先通过短语结构优化分词,可以更好地提取文本特征;其次利用Word2vec工具训练词语和词性相结合的文本语料库得到词向量模型,解决了Word2vec无法识别一词多义的问题;最后通过SVM算法对文本进行情感分类.实验结果表明,该算法能够提高文本情感分类的正确性.该方法对舆情监控、股票市场行情预测和了解消费者对产品的偏好等具有较高的实用性.  相似文献   

17.
现有大多数多标记流特征选择算法在进行特征选择时,往往忽略标记间的相关性,易导致算法预测精度的下降。为解决这一问题,提出一种结合邻域信息和标记相关性的在线多标记流特征选择算法;定义自适应邻域关系解决邻域粗糙集的粒度选择问题,将其推广到多标记学习中;利用互信息计算标记间的相关性得到标记权重;通过邻域粗糙集和标记权重评估特征和标记间的相关性,并设计特征在线重要度分析、在线相关性分析和在线冗余度分析3种指标,以实现在线评价动态候选特征。在7组多标记数据集以及5个评价指标上的实验结果表明,所提算法综合性能较优。  相似文献   

18.
多标签特征选择能够有效去除冗余特征并提升分类精度, 是解决"维数灾难"问题的有效方法. 然而, 已有的多标签特征选择算法是对所有标签选择出相同的特征, 忽略了标签与特征之间的内在联系. 事实上, 每个标签都具有反映该标签特有属性的特征, 即类属特征. 提出一种基于图拉普拉斯的多标签类属特征选择(multi-label label-specific feature selection based on graph Laplacian, LSGL)算法. 对于每个类别标签, 基于拉普拉斯映射获得数据的低维嵌入, 再通过稀疏正则化获得数据空间到嵌入空间的投影矩阵, 接着通过分析矩阵系数确定每个标签相应的类属特征, 最后使用类属特征进行分类. 在 5 个公共多标签数据集上的多标签特征选择与分类实验结果证明了所提算法的有效性.  相似文献   

19.
单实例多标签分类是指一个样本拥有多个标签的分类问题,对此提出了一种基于半模糊核聚类和模糊支持向量机的多标签分类算法.该算法采用一对一分解策略将多类多标签数据集分解为多个两类双标签数据子集,在每个子集上训练两类双标签模糊支持向量机.为提高分类器的性能引入了半模糊核聚类技术.实验结果表明,与现有的一些算法相比新算法具有其优...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号