首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
多标签文本分类是自然语言处理领域的重要任务之一.文本的标签语义信息与文本的文档内容有紧密的联系,而传统的多标签文本分类方法存在忽略标签的语义信息以及标签的语义信息不足等问题.针对以上问题,提出一种融合标签嵌入和知识感知的多标签文本分类方法 LEKA (Label Embedding and Knowledge-Aware).该方法依赖于文档文本以及相应的多个标签,通过标签嵌入来获取与标签相关的注意力.考虑标签的语义信息,建立标签与文档内容的联系,将标签应用到文本分类中.另外,为了增强标签的语义信息,通过知识图谱嵌入引入外部感知知识,对标签文本进行语义扩展.在AAPD和RCV1-V2公开数据集上与其他分类模型进行了对比,实验结果表明,与LCFA (Label Combination and Fusion of Attentions)模型相比,LEKA的F1分别提高了3.5%和2.1%.  相似文献   

2.
多标签算法大多利用特征与标签嵌入等方法挖掘标签空间的语义信息,但这类方法没有利用特征与标签间可能存在的某种联系.类属属性的提出较好地诠释了特征与标签的联系,即标签可能对应一组自身的特征,然而这类方法未能给出特征与标签间可能存在的逻辑关系,也未证实标签与实例间可能存在同样的逻辑关系.因此,提出基于PLSA(Probabilistic Latent Semantic Analysis)学习概率分布语义信息的新型多标签分类算法.首先认为样本矩阵存在一种隐含变量作为标签,利用PLSA模型获取特征-标签与标签-实例条件概率分布矩阵,以条件概率分布的形式解释它们之间可能存在的联系;其次,建立模型学习概率分布矩阵中存在的语义信息,并应用于多标签算法的标签预测与分类;最后在13个公开的多标签文本类型的数据集上进行实验与统计假设检验,并与其他多标签分类算法对比.实验结果表明,提出的学习概率分布语义信息用于提高多标签算法的性能存在一定的合理性.  相似文献   

3.
针对目前大多数非分类关系抽取方法忽略词性和部分局部特征的问题,提出融合词性信息和注意力机制的BiLSTM模型.利用预训练词向量和词性标注工具,将舆情信息语义词向量和词性词向量作为BiLSTM的输入来获取句子高维语义特征,解决长距离依赖问题.利用词语层注意力机制计算2个概念与上下文词语的相关性,获取句子的上下文语义信息.通过构建句子层的注意力来降低噪声数据的权重,减少错误标签的干扰,进而完成舆情本体概念间非分类关系的抽取.最终在新闻网站上抽取11227条数据进行了验证.结果表明,该方法的精确率(P)和召回率(R)相比于其他方法更好地实现了非分类关系的抽取,验证了该方法的有效性.  相似文献   

4.
针对面向实际应用场景中数据标签易残缺导致有监督多标签分类方法可用训练数据量减少,未能利用大量标签缺失数据中蕴含的样本特征空间关联知识以最大化判别间隔,限制多标签分类效果等问题,本文提出一种融合样本相似性的弱监督多标签分类方法.该方法利用标签相关性和样本相似性恢复标签以提高数据利用率,并将标签恢复嵌入到训练过程中以便挖掘标签相关性,通过近端加速梯度法进行参数优化,建立弱监督学习场景的多标签分类模型.在真实数据集上的实验结果表明,该方法能够利用样本相似性有效提升模型在标签残缺时的分类能力,实用价值大.   相似文献   

5.
为了将标签间的语义相关性引入多标签图像分类模型中,传统的方法例如 ML-GCN 通过设置单阈值将标 签条件概率矩阵二值化为标签共现矩阵,然而,仅设置单阈值很难归纳所有的标签语义关系情况。 针对这一问题, 提出一种融合标签间强相关性的多标签图像分类方法—MGAN(Multiple Graph Convolutional Attention Networks), 通过设置多个阈值,将传统的标签条件概率矩阵按照不同的相关性程度分割为多个子图;同时,为了提升多标签分 类性能,也引入图像区域空间相关性。 另外,针对传统的“CNN+GCN”方法将标签与特征的融合张量视为预测分数 缺乏可解释性问题,将标签与特征的融合张量视为注意力分数;在 MS-COCO 和 PASCAL VOC 数据集上与其他主 流多标签图像分类方法进行了对比实验,平均准确率分别达到了 94. 9%和 83. 7%,相较于经典 ML-GCN 模型,分 别获得了 0. 9%和 0. 8%准确率提升,且在“Binary”和“Re-weighted”邻接矩阵模式下,MGAN 都有较好的表现,验证 了新的融合方法可以缓解图卷积神经网络过平滑问题对多标签图像分类的影响。  相似文献   

6.
多标签文本分类任务存在难以从文本信息中提取标签关联的判别特征,建立标签相关性困难等问题。现有方法主要采用基于RNN的序列生成模型来建立标签高阶相关性,但缺乏对文本语义信息的充分利用。为此文章提出基于Transformer解码器的序列生成模型,使用标签嵌入作为查询,通过其多头自注意力机制建立标签之间的高阶相关性,并利用多头交叉注意力子层从文本信息中自适应地聚合标签相关的关键特征。文章的注意力权重可视化实验表明,序列生成Transformer在建立标签相关性的同时,能够更全面、更深层次地考虑文本和标签之间的语义相关性。与传统RNN类模型相比,序列生成Transformer在分类任务中兼具有效性和可解释性,并在AAPD和SLASHDOT两个数据集上取得了更优的结果。在AAPD数据集上分别取得了70.49%的Instance-F1值和52.04%的Label-F1值,比以往分类效果最好的set-RNN模型分别高1.44%和1.83%。  相似文献   

7.
提出一种基于双重匹配注意力网络的方法.先用动态匹配机制迭代综合获取全局观点信息,同时利用多维度匹配机制在不同特征空间上计算全局语义信息,然后交互式多路注意力机制通过两路注意力之间的交互计算对上述全局的观点与语义信息进行融合,最后与选项表示结合预测答案的观点倾向.在观点型阅读理解数据集ReCO和Dureader上面的实验表明,该方法相对于基准模型在准确率上提升了1.18%和0.84%,在加权宏F1上提升了1.16%和0.75%.  相似文献   

8.
为了从文本中可以更加准确地分析其蕴含的内容,给人们的生产生活提供建议,在基于深度学习的传统多标签分类方法的基础上,提出一种融合多粒度特征和标签语义共现的多标签分类模型。该模型利用双向长短时记忆网络双向长短时记忆网络(bidirectional long short-term memory network, Bi-LSTM)提取多粒度的文本特征,获得不同层次的文本特征;并通过计算pmi的方式构建标签关系图,利用图卷积网络(graph convolution network, GCN)深入提取标签的隐藏关系,获得具有标签信息的文本表示;最终融合多粒度文本特征,进行多标签文本分类。在AAPD和news数据集上进行实验。结果表明:所提出模型的Micro-F1值分别达到0.704和0.729,验证了模型的有效性。  相似文献   

9.
针对诉讼案件违法事实要素抽取效果依赖领域专业知识的特点,提出一种基于transformer双向编码器表示(bidirec-tional encoder representations from transformer,BERT)的诉讼案件违法事实要素自动抽取方法.首先,通过构建领域知识并采用谷歌BERT预训练语言模型进行训练得到拟合诉讼案件领域数据的模型参数和中文预训练字嵌入向量作为模型的输入,得到具有上下文相关的语义表示,以提高词嵌入的上下文语义质量.其次,采用循环卷积神经网络对文本进行编码并获取在文本分类任务中扮演关键角色的信息,提升案件违法事实要素抽取的效果.最后,采用focal函数作为损失函数关注难以区分的样本.违法事实要素抽取的工作是通过对文本标签进行分类得到的.实验测试表明,该方法对诉讼案件要素抽取的F1值为86.41%,相比其他方法性能均有提高.对模型注入领域内知识,也可以提高模型抽取准确率.  相似文献   

10.
提出一种融合视觉特征及标签一致性的多标签图像标注方法VTC-KSVD.首先通过K均值奇异值分解(KSVD)法建立图像的标签一致性模型TC-KSVD,然后将多视图特征融合在该模型中.该方法既利用了训练样本的类标与编码系数的判别式模型,又利用了训练样本的标签与编码系数的关系,增加了字典的判别性,提高了标注性能.在Corel5K数据集上的实验结果表明,融合了多视图视觉特征与标签一致性的VTC-KSVD方法可以较为准确地找到视觉特征与语义特征均相似的图像近邻,能明显提升多标签图像的标注性能,并能有效缓解训练数据有限而引起的稀疏性问题.   相似文献   

11.
郑洁  黄辉  秦永彬 《广西科学》2023,30(1):71-78
刑期预测模型利用自然语言处理技术自动预测当前案件的建议刑期,对提高司法工作效率,维护司法审判的公平与公正,以及实现同案同判具有重要意义。现有的研究通常采用基于预训练语言模型的方法进行刑期预测建模,但由于存在裁判文书文本较长、专业性强及部分案由标注数据不足等问题,刑期预测任务依然具有较强的挑战性。针对上述问题,本文提出了基于带噪预训练的刑期预测方法。首先,根据刑期预测任务的特点,设计了融合罪名信息的刑期预测模型;其次,结合遮蔽语言模型(Masked Language Model,MLM)任务和自蒸馏策略减少刑期预测任务预训练数据中噪声的影响;最后,改进RoBERTa-wwm模型中的位置嵌入,增强模型的长文本建模能力。实验结果表明,本文提出的预训练方法能够极大地提升刑期预测任务的准确率,在小样本条件下也具有很好的表现。  相似文献   

12.
提升国家治理体系与治理能力的现代化水平反映在刑事司法领域不仅仅要求司法独立,更要求正确适用刑事法律、法规,规范行使刑法司法解释权。有权机关在行使刑法司法解释权时应严格把握刑法司法解释的司法权能,防止其越位立法,明确刑法司法解释遵循从旧兼从轻的时间效力,彰显刑法谦抑的精神品格,防范突破罪刑法定宪纲性的原则要求。只有刑法得以被正确的适用,才能真正将刑法抽象的正义与公平转化为现实的正义与公平。  相似文献   

13.
传统的跨语言信息检索存在翻译映射准确度低和查询扩展后语义偏离等问题。为此提出结合统计学和 本体论的方法构建多语言信息检索模型,通过使用统计翻译解决翻译映射歧义问题,使用多本体BabelNet 等减 少语义关联度损失。由于本体包含大量概念联系,因此使用本体作为语义层表示设计了语义权重算法,并将其 构建在BM25F 统计信息检索模型上作为用户反馈的排序算法。最后根据建立的模型设计实现了多语言信息检 索原型系统,并用基于爬虫技术获取的数据测试集对模型进行测试,实验结果表明,该模型平均查准率高于传 统的基于机器翻译的信息检索模型。  相似文献   

14.
在洗钱犯罪刑事立法上,德国刑法和我国刑法在立法步伐的早晚、“洗钱罪”范围的界定、洗钱记录构成要件的规定以及洗钱犯罪的处罚等各个方面,体现出立法技术、立法体系成熟度的差异与利弊。  相似文献   

15.
通过对浙江基层环保部门执法人员、司法人员关于环保执法和司法公正性的调查问卷分析。认为实施重典治污,建立环境信息公开制度和环境民事纠纷特殊诉讼制度是法院有效办理环境污染纠纷案件的根本途径:建立有效的环保法,应强调法律法规的可操作性以及与民法和刑法相关法条的协调;加强浙江环保执法公正性应加大污染环境的监管和处罚力度,对环保与非环保企业实行有差别的税收、土地、信贷等政策,保障足够的环保资金的投入,建立各部门对环境与资源决策的协调机制,彻底斩断企业与政府部门以及主要领导之间的利益瓜葛等。  相似文献   

16.
陈可嘉  刘惠 《科学技术与工程》2021,21(29):12631-12637
针对文本分类中文本数据表示存在稀疏性、维度灾难、语义丢失的问题,提出一种基于单词表示的全局向量(global vectors for word representation, GloVe)模型和隐含狄利克雷分布(latent Dirichlet allocation, LDA)主题模型的文本表示改进方法。利用GloVe模型结合局部信息和全局词语共现的统计信息训练得到文本的稠密词向量,基于LDA主题模型生成文本隐含主题和相应的概率分布,构建文本向量以及基于概率信息的主题向量,并计算两者之间的相似性作为分类器的输入。实验结果表明,相比其他几种文本表示方法,改进方法在精确率、召回率和F_1值上均有所提高,基于GloVe和LDA的文本表示改进方法能有效提升文本分类器的性能。  相似文献   

17.
开放知识网络中概念语义关联度计算是一个重要的问题.吸取蚁群算法思想中的信息素策略,并以融入了该策略的随机游走作为关联度计算的基本框架,将信息素分布作为语义关联紧密程度的判定依据,提出一种基于随机游走的语义关联度计算方法,以显性方式呈现语义关联度的计算探索过程.该算法主要包含路径选择模型(PSM)和语义关联度计算模型(SRCM)两部分.PSM用于指定游走代理在游走过程中的路径选择、信息素释放过程;SRCM利用游走代理反馈的信息进行语义关联度的计算.实验结果表明,该算法能够在线性复杂度下实现语义关联度的计算,扩展了语义关联度计算的可行策略.  相似文献   

18.
法治理念是推动社会法治化进程,保证依法治国的精神动力,是人们对法治本质及其规律的理性认识与整体把握而形成的一系列理性的基本观念,是对法律精神的理解和对法律价值的解读而形成的一种认知模式。文章认为,通过完善立法、推进公平司法、依法行政以及加大普法宣传力度,增强民众的法律意识,从而提升整个西藏社会的法治理念,构建平安和谐的西藏。  相似文献   

19.
为了解决分布式词表示方法因忽略词语情感信息导致情感分类准确率较低的问题,提出了一种融入情感信息加权词向量的情感分析改进方法。依据专属领域情感词典构建方法,结合词典和语义规则,将情感信息融入到TF-IDF算法中,利用Word2vec模型得到加权词向量表示方法,并运用此方法对采集到的河北省旅游景点的评论文本与对照组进行对比实验。结果表明,与基于分布式词向量表示的情感分析方法相比,采用融入情感信息加权词向量的改进方法进行情感分析,积极文本的准确率提高了6.1%,召回率提高了6.6%,F值达到了90.3%;消极评论文本的准确率提高了6.0%,召回率提高了7.2%,F值达到了89.6%。因此,融入情感信息加权词向量的情感分析改进方法可以有效提高评论文本情感分析的准确率,为用户获得更为准确的评论观点提供参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号