首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
为了提高政务领域实体链接任务的准确率,降低响应时间,提出了一种基于伪孪生网络的实体链接模型.模型通过伪孪生网络框架解耦问句和候选实体的特征提取过程,并预先计算候选实体的向量表示,显著地提高了模型在大规模数据集上的性能.同时,通过引入候选实体在知识图谱中的上下文信息,增强实体链接模型的语义匹配能力,从而提高链接准确率.实...  相似文献   

2.
实体链接任务的目的是将文本中的实体指称链接到知识库中与之对应的无歧义实体。针对此任务, 提出一种基于主题敏感的重启随机游走的实体链接方法。该方法首先使用实体指称的背景文本信息将实体指称扩充为全称, 并在维基百科知识库中搜索候选实体, 得到候选实体集合; 根据上述中间结果构建图, 利用在图上的主题敏感重启随机游走得到的平稳分布对候选实体集合进行排序, 选出top 1 的候选实体作为目标实体。实验结果表明, 该方法在KBP2014 实体链接数据集上实验的F 值为0.623, 高于其他系统实验的F值, 能够有效提高实体链接系统的整体性能。  相似文献   

3.
针对现有的融合文本和路径信息的模型未能充分挖掘和利用文本与路径语义的问题,提出了新的知识图谱嵌入学习模型(GETR模型):首先, 利用LDA丰富实体描述文本语义并用TWE获取词和主题向量,采用Bi-LSTM模型把词和主题向量编码融入实体向量表示中,以增强结点的语义表达能力;其次,设计了以组合PageRank和余弦相似度算法为策略的随机游走算法,以获取实体间的多步路径,并利用自注意力机制捕获路径的重要语义融入到翻译模型中进行联合训练,从而达到有效过滤路径中的噪声和提高模型效率的目的.最后,在数据集FB15K、FB20K和WN18上,对GETR、TransE、DKRL、TKGE模型进行知识补全和实体分类任务的评测,结果表明:GETR模型具有更好的性能表现,是一种更加高效的知识表示方法.  相似文献   

4.
提出一种融合实体信息的图卷积神经网络模型(ETGCN),用于短文本分类.首先,使用实体链接工具抽取短文本中的实体;然后,利用图卷积神经网络对文档、实体和单词进行建模,丰富文本的潜在语义特征;将学习到的单词节点表示与BERT词嵌入进行拼接,通过双向长短期记忆网络,进一步挖掘文本上下文语义特征,再与图神经网络模型得到的文本特征进行融合,用于分类.实验结果表明,该模型在数据集AGNews、R52和MR上的分类准确率分别为88.38%、93.87%和82.87%,优于大部分主流的基线方法.  相似文献   

5.
基于用户查询日志的命名实体挖掘的目标是从用户查询日志中挖掘一组具有指定类别的命名实体。为解决已有用户查询日志实体挖掘研究工作中的种子实体不充分的问题,提出了一种基于二部图的半监督排序方法,利用实体之间的关系(实体共享查询模板)来改善实体排序效果。该方法首先基于候选实体和查询模板构建一个二部图,然后基于二部图将种子实体的类别相关性传播到其他候选实体,最后按照类别相关性得分对候选实体进行排序,并进一步给出方法中迭代过程的等价优化框架。实验结果表明本文提出的方法优于基准方法,具有较好的挖掘效果。  相似文献   

6.
针对命名实体识别方法存在字与字之间语义信息丢失、模型召回率不佳等问题,提出了一种跨度语义信息增强的命名实体识别方法。首先,使用ALBERT预训练语言模型提取文本中包含上下文信息的字符向量,并使用GloVe模型生成字符向量;其次,将两种向量进行拼接作为模型输入向量,对输入向量进行枚举拼接形成跨度信息矩阵;然后,使用多维循环神经网络和注意力网络对跨度信息矩阵进行运算,增强跨度之间的语义联系;最后,将跨度信息增强后的矩阵进行跨度分类以识别命名实体。实验表明:与传统的跨度方法相比该方法能够有效增强跨度之间的语义依赖特征,从而提升命名实体识别的召回率;该方法在ACE2005英文数据集上比传统的方法召回率提高了0.42%,并且取得了最高的F1值。  相似文献   

7.
将地理知识融入空间地址,研究空间信息与语义信息融合的知识表示学习方法;将空间地址数据集在TransE模型和TransH模型上进行训练,通过元组分类和向量间距离评估的方法进行对比研究.研究结果表明:(1)在地址实体的表示学习任务中,TransH模型在对复杂关系的建模任务上明显优于TransE模型;(2)在语义知识基础上融入空间关系,能够有效地解决地址实体语义相似而空间距离不相近和空间距离相近而语义不相似的两大问题.语义关系与空间关系的融合,将能够挖掘更多有价值的信息,有利于进一步开展地理知识图谱的补全工作,可为地理知识图谱表示学习提供方法借鉴.  相似文献   

8.
考虑了实体的全局一致性,充分利用了知识库中实体间结构化的语义信息.在PageRank算法的基础上,提出一种基于双向语义关联的实体消歧算法,该算法通过在维基百科中抽取出实体之间的超链接关系构建知识图谱,重新定义两个实体之间的平均最短路径,并联合实体之间的语义信息以完成实体链接消歧的任务.在公开数据集上进行的实验结果显示:该算法能提高实体消歧结果的准确率和召回率,实验结果优于当前主流算法.  相似文献   

9.
跨境民族文本分类任务是跨境民族文化分析中的基础性工作,其目的是将跨境民族文化文本进行归类处理。针对跨境民族文化数据分类面临类别交叉的问题,提出融合领域知识图谱的跨境民族文本分类方法,利用跨境民族文化知识图谱对文本中的跨境民族实体进行语义扩展,通过实体在知识图谱中的类别特征来增强文本的类别语义特征。此外,通过掩码自注意力机制分别对文本的词级、句子级进行特征提取以此得到文本中句子的局部特征和全局特征。实验表明,本文方法在跨境民族文化数据集中相比基线模型的F1值提升了11.9%。  相似文献   

10.
在新闻推荐场景下,传统的基于文本特征的新闻推荐模型只考虑了词的共现关系,无法捕获词语的隐含词义和关联知识;而基于深度学习的推荐模型在融合知识图谱信息中仅仅考虑实体的信息,忽略了远距离实体之间的联系,造成实体之间的关联信息和深层次语义联系的缺失.针对该问题提出了一种基于知识增强的深度新闻推荐网络(deep knowledge-enhanced network,DKEN),利用长短期记忆网络提取知识图谱中的实体路径特征,补充到注意力网络中,然后针对不同的候选新闻动态地构建用户的特征.实验表明该实体路径信息能提高模型的效果,在F1指标上提升大约1%.   相似文献   

11.
命名实体在文本中是承载信息的重要单元,而微博作为一种分享简短实时信息的社交网络平台,其文本长度短、不规范,而且常有新词出现,这就需要对其命名实体进行准确的理解,以提高对文本信息的正确分析。提出了基于多源知识的中文微博命名实体链接,把同义词词典、百科资源等知识与词袋模型相结合实现命名实体的链接。在NLP&CC2013中文微博实体链接评测数据集进行了实验,获得微平均准确率为92.97%,与NLP&CC2013中文实体链接评测最好的评测结果相比,提高了两个百分点。  相似文献   

12.
针对2013年CCF自然语言处理与中文计算会议(NLP&CC2013)中文微博实体链接的任务, 使用CCF提供的新浪微博数据作为训练和测试数据, 利用西南交通大学耶宝智慧中文分词平台作为自然语言预处理工具, 提出一种实体链接的方法。该方法应用改进的拼音编辑距离算法和后缀词表匹配法, 提出实体聚类消歧与基于百度百科词频的同类实体消歧相结合的消歧方法。在2013年CCF 中文微博实体链接评测任务中正确结果的准确率为0.8838, 在10 个参赛队伍中名列第3位。表明该方法有效并可以适应文本中的噪声。  相似文献   

13.
细粒度实体分类是一项多类别多标签任务,能协助广泛的下游任务(关系抽取、共指消解、问答 系统等)提高工作效率、优化准确率,已成为自然语言处理领域的一个研究热点。针对传统的细粒度实体分类方法人工标注大型语料库难度大,准确率偏低等问题,研究人员提出了基于神经网络的细粒度实体分类方 法,不仅能够解决人工标注费时费力的问题,而且可以提高分类的准确率。然而现有的神经网络模型大多需 要远程监督的参与,在此过程中会引入噪声标签等问题,通过噪声标签处理方法能够有效抑制噪声标签对分类结果的影响,进一步提升分类性能。 在相同评测数据集下,根据相同评价指标对比各类细粒度实体分类方 法的性能,可以发现在细粒度实体分类领域中采用 BiLSTM 处理实体指称上下文,并通过注意力机制提取更为重要的特征,有助于提高细粒度实体分类方法的准确率、Macro F1值和 Micro F1值。  相似文献   

14.
针对在实体对齐任务中,由于缺少噪音实体对的标记,导致对齐准确率不高的问题,提出采用健壮性实体对齐(Robust Entity Alignment,REA)方法,设计了噪声感知实体对齐模块和噪声检测模块.首先,噪声感知实体对齐模块是基于图卷积神经网络(Graph Convolutional Networks,GCN)的知识图编码器,将知识图谱中的实体对更新嵌入;然后,基于生成对抗网络(Generative Adversarial Networks,GAN)设计了噪声生成器和噪声鉴别器,从而将实体对中的噪音实体对区分出来;最后,通过一种交互的强化训练策略,迭代使噪声感知和实体对齐相结合.实验结果表明,在DBP15K数据集上测试,新方法能有效提高在涉及噪音情况下的实体对齐精准度,与GCN-Align和IPTransE这些基准嵌入模型相比,Hits@1、Hits@5、MRR 3个评价指标上均有较大的提升.  相似文献   

15.
针对深度卷积生成对抗网络(DCGAN)在小规模手写体汉字数据集下生成数据重复多样、分类效果较差的问题,提出结合传统数据增强方法的结合式生成方法X-DCGAN。该方法通过预增强模块给予神经网络部分更充足多样的训练数据,减少因网络过拟合与训练不充分而出现的样本重复率高、学习效果较差的状况。实验结果表明,本文方法生成的样本数据较单一方法在样本多样性方面显著提高,生成数据进行分类测试时获得的平均识别率较DCGAN方法提升了9.67%。X-DCGAN充分发挥了传统数据增强方法和生成式方法各自的优势,能够更加有效地解决小规模数据集的扩展与增强问题。  相似文献   

16.
针对航空不安全事件领域命名实体识别任务,以航空安全信息周报为数据源,分析并构建航空不安全事件命名实体识别数据集和领域词典。为解决传统命名实体识别模型对于捕获领域实体边界性能较差的问题,基于BERT(bidirectional encoder representations from transformers)预训练语言模型提出融合领域词典嵌入的领域语义信息增强的方法。在自建数据集上进行多次对比实验,结果表明:所提出的方法可以进一步提升实体边界的识别率,相较于传统的双向长短期记忆网络-条件随机场(bi-directional long short term memory-conditional random field, BiLSTM-CRF)命名实体识别模型,性能提升约5%。  相似文献   

17.
在数据匮乏的领域,命名实体识别效果受限于欠拟合的字词特征表达,引入常规的多任务学习方法可以有所改善,但需要额外的标注成本.针对这一问题,提出了一种基于多粒度认知的命名实体识别方法,在不产生额外标注成本的前提下,增强字特征信息,提高命名实体识别效果.该方法从多粒度认知理论出发,以BiLSTM和CRF为基础模型,将字粒度下的命名实体识别任务与句子全局粒度下的实体数量预测任务相联合,共同优化字嵌入表达.三个不同类型的数据集上的多组实验表明,引入多粒度认知的方法有效地提升了命名实体识别效果.  相似文献   

18.
彭柏程  张安勤  张挺 《广西科学》2023,30(1):121-131
随着信用卡和个人贷款业务在金融业的快速增长,如何在信息有限的情况下检测潜在违约或坏账业务已经变得极其重要。信用评分领域面临的主要困难是样本不平衡以及分类器性能不佳,为此本研究首先提出了一种基于表格数据的生成对抗网络Tab-GAN,从原始数据中生成足够的违约样本;随后设计了一种基于CNN-LSTM的混合深度学习模型用于特征提取,该模型包含卷积神经网络(Convolutional Neural Networks,CNN)和长短期记忆神经网络(Long Short-Term Memory,LSTM)两个子模型,分别从用户数据中提取静态局部特征和动态时间特征,并加入时空注意力模块对模型的输出进行重要度计算,从而抽取更关键的信息;最后在分类器层面引入焦点损失函数改进轻量级梯度提升机(Light Gradient Boosting Machine,LightGBM)分类器,实现违约风险的概率输出。在两个真实世界数据集中验证风险预测模型,实验结果表明生成对抗网络可以有效解决样本不平衡问题,CNN-LSTM+LightGBM模型在各项分类评价指标上均优于信用评分领域的其他先进算法,证明了该模型在信用评分领域的有效性和可移植性。  相似文献   

19.
针对自然语言处理(Natural Language Processing, NLP)任务中,命名实体识别(Named Entity Recognition, NER)存在实体类别样本不平衡的问题,提出一种基于改进损失函数的实体类别平衡优化算法。新算法是对神经网络模型中的损失函数进行优化处理,通过分析命名实体识别数据特点,在平衡正负样本的基础上引入平滑系数和权重系数,保证模型在梯度传递的过程更关注于实体类别较少和带有嵌套的难识别样本,同时减少对样本数较多的、易识别样本的关注。利用公共数据集ACE05、MSRA进行实验对比,结果表明改进的损失函数在数据集ACE05和MSRA上,F1值分别提高1.53%和0.91%。上述结果表明改进的损失函数能够较好地缓解实体中正负难易样本的不平衡。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号