首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在字面相同语义不同和字面不同语义相同的情况下,短文本匹配往往不能准确地得到语句间语义的相似程度。针对这一问题,提出一种融合语境语义差异特征的短文本匹配模型。该模型以BERT系列的语言模型作为基础匹配模型,采用一种新的Diff Transformer结构作为差异特征提取器,并以门控方式融合基础语义表示和差异特征表示来提升匹配效果。在中文测试数据集上的实验结果表明,所提出的模型可以达到先进模型的效果。  相似文献   

2.
钟维幸  王海荣  王栋  车淼 《广西科学》2022,29(4):681-690
针对现有多模态命名实体识别(Multimodal Named Entity Recognition, MNER)研究中存在的噪声影响和图文语义融合不足问题,本文提出一个多模态语义协同交互的图文联合命名实体识别(Image-Text Joint Named Entity Recognition, ITJNER)模型。ITJNER模型加入图像描述作为额外特征丰富了多模态特征表示,图像描述可以帮助过滤掉从图像特征中引入的噪声并以文本形式总结图像语义信息;还构建了多模态协同交互的多模态语义融合模型,可以加强多模态信息融合,并减少图像信息的语义偏差。在Twitter-2015和Twitter-2017数据集上进行方法实验,分析实验结果并与AdaCAN、UMT、UMGF、Object-AGBAN等方法进行对比。相较于对比方法中的最优方法UMGF,本方法在Twitter-2017数据集上的准确率、召回率、F1值分别提高了0.67%、2.26%、0.93%;在Twitter-2015数据集上,召回率提高了0.19%。实验结果验证了本方法的有效性。  相似文献   

3.
为提高机器人在不同家庭环境下的服务任务执行能力,提出一种环境适应性服务策略生成方法,可生成以当前环境物品信息为主导的服务策略.首先,利用词频-逆文本频率(TF-IDF)算法构建服务指令集、关键字序列集与服务策略数据集;然后,对无规则自然语言指令进行语义解析与组块分析,分解映射至结构化服务指令以简化语义空间,获取对应待选关键字序列;最后,对包含当前家庭环境信息的Protégé本体知识库进行匹配、推理,获得服务关键字序列,引导经服务策略数据集微调的GPT-2模型生成适应性服务策略.实验结果表明:该方法能够提高服务策略生成的准确性,且最终生成的策略在具体家庭环境下具有更高的可行性.  相似文献   

4.
为了提高政务领域实体链接任务的准确率,降低响应时间,提出了一种基于伪孪生网络的实体链接模型.模型通过伪孪生网络框架解耦问句和候选实体的特征提取过程,并预先计算候选实体的向量表示,显著地提高了模型在大规模数据集上的性能.同时,通过引入候选实体在知识图谱中的上下文信息,增强实体链接模型的语义匹配能力,从而提高链接准确率.实...  相似文献   

5.
文档级关系抽取旨在从文档中抽取出多个实体对之间的关系,具有较高的复杂性。针对文档级关系抽取中的多实体、关系相关性、关系分布不平衡等问题,提出了一种基于注意力机制(Attention)语义增强的文档级关系抽取方法,能够实现实体对之间关系的推理。具体来说,首先在数据编码模块改进编码策略,引入更多实体信息,通过编码网络捕获文档的语义特征,获得实体对矩阵;然后,设计了一个基于Attention门控机制的U-Net网络,对实体对矩阵进行局部信息捕获和全局信息汇总,实现语义增强;最后,使用自适应焦点损失函数缓解关系分布不平衡的问题。在4个公开的文档级关系抽取数据集(DocRED、CDR、GDA和DWIE)上评估了Att-DocuNet模型并取得了良好的实验结果。  相似文献   

6.
互联网的发展带动了电商等应用的普及,产生了大量具有临时匹配性质的服务。这些服务需要考虑任务的类型与人员具备技能的匹配,同时最小化匹配对象间的路程开销。针对以上实际需求,提出了空间关键字任务匹配问题,给定具有空间位置及关键字的任务集与成员集,在所有任务均可完成的前提下,使所有匹配的任务与成员的距离之和最小。所提出的问题考虑了任务由不同的关键字表示,由于任务和成员数量的海量性及关键字的多样性使得高效求解高质量的匹配结果成为挑战。该文提出了k近邻增量优化策略,引入关键字设计了k近邻空间关键字任务匹配算法,提高了任务匹配质量;提出了基于空间划分的分组优化匹配算法,以适应海量数据的任务匹配情况。针对真实数据集进行了充分测试,验证了算法的有效性。  相似文献   

7.
针对XML文档半结构化的特点及传统tf\|idf方法仅考虑关键字在文档中出现的频率, 而未考虑XML文档中节点的语义信息问题, 利用向量空间模型, 设计一种基于XML关键字查询结果的相关度排序策略. 相关度计算充分考虑XML文档中各节点对文档的区分程度、 节点描述文档的明确程度及节点描述文档的直接程度, 以提高节点权重度量的准确性, 从而将最相关的信息提供给用户, 经DBLP数据集实验验证了该方法的有效性.  相似文献   

8.
尽管将BERT运用在Ad-hoc文档检索领域能够提升任务精确度,但也存在两个显著缺陷:第一,由于BERT存在输入限制,对长文档进行截断会导致文档信息丢失;第二,Ad-hoc文档检索任务的数据集中存在相当数量的领域特定词,而BERT不能较好地学习这些特定词的特征.而利用LDA主题模型不存在输入限制,可以表示完整的语义信息的优点,将其引入联合增强模型,且对文档中的领域特定词及语义内涵进行学习表征,弥补了BERT模型的不足.为此提出RWT-BERT联合增强模型通过对BERT和LDA主题模型的表征构建交互网络,对查询语句和长文档进行更深层次的特征挖掘.实验结果表明:该模型在3个数据集的主要指标上都有不同程度的提升,尤其在Core17数据集上,与目前效果最好的句子级Ad-hoc文档检索模型Birch相比,nDCG@20指标提高了4.01%.  相似文献   

9.
基于指纹和语义特征的文档复制检测方法   总被引:1,自引:0,他引:1  
文档复制检测是保护知识产权、提高信息检索效率的有效手段.提出一种基于指纹和语义特征的文档复制检测方法.介绍了指纹提取算法以及相关的重叠度度量,并且以知网的概念描述为基础对文本进行语义分析,利用词类信息和语义规则进行歧义消解,并采用基于框架的层级表示方法描述句子的语义特征.在3种测试集上把该方法与现存的方法在检测准确率上进行比较,实验结果表明该方法能够有效地检测出各种方式的复制文本.  相似文献   

10.
提出了一种基于字面相关性匹配和语义相关性匹配的深度神经网络模型,用来计算信息检索中查询和文档的匹配得分。字面相关性匹配模型基于查询和文档之间的词共现矩阵,主要考虑查询和文档的字面匹配信息以及匹配词的位置信息;语义相关性匹配模型基于预训练的词向量,进一步通过卷积神经网络提取查询和文档之间不同位置的语义匹配信息,最后的匹配得分是这两个子模型的叠加。损失函数采用hinge loss,通过最大化正负样本之间的分数差来更新参数。实验结果表明,模型在验证集上的NDCG@3和NDCG@5分别可以达到0.790 4和0.818 3,相对于BM25以及单个的字面匹配或者语义匹配模型来说都有很大的提升,这也验证了字面匹配和语义匹配对于信息检索的重要性。  相似文献   

11.
针对信息与通信技术(information and communication,ICT)项目及产品数据种类多、形式复杂,难以提取其语义匹配信息,且现有句子级文本匹配模型对不同长度文本无差别编码会引入噪声导致匹配效果差的问题,本文提出一种融合局部和全局特征的实体-文档级联合匹配模型,利用TextCNN编码器提取实体级招投标项目和产品名称的局部信息,消除产品描述中与招投标项目无关信息的影响,再利用卷积-自注意力编码器提取文档级产品描述的局部和全局信息,最后结合实体级和文档级匹配信息进行决策.实验结果表明,招投标项目与供应商产品匹配映射准确率92%以上,方法可直接实际应用.   相似文献   

12.
针对关系分类主流模型中存在的空间信息丢失和旋转不变性差的缺点,提出一个基于BERT和多头注意机制-胶囊网络(MA-CapsNet)的算法模型.该模型首先在句子的实体两端插入特殊符号,增强模型对实体信息的表示能力,再通过预训练的BERT语言模型获得包含上下文信息的语义向量表示,然后传入改进后的注重空间位置信息的胶囊网络中学习句子的语义特征并分类.同时引入多头注意力机制进一步提升模型的分类效果.在SemEval-2010 task 8关系分类数据集上,该算法模型取得了90.15%的宏F值.实验表明该模型架构能强化对句子语义特征的捕捉,改善关系分类任务的分类效果.  相似文献   

13.
基于主题注意力层次记忆网络的文档情感建模   总被引:2,自引:0,他引:2  
针对文档水平情感分析传统模型存在先验知识依赖以及语义理解不足问题,提出一种基于注意力机制与层次网络特征表示的情感分析模型TWE-ANN.采用基于CBOW方式的word2vec模型针对语料训练词向量,减小词向量间的稀疏度,使用基于Gibbs采样的LDA算法计算出文档主题分布矩阵,继而通过层次LSTM神经网络获取更为完整的文本上下文信息从而提取出深度情感特征,将文档主题分布矩阵作为模型注意力机制提取文档特征,从而实现情感分类.实验结果表明:提出的TWE-ANN模型较TSA、HAN模型分类效果较好,在Yelp2015、IMDB、Amazon数据集上的F值分别提升了1.1%、0.3%、1.8%,在Yelp2015和Amazon数据集上的RMSE值分别提升了1.3%、2.1%.  相似文献   

14.
文档级实体关系抽取的主要任务是提取文档中实体之间的关系.相较于句内实体关系提取,文档级实体关系抽取需要对文档中多个句子进行推理.为了解决文档中不同实体之间的复杂信息交互问题,提出一个混合提及级图MMLG (Mixed Mention-Level Graph)策略,用于拟合文档中不同实体之间的复杂信息交互,提高模型对于文档级实体关系的感知能力.此外,为了应对实体关系中存在的关系重叠问题,构建了实体关系图ERG (Entity Relation Graph)模块,该模块融合了路径推理机制,主要针对实体间的多个关系路径进行推理学习,更准确地识别提及级节点实体及关系.通过将MMLG策略与ERG模块聚合到实体关系抽取模型中,构建BoBGSAL-Net (Based on Bipartite Graph Structure Aggregate Logic Network)模型,并在公开数据集DocRED和作者实验室构建的数据集AlSiaRED上开展实验,结果证明BoBGSAL-Net在文档级实体关系抽取任务中性能得到提升,其中BoBGSAL-Net+BERT模型在AlSiaRED数据集上的关系抽取...  相似文献   

15.
基于双重注意力模型的微博情感分析方法   总被引:1,自引:0,他引:1  
微博情感分析是获取微博用户观点的基础。该文针对现有大多数情感分析方法将深度学习模型与情感符号相剥离的现状,提出了一种基于双重注意力模型的微博情感分析方法。该方法利用现有的情感知识库构建了一个包含情感词、程度副词、否定词、微博表情符号和常用网络用语的微博情感符号库;采用双向长短记忆网络模型和全连接网络,分别对微博文本和文本中包含的情感符号进行编码;采用注意力模型分别构建微博文本和情感符号的语义表示,并将两者的语义表示进行融合,以构建微博文本的最终语义表示;基于所构建的语义表示对情感分类模型进行训练。该方法通过将注意力模型和情感符号相结合,有效增强了对微博文本情感语义的捕获能力,提高了微博情感分类的性能。基于自然语言处理与中文计算会议(NLPCC)微博情感测评公共数据集,对所提出的模型进行评测,结果表明:该模型在多个情感分类任务中都取得了最佳效果,相对于已知最好的模型,在2013年的数据集上,宏平均和微平均的F1值分别提升了1.39%和1.26%,在2014年的数据集上,宏平均和微平均的F1值分别提升了2.02%和2.21%。  相似文献   

16.
探讨了针对概率XML文档集中与内容相关的关键字检索结果的排序问题,针对概率XML文档的特征提出了一种新的排序模式.与仅取决于检索结果概率的检索排序算法不同,本文提出的排序算法充分考虑了节点对文档的区分程度、节点描述文档的程度,以及XML文档本身的结构特性,设计了满足以上特征的检索结果排序模型,并针对排序模型提出了新的倒排索引结构.新的排序算法可以快速完成关键字检索,并将最相关的信息提供给用户.模拟数据集实验验证了该方法的有效性.  相似文献   

17.
医疗文本具有实体密度高、句式冗长等特点,简单的神经网络方法不能很好地捕获其语义特征,因此提出一种基于预训练模型的混合神经网络方法。首先使用预训练模型获取动态词向量,并提取实体标记特征;然后通过双向长短期记忆网络获取医疗文本的上下文特征,同时使用卷积神经网络获取文本的局部特征;再使用注意力机制对序列特征进行加权,获取文本全局语义特征;最后将实体标记特征与全局语义特征融合,并通过分类器得到抽取结果。在医疗领域数据集上的实体关系抽取实验结果表明,新提出的混合神经网络模型的性能比主流模型均有提升,说明这种多特征融合的方式可以提升实体关系抽取的效果。  相似文献   

18.
提出一种基于双重匹配注意力网络的方法.先用动态匹配机制迭代综合获取全局观点信息,同时利用多维度匹配机制在不同特征空间上计算全局语义信息,然后交互式多路注意力机制通过两路注意力之间的交互计算对上述全局的观点与语义信息进行融合,最后与选项表示结合预测答案的观点倾向.在观点型阅读理解数据集ReCO和Dureader上面的实验表明,该方法相对于基准模型在准确率上提升了1.18%和0.84%,在加权宏F1上提升了1.16%和0.75%.  相似文献   

19.
基于知识图谱的推荐方法是推荐系统的研究热点之一,利用用户历史行为及物品特征在知识图谱结构化表示数据的辅助下解决推荐系统数据稀疏性及冷启动问题。但是用户的兴趣易受特定物品所影响,而知识图谱以结构化形式存储数据,实体与实体之间仅存在链路关系,这就导致了单纯利用知识图谱的推荐方法在点击率预测方面性能较差。基于此,提出一种基于局部影响力与深层偏好传播的推荐方法(local influence and deep preference propagation, LIDP),充分利用知识图谱结构化数据在偏好传播中存在实体影响力的优点。LIDP模型首先对知识图谱逐层偏好传播获取数据影响力权重并根据所获数据权重进行局部影响力计算;其次对局部影响力进行用户历史行为的兴趣增强表示进而获取用户表示;最后对用户表示与物品的向量表示进行内积操作以获取最终交互概率。LIDP模型在MovieLens-1M数据集上相比最优基准模型GNRF,AUC、ACC、MAE和F1值分别提高了0.16%、0.52%、0.87%、0.21%;在Book-Crossing数据集上,这些提升分别为0.45%、2.14...  相似文献   

20.
为使用户在电子病历中的检索更贴近用户意图,提出用图结构来表示电子病历数据的研究方法。根据电子病历所具有的实体和属性联系与图的拓扑结构类似的特性,首先将电子病历数据和检索图结构化;将EMRSearch算法与EMR-Tree索引结合,并引入新的Upper bound模型进行裁剪;然后进行匹配,最后将匹配得到的结果集通过Sort Diversity算法进行多样性重排序。实验结果表明,该方法不仅可以提高用户检索效率,还可以提高用户搜索满意度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号