首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 43 毫秒
1.
针对关系抽取任务中文本特征提取不充分及核心词表现弱的问题,提出了一种多特征注意力卷积神经网络的实体关系抽取方法.利用位置、词性及实体标签作为输入特征,充分捕获文本信息,构建注意力模型,获得单词与目标实体之间的相关性,并将注意力机制与卷积神经网络相融合以进行关系预测.以新疆旅游领域为研究对象,总结归纳15种实体关系.采用...  相似文献   

2.
针对现有基于内容的推荐方法中存在的知识利用不充分问题,提出了一种融合关系抽取的推荐系统,在用word2vec模型对物品知识进行编码的基础上,用补充模板特征的关系抽取模型对物品知识进行了更深层次的挖掘,构建了增强知识图谱,进而获得增强实体特征,与文本特征、基础实体特征融合后构建物品特征. 实验证明,融合关系抽取的推荐系统推荐效果优于同类模型,并且各个部分的改进都是有效的.   相似文献   

3.
基于EKEL的影评挖掘分析方法是从影评文本中自动获取电影基本知识与评价知识的一种数据挖掘方法.同时该方法是一种结合文法与本体的知识抽取方法,把设计好的影评文法体系与EKEL系统结合,形成一个文本知识挖掘系统,可以有效且准确地抽取影视领域中的基本知识与评价知识.首先设计影评文法,研究设计方法及设计原则,同时结合EKEL系统,对获取到的影评文本语料进行挖掘并分析,产生EKEL分析树,然后对EKEL分析树进行深入分析及后处理.接着进行影评挖掘实验,分析精确率和召回率,并总结本文所研究知识抽取方法的有效性.最后,并对该方法的通用性进行了展望.  相似文献   

4.
实体关系抽取是信息抽取的重要组成部分.描述了一种融合多信息的实体语义关系抽取方法,充分利用中文的各种特征和信息来提高关系抽取的性能.该方法主要结合特征向量和树核函数两种方法;特征向量表示了文本的语言信息,树核方法表示了文本的结构化信息.并且在2005年的自主内容抽取(automatic content extraction,ACE)基准语料上进行关系检测和6个关系大类抽取的实验.实验结果表明,该方法能识别出大部分的非关系实例,各种关系类型识别的精确率和召回率也有一定提高.  相似文献   

5.
关系抽取是许多信息抽取系统中的一个关键步骤, 旨在从文本中挖掘结构化事实. 在应用传统的远程监督方法完成实体关系抽取任务时存在 2 个问题: ① 远程监督方法将语料库中的文本与已标注实体和实体间关系的知识库启发式地对齐, 并将对齐结果作为文本的标注数据, 这必然会导致错误标签问题; ② 目前基于统计学的方法过于依赖自然语言处理工具, 提取特征处理过程中生成的噪声积累严重影响抽取结果. 为了解决远程监督存在的弊端, 提出了一种基于注意力机制的端到端的分段循环卷积神经网络(convolutional neural network, CNN)模型. 为了检测更加细微的特征, 在网络输入层添加了注意力机制, 自动学习句子中与关系抽取相关的内容; 基于位置特征和词向量特征对句子进行编码, 并使用分段卷积神经网络(piecewise CNN, PCNN)抽取句子特征进行分类, 在网络中使用了效率较高的最大边界损失函数来衡量模型的性能. 该方法在 New York Times (NYT)数据集上的准确率比经典的 PCNN+MIL 模型提高了 2.0%, 比经典的 APCNN+D 模型提高了 1.0%, 与其他几种基线模型相比, 该模型准确率表现出色.  相似文献   

6.
文本数据中的实体和关系抽取是领域知识图谱构建和更新的来源.针对金融科技领域中文本数据存在重叠关系、训练数据缺乏标注样本等问题,提出一种融合主动学习思想的实体关系联合抽取方法.首先,基于主动学习,以增量的方式筛选出富有信息量的样本作为训练数据;其次,采用面向主实体的标注策略将实体关系联合抽取问题转化为序列标注问题;最后,基于改进的BERT-BiGRU-CRF模型实现领域实体与关系的联合抽取,为知识图谱构建提供支撑技术,有助于金融从业者根据领域知识进行分析、投资、交易等操作,从而降低投资风险.针对金融领域文本数据进行实验测试,实验结果表明,本文所提出的方法有效,验证了该方法后续可用于金融知识图谱的构建.  相似文献   

7.
材料领域的文献中蕴含着丰富的知识, 利用机器学习和自然语言处理等手段对文献进行数据挖掘是研究热点. 命名实体识别(named entity recognition, NER)是高效利用挖掘和抽取数据中信息的首要步骤. 为了解决现有实体识别方法中存在的向量表示无法解决一词多义、模型常提取上下文特征而忽略全局特征等问题, 提出了一种基于上下文词汇匹配和图卷积命名实体识别方法. 该方法首先利用 XLNet 获取文本的上下文动态特征, 其次利用长短期记忆网络并结合文本上下文匹配词汇的图卷积神经网络(graph convolutional network, GCN)模型分别获取上下文特征与全局特征, 最终经过条件随机场输出标签序列. 2 种不同语料对模型进行验证的结果表明, 该方法在材料数据集上的精确率、召回率和 F1 值分别达到 90.05%、88.67% 和 89.36%, 可有效提升命名实体识别的准确率.  相似文献   

8.
中文医学知识图谱(Chinese medical knowledge graph, CMeKG)是对专业医学知识的结构化描述,构建中文医学知识图谱是各类智慧医疗应用的迫切需要。通过收集多来源医疗文本,详细分析语料的结构特征,结合医学知识的语义特点,制定了医学命名实体和实体关系的标注体系和规范;并开发了标注工具,在医学专家的指导下,选取106种高发疾病进行人工标注,命名实体一致率达到了87.3%,实体关系一致率达到了82.9%。在人工标注的基础上,进行实体及关系自动抽取,构建出的中文医学知识图谱CMeKG1.0版共包括6 310种疾病、19 853种药物(西药、中成药、中草药)、1 237种诊疗技术及设备,关联到的医学实体达20余万,概念关系实例及属性三元组达100余万。所构建的中文医学知识图谱为医疗问答系统和智能辅助诊疗等领域奠定了专业知识基础。  相似文献   

9.
提出一种融合实体信息的图卷积神经网络模型(ETGCN),用于短文本分类.首先,使用实体链接工具抽取短文本中的实体;然后,利用图卷积神经网络对文档、实体和单词进行建模,丰富文本的潜在语义特征;将学习到的单词节点表示与BERT词嵌入进行拼接,通过双向长短期记忆网络,进一步挖掘文本上下文语义特征,再与图神经网络模型得到的文本特征进行融合,用于分类.实验结果表明,该模型在数据集AGNews、R52和MR上的分类准确率分别为88.38%、93.87%和82.87%,优于大部分主流的基线方法.  相似文献   

10.
确定实体之间的关系有助于更好的理解文本内容,通过实体关系模板可以从海量无结构的文本中获取大量的实体关系,并予以结构化.本文针对互联网藏文文本的特点,通过对藏文实体进行模板表示,采用基于word2vec的无监督词义相似度计算方法,构建近义词资源,实现了藏文词义相似度计算系统,最终构建一种基于相似度计算的实体关系模板获取模型.通过网络爬虫抓取青海湖藏文网的语料进行试验,实验结果表明本文提出的藏文实体关系模板抽取方法较为有效,达到了较好的实验效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号