首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
以产科专业叙词表、临床路径和诊疗规范等为数据来源构建了中文产科知识图谱(Chinese obstetric knowledge graph, COKG)。以产科疾病为核心,依据术语标准及已有主题词表,确立了概念分类体系及关系描述体系,形成了COKG模式层;在Bi-LSTM-CRF和PCNN模型的基础上,通过医学专家的指导对多来源的200余万字非结构化文本进行人工校对,并对多源数据进行知识融合,形成了COKG数据层。所构建的COKG包括2 343种疾病、15 249个实体关系,可以为医疗问答系统和智能辅助诊疗等应用提供结构化的知识支持。  相似文献   

2.
中文嵌套命名实体关系抽取研究   总被引:1,自引:0,他引:1  
为了解决嵌套命名实体关系抽取研究缺乏相关语料库这一问题, 在现有中文命名实体语料库的基础上, 将人工标注与机器学习相结合来抽取其语义关系。人工标注一个中文嵌套命名实体关系语料库, 然后分别采用支持向量机和卷积神经网络等方法, 进行中文嵌套实体关系抽取实验。实验结果表明, 在人工标注实体的中文嵌套命名实体语料上, 嵌套实体关系抽取的性能非常好, F1指数达到95%以上, 而在自动识别实体上的抽取性能尚不理想。  相似文献   

3.
在大规模文本语料库上预先训练的BERT等神经语言表示模型可以很好地从纯文本中捕获丰富的语义信息.但在进行中文命名实体识别任务时,由于中文命名实体存在结构复杂、形式多样、一词多义等问题,导致中文命名实体识别效果不佳.考虑到知识图谱可以提供丰富的结构化知识事实,从而更好地进行语言理解,提出了一种融合知识图谱信息的中文命名实体识别方法,通过知识图谱中的信息实体增强语言的外部知识表示能力.实验结果表明,与BILSTM-CRF、BERT等方法相比,所提出的方法有效提升了中文命名实体的识别效果,在MSRA与搜狐新闻网标注数据集上,F1值分别达到了95. 4%与93. 4%.  相似文献   

4.
在大规模文本语料库上预先训练的BERT(bidirectional encoder representation from transformers, BERT)等神经语言表示模型可以较好地从纯文本中捕获丰富的语义信息。但在进行中文命名实体识别任务时,由于命名实体存在结构复杂、形式多样、一词多义等问题,识别效果不佳。基于知识图谱可以提供丰富的结构化知识,从而更好地进行语言理解,提出了一种融合知识图谱信息的中文命名实体识别方法,通过知识图谱中的信息实体增强语言的外部知识表示能力。实验结果表明,与BERT、OpenAI GPT、ALBERT-BiLSTM-CRF等方法相比,所提出的方法有效提升了中文命名实体的识别效果,在MSRA(Microsoft Research Asia, MSRA)与搜狐新闻网标注数据集上,F_1值分别达到了95.4%与93.4%。  相似文献   

5.
针对Zhishi.me、XLore等现有中文知识图谱对《康熙字典》中词语实体间关系定义不足、覆盖不全等问题,本文提出一种针对《康熙字典》的古汉语知识图谱构建方法.首先通过制定规则,提取出《康熙字典》中的命名实体,并构建命名实体库.然后,结合外部中文知识图谱及词典,构建实体关系库.最后,对所构建的知识图谱进行质量评估和迭代更新,并利用图数据库进行存储和展示.本文利用知识图谱将《康熙字典》中所包含的部首、集、卷、词语间的关系以结构化的形式表现出来,有利于研究者进一步研究和使用《康熙字典》中所包含的知识,推动古汉语的研究与应用.  相似文献   

6.
为了融合碎片化林业文本数据,解决目前林业网络知识散乱、无序和关联性不强的问题,将深度学习与知识图谱相结合,提出一种基于改进BERT和双向RNN的模型用于林业实体识别和实体关系抽取。通过基于实体Mask的BERT词向量处理,自动提取出序列中与研究领域相关的词级和语义特征,将词向量输入命名实体识别模型和实体关系提取模型训练。在通用数据集上,实体关系抽取BERT-BiGRU-Attention模型效果更优,F1值提升1%,准确率在90%以上;实体识别BERT-BiLSTM-CRF模型各项指标比传统模型提高2%。在林业数据集上,模型准确率达到80%以上。表明基于BERT和双向RNN模型构建中文林业知识图谱是可行的。在此模型的基础上搭建中文林业知识图谱智能系统,可以优化林业信息管理方法,促进林业发展。  相似文献   

7.
与现有的根据知识图谱的结构信息或实体属性特征进行相似度匹配的实体对齐的方法不同,提出了一种基于表示学习的知识图谱实体对齐方法.首先,在低维向量空间下,通过机器学习方法学得实体和关系的语义表示,这种表示形式蕴含了知识图谱的内在结构信息及实体属性特征;其次,将人工标注的实体对作为先验知识,学习知识图谱间实体对的映射关系.经实验验证表明:与基于特征匹配的方法SiGMa相比,本文方法能够有效提高知识图谱实体对齐的精确率,同时保持较高的F1值.  相似文献   

8.
采用基于最大熵模型的方法对泰语句子级实体从属关系的抽取方法进行了研究.针对泰语句子中实体关系抽取的研究进程中语料库较为匮乏的问题,首先使用汉泰双语平行句对作为中间桥梁,将中文研究领域中相对成熟的分词、词性标注和实体识别等成果,通过汉泰双语词典映射到与中文句子相对齐的泰语句子上,对泰语句子进行必要的数据处理操作,并进行一定量的人工校正和人工实体关系标注工作;进而构建基础的泰语实体关系训练语料库.在语料库的基础上,将泰语实体关系抽取问题转化为分类问题,同时结合泰语语言本身的特点,选取合适的上下文特征模板,使用最大熵模型算法对训练语料进行学习训练,构建分类器,对泰语句子中的候选实体关系三元组进行识别,最终达到实体间从属关系自动抽取的目的.实验结果显示该方法可使F值相对于已有的泰语实体关系抽取研究方法提升8%左右.  相似文献   

9.
针对中文产品命名实体,提出了一种基于多种特征融合的识别方法。该方法以词为标注粒度,将多种特征融合到条件随机场模型中,采用递增式学习策略选取最优的特征模板,实现了从中文自由文本中识别产品命名实体。实验表明,该方法获得了令人满意的实验效果,准确率、召回率和F值分别达到94.87%、92.50%和93.67%。  相似文献   

10.
在命名实体识别、关系抽取等研发领域,人们开展了大量的研究工作.研究的内容是基于概念的信息抽取技术.先利用基于词性标注的词组分割技术挖掘出所有的候选实体和候选关系词组,再利用实体、实体的名字和关系类词组构建成一个异构知识图谱,最后构建出实体、关系词组、实体名称等的异构关系图.基于这样的方法,不仅可以挖掘出高质量的实体,而且可以为这些实体设置正确的类别信息  相似文献   

11.
文本数据中的实体和关系抽取是领域知识图谱构建和更新的来源.针对金融科技领域中文本数据存在重叠关系、训练数据缺乏标注样本等问题,提出一种融合主动学习思想的实体关系联合抽取方法.首先,基于主动学习,以增量的方式筛选出富有信息量的样本作为训练数据;其次,采用面向主实体的标注策略将实体关系联合抽取问题转化为序列标注问题;最后,基于改进的BERT-BiGRU-CRF模型实现领域实体与关系的联合抽取,为知识图谱构建提供支撑技术,有助于金融从业者根据领域知识进行分析、投资、交易等操作,从而降低投资风险.针对金融领域文本数据进行实验测试,实验结果表明,本文所提出的方法有效,验证了该方法后续可用于金融知识图谱的构建.  相似文献   

12.
中文嵌套命名实体识别是自然语言处理中一个比较困难的问题.针对传统的序列化标注方法的不足,本文提出了一种新的基于联合模型的中文嵌套命名实体识别方法,该方法将嵌套命名实体识别看作是一种联合切分和标注任务.联合模型用一种改进的beam search算法作为系统的解码算法,并采用一种在线学习算法平均感知器算法作为训练算法,获得了较快的收敛速度和较好的识别效果.实验结果表明基于联合模型的方法对嵌套命名实体识别取得了更好的效果.  相似文献   

13.
中文化学命名实体结构没有严格的构词规律可循,识别实体中包含字母、数字、特殊符号等多种形式,传统字向量模型无法有效区分化学术语中存在的嵌套实体和歧义实体。为此,将高中化学试题资源的命名实体划分为物质、性质、量值、实验四大类,并构建化学学科实体词汇表辅助人工标注。通过ALBERT预训练模型提取文本特征并生成动态字向量,结合BILSTM-CRF(Bidirectional Long Short-Term Memory with Conditional Random Field)模型对高中化学试题文本进行命名实体识别。实验结果表明,该模型的精确率、召回率和F1值分别达到了95.24%、95.26%、95.25%。  相似文献   

14.
知识图谱也被称为科学知识图谱,可以揭示复杂知识领域的动态发展规律.基于自然语言处理技术从海量Web数据中抽取命名实体及命名实体关系,从而构建企业知识图谱.设计并实现了一种基于知识图谱的可视化分析方法,在网络图中融入集合可视化,从全局和细节两个层次进行可视分析,构建了企业知识图谱可视化分析平台.通过案例分析表明,该可视化研究方法满足用户对相关数据的可视化分析.  相似文献   

15.
鉴于现有中文实体链接基准语料库的缺乏, 在ACE2005中文语料库和中文维基百科的基础上, 通过自动构造和人工标注的方法, 构建一个中文实体链接语料库及其相关的中文知识库。与传统的英文实体链接语料库不同, 构造的中文实体链接语料库是基于实体而非单个实体指称(Mention)。中文实体链接语料库的构建, 将为中文实体链接研究提供一个可用的基准平台。  相似文献   

16.
廖开际  王莹 《河南科学》2021,39(12):2014-2022
为了解决多来源医疗知识库融合过程中常见的知识冗余问题,基于综合多种注意力机制和图卷积神经网络的MuGNN模型对互联网医疗知识融合的效果进行了研究.以乳腺癌疾病为例,首先构建了基于不同医疗网站的疾病实体关系库,然后利用MuGNN模型完成了实体对齐,同时与JAPE模型和GCN-Align模型的实体对齐效果进行了对比,最后对基于不同医疗网站的疾病实体关系库进行知识融合并通过Neo4j图数据库对融合后的知识图谱进行可视化处理.结果表明,与JAPE模型和GCN-Align模型相比,MuGNN模型的实体对齐效果更好.利用综合多种注意力机制和图卷积神经网络的MuGNN模型对互联网医疗知识进行融合,有助于提升多来源互联网医疗知识的融合效果,有助于多源知识图谱的构建与补全,有助于提供更优质的知识服务.  相似文献   

17.
提出一种基于模式匹配与命名实体识别相结合的领域答案抽取方法,该方法用答案模式串、答案模式权值和答案类型三要素来定义并构建答案模式库,结合旅游领域命名实体识别方法和模式匹配方法,实现了旅游领域实体答案的抽取.在旅游领域进行实体答案抽取实验,取得了较好的效果,其中召回率达88.78%,准确率达86.04%.  相似文献   

18.
基于深度主动学习的信息安全领域命名实体识别研究   总被引:1,自引:0,他引:1  
针对通用领域模型不能很好地解决信息安全领域的命名实体识别问题,提出一种基于字符特性,双向长短时记忆网络(Bi-LSTM)与条件随机场(CRF)相结合的信息安全领域命名实体识别方法.该方法不依赖于人工选取特征,通过神经网络模型对序列进行标注,再利用CRF对序列标签的相关性进行约束,提高序列标注的准确性.而且,针对信息安全领域标注数据样本不足的问题,采用主动学习方法,使用少量标注样本达到较好的序列标注效果.  相似文献   

19.
命名实体是电子病历中相关医学知识的主要载体,因此,临床命名实体识别(Clinical Named Entity Recognition,CNER)也就成为了临床文本分析处理的基础性任务之一.由于文本结构和语言等方面的特殊性,面向中文电子病历(Electronic Medical Records,EMRs)的临床命名实体识别依然存在着巨大的挑战.本文提出了一种基于多头自注意力神经网络的中文临床命名实体识别方法.该方法使用了一种新颖的融合领域词典的字符级特征表示方法,并在BiLSTM-CRF模型的基础上,结合多头自注意力机制来准确地捕获字符间潜在的依赖权重、语境和语义关联等多方面的特征,从而有效地提升了中文临床命名实体的识别能力.实验结果表明本文方法超过现有的其他方法获得了较优的识别性能.  相似文献   

20.
分析电子数码领域的产品命名实体识别的难点和特点,提出了一种基于知识库的最大熵模型的产品命名实体识别方法,实现了从中文网络文本中抽取产品命名实体.实验表明,该系统在电子数码领域中能较好地识别出产品命名实体,对产品命名实体的F1值识别性能达到86.91%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号