首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对面向中文网络百科条目文章的属性和属性值抽取, 提出一种无监督方法。此方法将属性值看做命名实体, 利用频繁模式挖掘和关联分析, 从文本中抽取类别属性; 采用自扩展方法为属性建立触发词表; 基于属性触发词和属性值实体标注挖掘属性值抽取模式, 利用层次聚类算法获取高质量的模式。在互动百科中采集的数据集上进行实验, 结果表明所提方法行之有效。  相似文献   

2.
针对在文本信息抽取研究中传统的监督学习方法存在标注工作量大和时间代价高等缺点,提出一种改进的半监督学习模型。该模型利用支持向量机的分类优势以及直推式学习在未标注样本上的泛化特点,先用少量标注语料进行学习,同时测试新语料,然后再加入到模型当中一起训练,调整预测规律。在领域实体属性抽取试验中,与传统的支持向量机学习方法相比,该模型能够在小语料条件下取得较好的抽取效果,泛化学习能力较强,可以节省大量的人力成本。  相似文献   

3.
实体关系抽取是信息抽取的重要组成部分.描述了一种融合多信息的实体语义关系抽取方法,充分利用中文的各种特征和信息来提高关系抽取的性能.该方法主要结合特征向量和树核函数两种方法;特征向量表示了文本的语言信息,树核方法表示了文本的结构化信息.并且在2005年的自主内容抽取(automatic content extraction,ACE)基准语料上进行关系检测和6个关系大类抽取的实验.实验结果表明,该方法能识别出大部分的非关系实例,各种关系类型识别的精确率和召回率也有一定提高.  相似文献   

4.
关系抽取是许多信息抽取系统中的一个关键步骤,旨在从文本中挖掘结构化事实.在应用传统的远程监督方法完成实体关系抽取任务时存在2个问题:①远程监督方法将语料库中的文本与已标注实体和实体间关系的知识库启发式地对齐,并将对齐结果作为文本的标注数据,这必然会导致错误标签问题;②目前基于统计学的方法过于依赖自然语言处理工具,提取特...  相似文献   

5.
传统实体关系抽取方法中存在错误传播、实体冗余等问题,食品文本语料中存在主实体对应多个关系的特点,针对此情况,提出一种面向互联网食品文本领域的实体关系联合抽取方法。采用序列标注标签和实体关系匹配规则,将实体关系抽取任务转化为序列标注问题;引入基于位置感知的领域词注意力机制的字词双维度语义编码向量,增强文本的语义表征;在对句子进行字词双维度表示的基础上结合双向长短期记忆网络(bi-directional long short-term memory, BiLSTM)和条件随机场(conditional random field, CRF)构建了序列标注模型(position attention-bidirectional encoder representation from transformer, PA-BERT),实现实体关系联合抽取。对比实验证明,提出的实体关系联合抽取模型在食品数据集上的准确率比常用深度神经网络模型高出6%~11%,在食品文本实体关系抽取中是有效性的。  相似文献   

6.
针对复杂多源的非结构化数据,提出一种数据标准化方法,在抽取信息的同时,能将不同来源的数据转换为统一的表示形式.首先,对文本进行词性标注等预处理,提取出需要进一步识别类型的实体;其次,使用语言表征模型对文本信息进行向量表示;最后,通过基于注意力机制的卷积神经网络对抽取出的实体进行分类,以适应不同应用场景的分类标准.实验结果验证了该模型的有效性.  相似文献   

7.
属性抽取的目标是从非结构化文本中抽取与文本实体相关的属性和属性值,然而在电商场景下基于序列标注的模型缺少应对大规模属性抽取任务的可扩展性和可泛化性能力。本文提出基于阅读理解的商品属性抽取模型,通过额外加入问句来强化模型对属性的理解,结合双仿射注意力机制捕获问句和文本之间的语义特征,进一步提高模型的抽取性能。本文在电商数据集上对不同类型问句和不同解码器进行了对比实验,结果表明本文提出的方法优于多个基线模型,相较于OpenTag和SUOpenTag模型,属性抽取的F1值分别提升7.70%和3.26%,未登录词识别的F1值分别提升15.51%和8.12%。  相似文献   

8.
文本数据中的实体和关系抽取是领域知识图谱构建和更新的来源.针对金融科技领域中文本数据存在重叠关系、训练数据缺乏标注样本等问题,提出一种融合主动学习思想的实体关系联合抽取方法.首先,基于主动学习,以增量的方式筛选出富有信息量的样本作为训练数据;其次,采用面向主实体的标注策略将实体关系联合抽取问题转化为序列标注问题;最后,基于改进的BERT-BiGRU-CRF模型实现领域实体与关系的联合抽取,为知识图谱构建提供支撑技术,有助于金融从业者根据领域知识进行分析、投资、交易等操作,从而降低投资风险.针对金融领域文本数据进行实验测试,实验结果表明,本文所提出的方法有效,验证了该方法后续可用于金融知识图谱的构建.  相似文献   

9.
该文采用基于卷积神经网络的实体关系抽取方法,以新疆旅游领域为研究实体进行实体关系抽取研究.本研究方法针对新疆旅游领域,采用自行开发设计的语料标注系统,对语料进行过滤、标注操作及人工校正,建立了新疆旅游领域的小型关系语料库,总结使用了17种实体关系对.并将训练语料转化为向量特征矩阵,进行特征提取,结合领域特征,减少对于人工的依赖性,从而训练分类器输出结果,实现旅游领域的实体关系抽取.  相似文献   

10.
知识抽取任务是从非结构化的文本数据抽取三元组关系(头实体-关系-尾实体)。现有知识抽取方法分为流水式方法和联合抽取方法。流水式方法将命名实体识别和实体知识抽取分别用各自的模块抽取,这种方式虽然有较好的灵活性,但训练速度较慢。联合抽取的学习模型是一种通过神经网络实现的端到端的模型,同时实现实体识别和知识抽取,能够很好地保留实体和关系之间的关联,将实体和关系的联合抽取转化为一个序列标注问题。基于此,本文提出了一种基于字词混合和门控制单元(Gated Recurrent Unit, GRU)的科技文本知识抽取(MBGAB)方法,结合注意力机制提取中文科技资源文本的关系;采用字词混合的向量映射方式,既在最大程度上避免边界切分出错,又有效融入语义信息;采用端到端的联合抽取模型,利用双向GRU网络,结合自注意力机制来有效捕获句子中的长距离语义信息,并且通过引入偏置权重来提高模型抽取效果。  相似文献   

11.
提出了一种企业破产事件抽取框架,该框架可以从法律裁定书等卷宗资料中检测出相应的法律事件,并抽取出与事件相关的结构化要素信息.该框架结合从法院所获得的裁定书等卷宗信息,运用远程监督技术来构建模型训练数据;再通过命名实体识别技术对句级别的文书进行序列标注;最后结合自定义的事件触发词表与事件字典,运用事件抽取技术对法律文书进行事件识别,并给出对应事件的结构化信息.实验结果表明本框架能够取得较高的事件识别精度,是一种有效的企业破产事件抽取框架.  相似文献   

12.
针对利用远程监督标注文本实体过程中存在实体类别标注错误问题导致模型难以有效区分各实体的类别特征,影响模型精准度的问题,本文提出一种利用原型网络过滤训练语料中标注错误样本的远程监督命名实体识别方法,利用预训练的原型网络编码正确标注实体生成类别原型表示,过滤语料中距类别原型较远的样本.实验表明,使用原型网络有效地提高了语料的标注质量,提升了模型性能.  相似文献   

13.
随着"智能油田"的建设加快,构建基于海量石油数据的智能分析系统意义重大。然而,由于石油生产过程中产生的文本数据往往无结构且类型多样,从中抽取关键信息进行分析成为一个研究热点,而信息抽取又需要高质量的语义实体做支撑。根据这一特定问题,提出基于命名实体识别(Named Entity Recognition,NER)技术针对石油非结构化文本进行信息抽取,构建双向长短时记忆(Bidirectional Long Short-Term Memory,Bi LSTM)网络模型提取语料特征,并结合条件随机场(Conditional Random Field,CRF)做分类器,构建了基于Bi LSTM+CRF的高精度NER模型,针对石油工业领域的非结构化文本进行命名实体抽取。通过在修井作业文本数据集上进行对比实验表明,本方法具有较高的精确率和召回率。  相似文献   

14.
信息抽取技术是深层次分析文本语义信息的基础.随着数据量的增加,尤其是针对海量网络信息分析的需求,传统的基于手动标注或人工干预的训练分类方法已不能满足要求.以“大学生心理健康”相关网页作为信息语料,提出一种基于案例分析的文本数据抽取方法,可以实现跨领域信息自动抽取,能够快速有效地获得满足用户需求的信息.  相似文献   

15.
相比规范新闻文本中命名实体识别(named entity recognition,NER),中文社交媒体中命名实体识别的性能偏低,这主要受限于文本的规范性和标注语料的规模。近年来中文社交媒体的命名实体识别研究主要针对标注语料规模小这一问题,倾向于使用外部知识或者借助联合训练来提升最终的识别性能,但对社交媒体文本不规范导致的对文本自身蕴含特征的挖掘不够这一问题的研究很少。该文着眼于文本自身,提出了一种结合双向长短时记忆和自注意力机制的命名实体识别方法。该方法通过在多个不同子空间捕获上下文相关信息来更好地理解和表示句子结构,充分挖掘文本自身蕴含的特征,并最终提升不规范文本的实体识别性能。在Weibo NER公开语料上进行了多组对比实验,实验结果验证了方法的有效性。结果表明:在不使用外部资源和联合训练的情况下,命名实体识别的F1值达到了58.76%。  相似文献   

16.
基于XML /Schema 甲骨文语料库语料标注的研究   总被引:3,自引:1,他引:2  
对语料库进行语料标注是实现原始语料信息计算机可读的关键.采用XML+XML Schema对甲骨文语料库进行结构化标注,使不同类型的数据表示成统一的格式,方便数据的交换与共享.给出了一种依据XML文档中使用的词汇集,对词汇集进行建模来约束XML文档中使用的元素和属性及其之间的结构关系和数据类型.根据定义好的XMLSchema使用XML对甲骨文信息进行结构化标注,可以准确地描述数据的结构及数据类型.  相似文献   

17.
目前网络上关于辽代历史信息化智能查询服务系统资源相对缺乏,关于辽代历史介绍文本篇幅冗长,不方便大众进行阅读观看.为了便于大众能更加快速准确了解相关的辽代历史知识,基于百度百科、搜狗百科以及基于爬虫技术等形式获取了与辽代历史相关的文本数据,采用BiLSTM-CRF模型进行实体抽取,通过关系抽取模型抽取实体间的关系,通过知识融合等技术对得到的数据进行实体对齐以及本体构建.最终构建辽代历史文化领域知识图谱,并在此知识图谱的基础上开发了可视化查询系统.  相似文献   

18.
知识图谱的构建对于信息检索、智能问答、智能推荐等下游工作具有重要意义,而抽取资料中的信息是构建知识图谱的关键。为了实现有效知识抽取,提出了一个基于深度主动学习的实体关系联合抽取框架。在该框架下,基于深度主动学习的采样方法降低文本标注成本,改进的EDA数据增强方法(EDA-RE)解决样本间的关系分类不均衡、标注资料不足等问题,“BIO-OVE/R-HT”的标注策略和ChineseBERT-BiLSTM-CRF(CBBC)联合抽取模型解决传统流水线模型存在误差累积和无法抽取重叠关系等问题。通过百度竞赛提供的数据集进行实验,验证了框架中各方法的有效性。  相似文献   

19.
中文医学知识图谱(Chinese medical knowledge graph, CMeKG)是对专业医学知识的结构化描述,构建中文医学知识图谱是各类智慧医疗应用的迫切需要。通过收集多来源医疗文本,详细分析语料的结构特征,结合医学知识的语义特点,制定了医学命名实体和实体关系的标注体系和规范;并开发了标注工具,在医学专家的指导下,选取106种高发疾病进行人工标注,命名实体一致率达到了87.3%,实体关系一致率达到了82.9%。在人工标注的基础上,进行实体及关系自动抽取,构建出的中文医学知识图谱CMeKG1.0版共包括6 310种疾病、19 853种药物(西药、中成药、中草药)、1 237种诊疗技术及设备,关联到的医学实体达20余万,概念关系实例及属性三元组达100余万。所构建的中文医学知识图谱为医疗问答系统和智能辅助诊疗等领域奠定了专业知识基础。  相似文献   

20.
传统的分词器在微博文本上不能达到好的性能,主要归结于:(1)缺少标注语料;(2)存在大量的非规范化词.针对这两类问题,文中提出一个分词和文本规范化的联合模型,该模型在迁移分词基础上,通过扩充迁移行为来实现文本规范化,进而对规范的文本进行分词.在实验中,采用大量的规范标注文本及少量的微博标注文本进行训练,实验结果显示,该模型具有较好的域适应性,其分词错误率比传统的方法减少了10.35%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号