首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
基于条件随机场的中文科研论文信息抽取   总被引:1,自引:1,他引:1  
科研论文头部信息和引文信息对基于域的论文检索、统计和引用分析是必不可少的.由于隐马尔可夫模型不能充分利用对抽取有用的上下文特征,因此文中提出了一种基于条件随机场的中文科研论文头部和引文信息抽取方法,该方法的关键在于模型参数估计和特征选择.实验中采用L-BFGS算法学习模型参数,并选择局部、版面、词典和状态转移4类特征作为模型特征集.在信息抽取时先利用分隔符、特定标识符等格式信息对文本进行分块,在分块基础上用条件随机场进行指定域的抽取.实验表明,该方法抽取性能明显优于基于隐马尔可夫模型的方法,且加入不同的特征集对抽取性能提升作用不同.  相似文献   

2.
网页分块方法使得Web信息抽取的单位由原来的页面缩小为分块.结合分块重要度模型与二维条件随机场的优点,提出一种Web对象信息抽取方法.该方法利用分块重要度模型对网页分块进行重要度标注,过滤掉大量与主题无关信息,更加准确的定位待抽取信息的位置.二维条件随机场模型相比传统的线性条件随机场模型更好的适应了网页分块的二维结构,有效的提高信息抽取准确率.实验结果表明,该方法对Web对象信息抽取具有良好的效果.  相似文献   

3.
为了实现中文医药领域症状信息的自动化抽取,提出了一种基于条件随机场的拆分症状文本特征的抽取方法,将症状文本自动识别拆分为症状主体和症状表现形式自动识别两个部分,再将这两种识别结果作为特征加入到症状信息抽取过程中。信息抽取的结果包含完整的症状信息二元组:症状主体和症状表现形式。实验表明,该方法在症状信息抽取的准确率及查全率上有较大提升。  相似文献   

4.
针对文本信息抽取中训练数据来源的多样化,不利于学习到最优的模型参数的问题,提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法. 新算法利用文本排版格式、分隔符等信息,对文本进行分块,在此基础上,通过对训练数据分成多个形式模板训练隐马尔可夫初始概率及转移概率参数,最后,结合统一训练的释放概率参数,对文本信息进行抽取. 实验结果表明,新算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能.  相似文献   

5.
条件随机场模型是文本信息抽取的重要方法之一,在命名实体识别方面CRF性能要明显优于隐马尔科夫模型和最大熵模型。本文以基于字一级的条件随机场模型实现了中文命名实体识别,取得了较好的识别效果。  相似文献   

6.
提出了一种基于条件随机场的中文自动文摘方法.用条件随机场来建立词性标注模型.在文摘句抽取时,引入了关键词抽取技术抽取文摘句.在生成文摘时,采用了基于规则的方法去除文摘中的冗余信息,使最后生成的文摘更具有可读性.实例表明该方法能够适应于许多领域,得到了很好的应用效果.  相似文献   

7.
命名实体识别是自然语言处理的重要基础,同时也是信息抽取,机器翻译等应用的关键技术.近年来,网络媒体微博的迅速发展,为命名实体识别研究提供了全新的载体.针对中文微博文本短、表达不清、网络化严重等特点,对目前命名实体识别两种应用比较广泛的方法,基于最大熵模型的识别方法和基于条件随机场模型的识别,进行对比研究.在真实的微博数据上进行对比实验.通过实验结果的对比得出这两种方法在中文微博命名实体识别上的优缺点.  相似文献   

8.
在任务型人机对话系统中,槽抽取任务是至关重要的一个环节.为了提高槽抽取模型的识别准确率,该文提出了一种利用自注意力机制融合文本的多特征维度特征的方法.该方法在常规的双向长短期记忆模型(Bi-directional long short-term memory,Bi-LSTM)和条件随机场(Conditional ran...  相似文献   

9.
随着"智能油田"的建设加快,构建基于海量石油数据的智能分析系统意义重大。然而,由于石油生产过程中产生的文本数据往往无结构且类型多样,从中抽取关键信息进行分析成为一个研究热点,而信息抽取又需要高质量的语义实体做支撑。根据这一特定问题,提出基于命名实体识别(Named Entity Recognition,NER)技术针对石油非结构化文本进行信息抽取,构建双向长短时记忆(Bidirectional Long Short-Term Memory,Bi LSTM)网络模型提取语料特征,并结合条件随机场(Conditional Random Field,CRF)做分类器,构建了基于Bi LSTM+CRF的高精度NER模型,针对石油工业领域的非结构化文本进行命名实体抽取。通过在修井作业文本数据集上进行对比实验表明,本方法具有较高的精确率和召回率。  相似文献   

10.
提出了一种基于语义标注和最小二乘神经网络信息抽取的方法,并选用教材为研究对象,以语义标注作为构建信息抽取规则的基础,以原始文本与目标模板之间的相似度作为竞争力,通过原始文本与目标模板的竞争来实现原始文本的分类和噪声信息的过滤,直接从分类的角度抽取出教材信息。  相似文献   

11.
针对评价对象存在领域相关性这一特点,在条件随机场模型中结合领域词词典特征进行中文句子评价对象的抽取,然后利用领域规则对抽取结果进行处理.针对COAE2011任务三标注语料的抽取实验结果表明,结合领域词词典和领域规则对于利用线性链、跳跃链和层叠条件随机场模型的中文句子评价对象抽取方法可以有效地提高抽取的精度,并抽取出更多的评价对象.  相似文献   

12.
针对单一领域数据进行建模求解时,在数据较为匮乏的新兴领域中论辩挖掘任务难以开展的问题,提出一种面向低资源场景的多任务学习的论辩挖掘方法.该方法首先通过卷积神经网络和高速神经网络对原文本的字符信息进行编码,获得多个数据集在词级的共享信息表示;然后由有序神经元-长短时记忆循环神经网络进一步处理词级信息和任务相关特征的联合表示,挖掘文本中潜藏的层级结构信息;最后使用条件随机场进行求解.采用德国UKP实验室的六个数据集进行相关的对比实验.实验结果表明,所提出的方法在宏观F1值上较基准模型有1%~2%的提升,有效地提升模型的整体性能.  相似文献   

13.
材料领域的文献中蕴含着丰富的知识, 利用机器学习和自然语言处理等手段对文献进行数据挖掘是研究热点. 命名实体识别(named entity recognition, NER)是高效利用挖掘和抽取数据中信息的首要步骤. 为了解决现有实体识别方法中存在的向量表示无法解决一词多义、模型常提取上下文特征而忽略全局特征等问题, 提出了一种基于上下文词汇匹配和图卷积命名实体识别方法. 该方法首先利用 XLNet 获取文本的上下文动态特征, 其次利用长短期记忆网络并结合文本上下文匹配词汇的图卷积神经网络(graph convolutional network, GCN)模型分别获取上下文特征与全局特征, 最终经过条件随机场输出标签序列. 2 种不同语料对模型进行验证的结果表明, 该方法在材料数据集上的精确率、召回率和 F1 值分别达到 90.05%、88.67% 和 89.36%, 可有效提升命名实体识别的准确率.  相似文献   

14.
针对汉语并列关系的标注方式, 提出一种基于条件随机场模型的并列关系自动识别方法。从语料库中自动抽取并列关系的角色信息, 进行角色标注, 在条件随机场模型的基础上实现并列关系的识别。与基于图的依存分析方法比较, 并列关系的召回率和正确率分别提高了9.1%和13.8%。  相似文献   

15.
为了快速处理航天情报,基于数据驱动的深度学习技术,提出融合多源异构知识标注中文航天情报数据集的方法流程,以及基于预训练(pre-training)模型的航天情报实体识别(AIER)方法;通过对航天情报进行命名实体识别,达到对航天情报进行信息抽取的目的.通过融合BERT(bidirectional encoder representation from transformers)预训练模型和条件随机场(CRF)模型构建AIER模型(BERT-CRF模型),将其与隐马尔可夫模型(HMM)、条件随机场(CRF)模型、双向长短期记忆网络加条件随机场(BiLSTM-CRF)模型进行实体识别对比实验.结果表明:基于预训练模型的AIER模型能够取得93.68%的准确率、97.56%的召回率和95.58%的F1值;相比于其他方法,基于预训练模型方法的性能得到提高.  相似文献   

16.
近年来,网络媒体微博的迅速发展,为命名实体的识别研究提供了一种全新的载体.针对中文微博文本短、表达不清、网络化严重等特点,论文提出了一种规则与统计相结合的中文微博命名实体识别方法.该方法首先利用中文微博的主题标签对处理后的数据进行筛选,然后再选取合适的特征模板,并利用条件随机场模型(Conditional random fields, CRF)进行实体识别.为了满足实验要求,该文将传统网页爬虫方法与API接口采集方法相结合进行微博数据采集.实验结果表明,该方法能够有效提高中文微博命名实体的识别效果.  相似文献   

17.
传统实体关系抽取方法中存在错误传播、实体冗余等问题,食品文本语料中存在主实体对应多个关系的特点,针对此情况,提出一种面向互联网食品文本领域的实体关系联合抽取方法。采用序列标注标签和实体关系匹配规则,将实体关系抽取任务转化为序列标注问题;引入基于位置感知的领域词注意力机制的字词双维度语义编码向量,增强文本的语义表征;在对句子进行字词双维度表示的基础上结合双向长短期记忆网络(bi-directional long short-term memory, BiLSTM)和条件随机场(conditional random field, CRF)构建了序列标注模型(position attention-bidirectional encoder representation from transformer, PA-BERT),实现实体关系联合抽取。对比实验证明,提出的实体关系联合抽取模型在食品数据集上的准确率比常用深度神经网络模型高出6%~11%,在食品文本实体关系抽取中是有效性的。  相似文献   

18.
为解决传统的基因识别算法主要关注编码区的整体特性,而并不着重考虑个别位点的信息,因此难以准确地识别出剪接位点的缺点,提出了基于条件随机场的剪接位点预测方法,条件随机场能够更好的处理标记数据之间的依赖关系,并且能够避免数据标记偏置的问题。实验结果表明基于条件随机场的剪接位点预测方法是一种合适的方法,能够取得更好的效果。  相似文献   

19.
在目前隧道工程的设计施工中,工程师大多采用确定性方法衡量隧道的稳定性,忽略了岩土体的空间变异性.作者结合Kriging理论和随机场理论,提出了大尺度工程场地的三维条件随机场生成方法,并将该方法运用于重庆市李家坪地铁车站隧道的大尺度三维岩体参数空间变异性的表征,然后结合数值计算结果和可靠度理论分析了李家坪地铁车站隧道在开挖过程中的失效概率,揭示了在已知部分地质勘测信息条件下岩体参数的条件随机场对隧道工程失效概率的影响.结果表明:基于场地的勘测信息生成的条件随机场计算得到的隧道失效概率小于传统的不考虑勘测信息生成的非条件随机场计算得到的隧道失效概率.  相似文献   

20.
针对当前新闻网页主题内容抽取方法较少利用网页块之间关联特性这一问题,提出了一种基于条件随机场(CRFs)的新闻网页主题内容自动抽取方法.该方法首先将待抽取网页解析成DOM树,经过滤、剪枝以及压缩处理后,然后按照一定的启发式规则将DOM树切割成块并转换成为一个数据序列,再定义CRFs特征函数来提取各网页块自身状态特征和相...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号