首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
中文分词和命名实体识别经常被视为2个独立的任务。该文提出一种基于最大间隔Markov网络模型(M3N)的中文分词和命名实体识别一体化方法,将二者统一在一个字序列标注框架下,进行联合训练和测试。在SIGHAN_2005分词数据集上的实验结果显示,与基于条件随机场模型的分词器相比,基于M3N的分词器加权综合值提高0.3%~2.0%。在SIGHAN_2005分词数据集和SIGHAN_2006命名实体数据集上进行测试的结果显示,与分步方法相比,一体化方法能够同时提高中文分词和命名实体识别的性能,加权综合值的提高幅度分别为1.5%~5.5%和5.7%~7.9%。同时,还基于分词任务考察了特征模版和不合法序列对M3N性能的影响。  相似文献   

2.
命名实体识别是自然语言处理和信息提取的基本任务,传统专家命名实体识别方法存在过度依赖人工特征标注和分词效果、专家简介中大量专业新词无法识别等问题.本文提出一种基于多特征双向门控神经网络结构并结合条件随机场模型进行领域专家实体抽取方法.该方法首先通过构建领域专家语料库以训练实体抽取模型;接着,使用Bert方法进行字嵌入表...  相似文献   

3.
多特征中文命名实体识别   总被引:1,自引:0,他引:1  
命名实体识别任务是对文本中的实体进行定位,并将其分类至预定义的类别中.目前主流的中文命名实体识别的模型是基于字符的命名实体识别模型.该模型在使用句法特征之前,需先进行分词,不能很好的引入句子的句法信息.另外,基于字符的模型没有利用词典中的先验词典信息,以及中文偏旁部首蕴含的象形信息.针对上述问题,论文提出了融合句法和多粒度语义信息的多特征中文命名实体识别模型.实验证明论文模型相对目前主流模型有了较大的提高,同时论文还通过实验分析了各种特征对模型识别效果的影响.  相似文献   

4.
针对化学资源文本中的命名实体,提出一种适合于化学资源文本的命名实体识别方法,旨在将化学物质、属性、参数、量值4种命名实体进行识别.该方法根据化学资源文本的语言规律及特点,建立BLSTM-CRF模型对命名实体进行初步识别,并使用基于词典与规则相结合的方法对识别结果进行校正.实验结果表明,该方法在化学资源文本中能够较好地完成命名实体识别任务,在测试语料上的F1值最高能达到94.26%.  相似文献   

5.
藏文命名实体识别是藏语自然语言处理的基础任务,是完成机器翻译、网络舆情检测和知识图谱构建等任务的前提.传统的基于深度学习的藏文命名实体识别将藏文音节(字嵌入)作为模型输入的方法容易忽略藏文音节的局部特征.针对这一问题,本文提出了一种融合构成藏文音节部件特征和藏文音节特征的藏文命名实体识别神经网络模型SL-BiLSTM-CRF(syllable level long short-term memory conditional random field).其中,SL模块对构成音节的部件信息和藏文的单个音节进行特征编码,将两种不同模态的特征融合之后送入BiLSTM模型进行特征提取并预测实体标签,再通过CRF对BiLSTM模型的预测结果进行矫正,最终输出藏文实体识别结果.实验证明,该方法在藏文命名实体识别任务中相比基于单个藏文音节(字嵌入)的BiLSTM-CRF模型的F1值提高了1.58个百分点,验证了该方法在藏文命名实体识别任务中的有效性.  相似文献   

6.
分析电子数码领域的产品命名实体识别的难点和特点,提出了一种基于知识库的最大熵模型的产品命名实体识别方法,实现了从中文网络文本中抽取产品命名实体.实验表明,该系统在电子数码领域中能较好地识别出产品命名实体,对产品命名实体的F1值识别性能达到86.91%.  相似文献   

7.
中文命名实体识别在中文信息处理中扮演着重要的角色. 在中文信息文本中, 许多命名实体内部包含着嵌套实体. 然而, 已有研究大多聚焦在非嵌套实体识别, 无法充分捕获嵌套实体之间的边界信息. 采用分层标注方式进行嵌套命名实体识别(nested named entity recognition, NNER), 将每层的实体识别解析为一个单独的任务, 并通过Gate过滤机制来促进层级之间的信息交换. 利用公开的1998年《人民日报》NNER语料进行了多组实验, 验证了模型的有效性. 实验结果表明, 在不使用外部资源词典信息的情况下, 该方法在《人民日报》数据集上的F1值达到了91.41%, 有效提高了中文嵌套命名实体识别的效果.  相似文献   

8.
中文命名实体识别在中文信息处理中扮演着重要的角色.在中文信息文本中,许多命名实体内部包含着嵌套实体.然而,已有研究大多聚焦在非嵌套实体识别,无法充分捕获嵌套实体之间的边界信息.采用分层标注方式进行嵌套命名实体识别(nested named entity recognition,NNER),将每层的实体识别解析为一个单独的任务,并通过Gate过滤机制来促进层级之间的信息交换.利用公开的1998年《人民日报》NNER语料进行了多组实验,验证了模型的有效性.实验结果表明,在不使用外部资源词典信息的情况下,该方法在《人民日报》数据集上的F1值达到了91.41%,有效提高了中文嵌套命名实体识别的效果.  相似文献   

9.
针对传统命名实体识别方法无法有效利用实体边界信息的问题,提出一种联合实体边界检测的命名实体识别方法,即将实体边界检测作为辅助任务,增强模型对实体边界的判断能力,进而提升模型对实体的识别效果。首先,利用Bert预训练语言模型对原始文本进行特征嵌入获取词向量,并引入自注意力机制增强词对上下文信息的利用;其次,在命名实体识别任务的基础上,添加实体边界检测辅助任务,增强模型对实体边界的识别能力;再次,对比联合实体边界检测的命名实体识别方法与基线方法的有效性,并对测试结果进行消融实验;最后,进行样例分析,分析损失权重β对实体边界检测的影响。实验结果表明,在英文社交媒体数据集Twitter-2015上,联合实体边界检测的命名实体识别方法相较于基线模型取得了更高的精准率、召回率和F1值,其中F1值达到了73.57%;并且,边界检测辅助任务提升了基线方法的检测效果。所提方法能有效利用实体边界信息,从而获得更好的实体识别效果,促进了人机交互系统的发展,对自然语言处理下游任务有重要意义。  相似文献   

10.
为在不依赖特征工程的情况下提高中文领域命名实体识别性能,构建了BLSTM-CRF神经网络模型。首先利用CBOW模型对1998年1月至6月人民日报语料进行负采样递归训练,生成低维度稠密字向量表,以供查询需要;然后基于Boson命名实体语料,查询字向量表形成字向量,并利用Jieba分词获取语料中字的信息特征向量;最后组合字向量和字信息特征向量,输入到BLSTM-CRF深层神经网络中。实验结果证明,该模型面向中文领域命名实体能够较好的进行识别,F1值达到91.86%。  相似文献   

11.
生物医学命名实体识别是生物医学文本挖掘的基本任务.机器学习方法是生物医学命名实体研究的主流方法,选取有效的机器学习算法和采取有效的识别策略是提高生物医学命名实体识别性能的关键,鉴于条件随机域算法在自然语言处理领域的优势,本文采用该算法并结合多种识别策略对生物医学命名实体识别进行研究.实验取得了良好的效果,F测度达到了70.52%,与其它相关系统比较,识别性能有了明显提高.  相似文献   

12.
中文嵌套命名实体识别是自然语言处理中一个比较困难的问题.针对传统的序列化标注方法的不足,本文提出了一种新的基于联合模型的中文嵌套命名实体识别方法,该方法将嵌套命名实体识别看作是一种联合切分和标注任务.联合模型用一种改进的beam search算法作为系统的解码算法,并采用一种在线学习算法平均感知器算法作为训练算法,获得了较快的收敛速度和较好的识别效果.实验结果表明基于联合模型的方法对嵌套命名实体识别取得了更好的效果.  相似文献   

13.
命名实体识别(named entity recognition, NER)可整合复合材料检测领域相关数据精准提取关键实体信息,促进产业信息化,为行业发展提供技术支撑。针对复合材料检测领域专业名词过多及边界混淆等问题,提出了一种基于对抗训练(adversarial training)和BERT(bidirectional encoder representations from transformers)嵌入相结合的领域命名实体识别模型(BERT-AdBC)。首先,复合材料检测领域数据规模较小,BERT嵌入增强了领域迁移能力,通过融合字向量获取充分的语义表示;其次,领域语句繁杂冗长,引入自注意力机制结合双向长短期记忆网络(Bi-LSTM)模型增强了上下文之间语义关系的获取;最后,对抗训练利用分词任务与实体识别任务的共享信息解决了边界混淆问题。实验结果表明,本文所提出的BERT-AdBC模型对复合材料检测领域实体识别的效果要优于传统模型,综合评价指标F1最高提升6.48%。  相似文献   

14.
传统中医本草文献含有丰富的中医知识,是中医理论研究的重要载体.为了更好地挖掘中医本草知识,精准地实现中医本草文献命名实体识别任务,提出了一种基于特征增强的Bert-BiGRU-CRF中医本草命名实体识别模型,使用特征融合器拼接Bert生成的词向量与实体特征作为输入,以双向门控循环单元(bi-directional gated recurrent unit, BiGRU)为特征提取器,以条件随机场(conditional random fields, CRF)进行标签预测,通过特征增强的方法更好地识别中医本草的药名、药性、药味、归经等实体及其边界信息,完成中医本草命名实体任务.在中医本草数据集上的实验结果表明,融入特征的模型F1值达到了90.54%,证明了所提出的方法可以更好地提高中医本草命名实体识别精度.  相似文献   

15.
在数据匮乏的领域,命名实体识别效果受限于欠拟合的字词特征表达,引入常规的多任务学习方法可以有所改善,但需要额外的标注成本.针对这一问题,提出了一种基于多粒度认知的命名实体识别方法,在不产生额外标注成本的前提下,增强字特征信息,提高命名实体识别效果.该方法从多粒度认知理论出发,以BiLSTM和CRF为基础模型,将字粒度下的命名实体识别任务与句子全局粒度下的实体数量预测任务相联合,共同优化字嵌入表达.三个不同类型的数据集上的多组实验表明,引入多粒度认知的方法有效地提升了命名实体识别效果.  相似文献   

16.
近年来,深度学习方法被广泛地应用于命名实体识别任务中,并取得了良好的效果.但是主流的命名实体识别都是基于序列标注的方法,这类方法依赖于足够的高质量标注语料.然而序列数据的标注成本高昂,导致命名实体识别训练集规模往往较小,这严重地限制了命名实体识别模型的最终性能.为了在不增加人工成本的前提下扩大命名实体识别的训练集规模,本文分别提出了基于EDA(Easy Data Augmentation)、基于远程监督、基于Bootstrap(自展法)的命名实体识别数据增强技术.通过在本文给出的FIND-2019数据集上进行的实验表明,这几种数据增强技术及其它们的组合能够低成本地增加训练集的规模,从而显著地提升命名实体识别模型的性能.  相似文献   

17.
目的 解决中文命名实体识别任务中存在的一词多义以及标签分类不均衡问题。方法 提出一种融合焦点损失(Focal Loss)函数的ERNIE-BiGRU-CRF-FL实体识别方法。使用ERNIE预训练模型获取动态词向量,解决一词多义问题;双向门控循环单元(BiGRU)捕捉双向语义信息;条件随机场(CRF)解码得到命名实体标签;同时引入Focal Loss对CRF进行优化,缓解序列标注中标签分类不均衡的问题。结果 经过在MSRA语料库中进行实验,ERNIE-BiGRU-CRF-FL模型的实体识别效果优于其它模型,其精确率、召回率和F1值分别达到了94.45%、94.37%和94.41%。结论 ERNIE-BiGRU-CRF-FL模型能更好地识别出中文文本中的命名实体,具有一定的实用价值。  相似文献   

18.
文章主要讨论了自然语言处理中的关键技术中文命名实体识别.在总结中文命名实体识别的特点和难点的基础上提出了三种常用的识别方法.重点研究了基于统计方法的隐马尔科夫模型在命名实体识别中的应用,同时指出传统的隐马尔科夫模型在实体识别中存在的局限性,对其进行分析并作出进一步改进.  相似文献   

19.
为了准确地从中文文本中识别出复杂体育赛事命名实体,提出了一种基于双层条件随机场模型的命名实体识别方法.该方法首先在低层条件随机场模型中识别出简单体育赛事命名实体,然后在高层条件随机场模型中识别出嵌套了简单体育赛事命名实体的复杂命名实体如赛事名、参赛球队名和比赛场馆名.在对大规模真实语料进行的开放测试中,赛事名、参赛球队名和比赛场馆名识别的F值分别达到97.09%,97.81%和98.03%.  相似文献   

20.
命名实体识别是自然语言处理的重要基础,同时也是信息抽取,机器翻译等应用的关键技术.近年来,网络媒体微博的迅速发展,为命名实体识别研究提供了全新的载体.针对中文微博文本短、表达不清、网络化严重等特点,对目前命名实体识别两种应用比较广泛的方法,基于最大熵模型的识别方法和基于条件随机场模型的识别,进行对比研究.在真实的微博数据上进行对比实验.通过实验结果的对比得出这两种方法在中文微博命名实体识别上的优缺点.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号