首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
随着微博等社交平台的兴起,如何针对微博数据进行产品命名实体识别成为了自然语言处理领域研究的热点之一,也是实现舆情监督和商业智能的基础.传统的命名实体识别技术没有考虑中文微博口语化、不规范等特点,且忽略了深层语义对命名实体识别的重要作用.因此,考虑中文微博的特殊性,提出一种融合全局上下文信息的词向量特征选择方法,分别采用主题模型和神经网络词向量聚类两种方法获取深层语义信息,并结合层叠条件随机场进行中文微博的命名实体识别.实验结果表明,基于词向量聚类的中文微博产品命名实体识别方法取得了较好的效果.  相似文献   

2.
近年来,网络媒体微博的迅速发展,为命名实体的识别研究提供了一种全新的载体.针对中文微博文本短、表达不清、网络化严重等特点,论文提出了一种规则与统计相结合的中文微博命名实体识别方法.该方法首先利用中文微博的主题标签对处理后的数据进行筛选,然后再选取合适的特征模板,并利用条件随机场模型(Conditional random fields, CRF)进行实体识别.为了满足实验要求,该文将传统网页爬虫方法与API接口采集方法相结合进行微博数据采集.实验结果表明,该方法能够有效提高中文微博命名实体的识别效果.  相似文献   

3.
文章主要讨论了自然语言处理中的关键技术中文命名实体识别.在总结中文命名实体识别的特点和难点的基础上提出了三种常用的识别方法.重点研究了基于统计方法的隐马尔科夫模型在命名实体识别中的应用,同时指出传统的隐马尔科夫模型在实体识别中存在的局限性,对其进行分析并作出进一步改进.  相似文献   

4.
针对目前中文命名实体识别研究集中在输入文本的特征的提取,且输入的嵌入表示直接影响模型的性能这一特点,从背景知识、研究现状和未来发展等方面对中文命名实体识别的研究展开全面的调查.回顾了命名实体识别的发展进程,解释中文命名实体识别的研究难点,归纳不同的研究方法,分为基于字的模型、基于词的模型和基于字-词的模型;介绍目前中文命名实体识别的主流数据集、标注方法和评价指标,从不同角度分析了各数据集的特点;讨论了近几年深度学习技术在中文命名实体识别中的最新研究进展,介绍各分类下具有代表性的模型及性能对比,分析性能优劣原因;总结了中文命名实体识别当下所面临的一些挑战,讨论了未来更具有研究价值的方向,促进中文命名实体识别的进一步发展.  相似文献   

5.
近年来中文嵌套命名实体识别的相关研究进展缓慢,BERT和RoBERTa等预训练模型在处理中文语言时,导致模型只能学习到不完整的语义表示.针对以上两个问题,首先使用现有的中文命名实体基准语料库ACE2004和ACE2005,依照原始语料的中心词和外延的关系自动构造嵌套命名实体;然后使用分层ERNIE模型在构建好的中文语料库上进行中文嵌套命实体识别的研究,相较于BERT等模型,ERNIE模型则是通过对中文实体语义单元的掩码,使得模型学习完整概念的语义表示.实验结果表明,分层ERNIE模型在ACE2004和ACE2005两个中文嵌套命名实体语料库上F1值分别为84.5%和85.9%,性能优于BERT和RoBERTa模型.  相似文献   

6.
命名实体在文本中是承载信息的重要单元,而微博作为一种分享简短实时信息的社交网络平台,其文本长度短、不规范,而且常有新词出现,这就需要对其命名实体进行准确的理解,以提高对文本信息的正确分析。提出了基于多源知识的中文微博命名实体链接,把同义词词典、百科资源等知识与词袋模型相结合实现命名实体的链接。在NLP&CC2013中文微博实体链接评测数据集进行了实验,获得微平均准确率为92.97%,与NLP&CC2013中文实体链接评测最好的评测结果相比,提高了两个百分点。  相似文献   

7.
中文嵌套命名实体识别是自然语言处理中一个比较困难的问题.针对传统的序列化标注方法的不足,本文提出了一种新的基于联合模型的中文嵌套命名实体识别方法,该方法将嵌套命名实体识别看作是一种联合切分和标注任务.联合模型用一种改进的beam search算法作为系统的解码算法,并采用一种在线学习算法平均感知器算法作为训练算法,获得了较快的收敛速度和较好的识别效果.实验结果表明基于联合模型的方法对嵌套命名实体识别取得了更好的效果.  相似文献   

8.
中文命名实体识别方法中采用较多的是神经网络模型,但该模型在训练过程中存在字向量表征过于单一的问题,无法很好地处理字的多义性特征.因此,提出一种基于Bert-BLSTM-CRF模型的中文命名实体识别研究方法,使用Bert预训练语言模型,根据字的上下文信息来丰富字的语义向量,将输出的字向量序列作为输入送入BLSTM-CRF模型进行训练.实验结果表明,此方法在中文命名实体识别任务上其准确率、召回率和F1值分别取得了94.80%、95.44%和95.12%的成绩,相较于其他传统方法,效果显著.  相似文献   

9.
多特征中文命名实体识别   总被引:1,自引:0,他引:1  
命名实体识别任务是对文本中的实体进行定位,并将其分类至预定义的类别中.目前主流的中文命名实体识别的模型是基于字符的命名实体识别模型.该模型在使用句法特征之前,需先进行分词,不能很好的引入句子的句法信息.另外,基于字符的模型没有利用词典中的先验词典信息,以及中文偏旁部首蕴含的象形信息.针对上述问题,论文提出了融合句法和多粒度语义信息的多特征中文命名实体识别模型.实验证明论文模型相对目前主流模型有了较大的提高,同时论文还通过实验分析了各种特征对模型识别效果的影响.  相似文献   

10.
命名实体是电子病历中相关医学知识的主要载体,因此,临床命名实体识别(Clinical Named Entity Recognition,CNER)也就成为了临床文本分析处理的基础性任务之一.由于文本结构和语言等方面的特殊性,面向中文电子病历(Electronic Medical Records,EMRs)的临床命名实体识别依然存在着巨大的挑战.本文提出了一种基于多头自注意力神经网络的中文临床命名实体识别方法.该方法使用了一种新颖的融合领域词典的字符级特征表示方法,并在BiLSTM-CRF模型的基础上,结合多头自注意力机制来准确地捕获字符间潜在的依赖权重、语境和语义关联等多方面的特征,从而有效地提升了中文临床命名实体的识别能力.实验结果表明本文方法超过现有的其他方法获得了较优的识别性能.  相似文献   

11.
分析电子数码领域的产品命名实体识别的难点和特点,提出了一种基于知识库的最大熵模型的产品命名实体识别方法,实现了从中文网络文本中抽取产品命名实体.实验表明,该系统在电子数码领域中能较好地识别出产品命名实体,对产品命名实体的F1值识别性能达到86.91%.  相似文献   

12.
中文微博命名体识别   总被引:1,自引:0,他引:1  
近年来微博的快速发展为命名体识别提供了新的载体,同时微博的特点也为命名体识别研究带来了挑战.针对微博特点,本文提出了基于拼音相似距离以及文本相似距离聚类算法对微博文本进行规范化,消除了微博的语言表达不规范造成的干扰.同时,本文还提出了篇章级、句子级以及词汇级三级粒度的特征提取,使用条件随机场模型进行训练数据,并识别命名体,采用由微博文本相似聚类获得的实体关系类对命名体类型进行修正.由于缺少大量的微博训练数据,本文采用半监督学习框架训练模型.通过对新浪微博数据的实验结果表明,本方法能够有效地提高微博中命名体识别的效果.  相似文献   

13.
中文分词和命名实体识别经常被视为2个独立的任务。该文提出一种基于最大间隔Markov网络模型(M3N)的中文分词和命名实体识别一体化方法,将二者统一在一个字序列标注框架下,进行联合训练和测试。在SIGHAN_2005分词数据集上的实验结果显示,与基于条件随机场模型的分词器相比,基于M3N的分词器加权综合值提高0.3%~2.0%。在SIGHAN_2005分词数据集和SIGHAN_2006命名实体数据集上进行测试的结果显示,与分步方法相比,一体化方法能够同时提高中文分词和命名实体识别的性能,加权综合值的提高幅度分别为1.5%~5.5%和5.7%~7.9%。同时,还基于分词任务考察了特征模版和不合法序列对M3N性能的影响。  相似文献   

14.
在大规模文本语料库上预先训练的BERT等神经语言表示模型可以很好地从纯文本中捕获丰富的语义信息.但在进行中文命名实体识别任务时,由于中文命名实体存在结构复杂、形式多样、一词多义等问题,导致中文命名实体识别效果不佳.考虑到知识图谱可以提供丰富的结构化知识事实,从而更好地进行语言理解,提出了一种融合知识图谱信息的中文命名实...  相似文献   

15.
中文命名实体识别在中文信息处理中扮演着重要的角色. 在中文信息文本中, 许多命名实体内部包含着嵌套实体. 然而, 已有研究大多聚焦在非嵌套实体识别, 无法充分捕获嵌套实体之间的边界信息. 采用分层标注方式进行嵌套命名实体识别(nested named entity recognition, NNER), 将每层的实体识别解析为一个单独的任务, 并通过Gate过滤机制来促进层级之间的信息交换. 利用公开的1998年《人民日报》NNER语料进行了多组实验, 验证了模型的有效性. 实验结果表明, 在不使用外部资源词典信息的情况下, 该方法在《人民日报》数据集上的F1值达到了91.41%, 有效提高了中文嵌套命名实体识别的效果.  相似文献   

16.
针对化学资源文本中的命名实体,提出一种适合于化学资源文本的命名实体识别方法,旨在将化学物质、属性、参数、量值4种命名实体进行识别.该方法根据化学资源文本的语言规律及特点,建立BLSTM-CRF模型对命名实体进行初步识别,并使用基于词典与规则相结合的方法对识别结果进行校正.实验结果表明,该方法在化学资源文本中能够较好地完成命名实体识别任务,在测试语料上的F1值最高能达到94.26%.  相似文献   

17.
中文命名实体识别在中文信息处理中扮演着重要的角色.在中文信息文本中,许多命名实体内部包含着嵌套实体.然而,已有研究大多聚焦在非嵌套实体识别,无法充分捕获嵌套实体之间的边界信息.采用分层标注方式进行嵌套命名实体识别(nested named entity recognition,NNER),将每层的实体识别解析为一个单独的任务,并通过Gate过滤机制来促进层级之间的信息交换.利用公开的1998年《人民日报》NNER语料进行了多组实验,验证了模型的有效性.实验结果表明,在不使用外部资源词典信息的情况下,该方法在《人民日报》数据集上的F1值达到了91.41%,有效提高了中文嵌套命名实体识别的效果.  相似文献   

18.
针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低冗余词汇干扰.建立了多头注意力字词联合模型,包含字词匹配、多头注意力、融合等模块.与现有中文命名实体识别方法相比,本算法避免了设计复杂的序列模型,方便与现有基于字的中文命名实体识别模型结合.采用召回率、精确率以及F1值作为评价指标,通过消融试验验证模型各个部分的效果.结果表明,本算法在MSRA和Weibo数据集上F1值分别提升0.28、0.69,在Resume数据集上精确率提升0.07.  相似文献   

19.
微博观点句识别是对微博进行观点挖掘和舆情分析的基础,因此观点句识别的准确率对后续研究工作至关重要。提出了一种基于三支决策的中文微博观点句识别方法,采用支持向量机分类器,sigmoid函数计算某条微博属于观点句的概率,并将基于三支决策的中文微博观点句识别方法与传统支持向量机方法进行对比实验,实验结果表明,基于三支决策的中文微博观点句识别方法取得了很好的识别效果。  相似文献   

20.
近年来,深度学习方法被广泛地应用于命名实体识别任务中,并取得了良好的效果.但是主流的命名实体识别都是基于序列标注的方法,这类方法依赖于足够的高质量标注语料.然而序列数据的标注成本高昂,导致命名实体识别训练集规模往往较小,这严重地限制了命名实体识别模型的最终性能.为了在不增加人工成本的前提下扩大命名实体识别的训练集规模,本文分别提出了基于EDA(Easy Data Augmentation)、基于远程监督、基于Bootstrap(自展法)的命名实体识别数据增强技术.通过在本文给出的FIND-2019数据集上进行的实验表明,这几种数据增强技术及其它们的组合能够低成本地增加训练集的规模,从而显著地提升命名实体识别模型的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号