首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 812 毫秒
1.
目的 解决中文命名实体识别任务中存在的一词多义以及标签分类不均衡问题。方法 提出一种融合焦点损失(Focal Loss)函数的ERNIE-BiGRU-CRF-FL实体识别方法。使用ERNIE预训练模型获取动态词向量,解决一词多义问题;双向门控循环单元(BiGRU)捕捉双向语义信息;条件随机场(CRF)解码得到命名实体标签;同时引入Focal Loss对CRF进行优化,缓解序列标注中标签分类不均衡的问题。结果 经过在MSRA语料库中进行实验,ERNIE-BiGRU-CRF-FL模型的实体识别效果优于其它模型,其精确率、召回率和F1值分别达到了94.45%、94.37%和94.41%。结论 ERNIE-BiGRU-CRF-FL模型能更好地识别出中文文本中的命名实体,具有一定的实用价值。  相似文献   

2.
针对传统的命名实体识别方法无法充分学习古汉语复杂的句子结构信息以及在长序列特征提取过程中容易带来信息损失的问题,提出一种融合SikuBERT(Siku Bidirectional Encoder Representation from Transformers)模型与MHA(Multi-Head Attention)的古汉语命名实体识别方法。首先,利用SikuBERT模型对古汉语语料进行预训练,将训练得到的信息向量输入BiLSTM(Bidirectional Long Short-Term Memory)网络中提取特征,再将BiLSTM层的输出特征通过MHA分配不同的权重减少长序列的信息损失,最后通过CRF(Conditional Random Field)解码得到预测的序列标签。实验表明,与常用的BiLSTM-CRF、 BERT-BiLSTM-CRF等模型相比,该方法的F1值有显著提升,证明了该方法能有效提升古汉语命名实体识别的效果。  相似文献   

3.
为了融合碎片化林业文本数据,解决目前林业网络知识散乱、无序和关联性不强的问题,将深度学习与知识图谱相结合,提出一种基于改进BERT和双向RNN的模型用于林业实体识别和实体关系抽取.通过基于实体Mask的BERT词向量处理,自动提取出序列中与研究领域相关的词级和语义特征,将词向量输入命名实体识别模型和实体关系提取模型训练...  相似文献   

4.
随着微博等社交平台的兴起,如何针对微博数据进行产品命名实体识别成为了自然语言处理领域研究的热点之一,也是实现舆情监督和商业智能的基础.传统的命名实体识别技术没有考虑中文微博口语化、不规范等特点,且忽略了深层语义对命名实体识别的重要作用.因此,考虑中文微博的特殊性,提出一种融合全局上下文信息的词向量特征选择方法,分别采用主题模型和神经网络词向量聚类两种方法获取深层语义信息,并结合层叠条件随机场进行中文微博的命名实体识别.实验结果表明,基于词向量聚类的中文微博产品命名实体识别方法取得了较好的效果.  相似文献   

5.
材料领域的文献中蕴含着丰富的知识, 利用机器学习和自然语言处理等手段对文献进行数据挖掘是研究热点. 命名实体识别(named entity recognition, NER)是高效利用挖掘和抽取数据中信息的首要步骤. 为了解决现有实体识别方法中存在的向量表示无法解决一词多义、模型常提取上下文特征而忽略全局特征等问题, 提出了一种基于上下文词汇匹配和图卷积命名实体识别方法. 该方法首先利用 XLNet 获取文本的上下文动态特征, 其次利用长短期记忆网络并结合文本上下文匹配词汇的图卷积神经网络(graph convolutional network, GCN)模型分别获取上下文特征与全局特征, 最终经过条件随机场输出标签序列. 2 种不同语料对模型进行验证的结果表明, 该方法在材料数据集上的精确率、召回率和 F1 值分别达到 90.05%、88.67% 和 89.36%, 可有效提升命名实体识别的准确率.  相似文献   

6.
针对武器装备领域复杂实体的特点, 提出一种融合多特征后挂载武器装备领域知识的复杂命名实体识别方法。首先, 使用BERT 模型对武器装备领域数据进行预训练, 得到数据向量, 使用Word2Vec模型学习郑码、五笔、拼音和笔画的上下位特征, 获取特征向量。然后, 将数据向量与特征向量融合, 利用Bi-LSTM模型进行编码, 使用CRF解码得到标签序列。最后, 基于武器装备领域知识, 对标签序列进行复杂实体的触发检测, 完成复杂命名实体识别。使用环球军事网数据作为语料进行实验, 分析不同的特征组合、不同神经网络模型下的识别效果, 并提出适用于评价复杂命名实体识别结果的计算方法。实验结果表明, 提出的挂载领域知识且融合多特征的武器装备复杂命名实体识别方法的F1值达到95.37%, 优于现有方法。  相似文献   

7.
针对目前中文命名实体识别无法表征一词多义以及未能深入捕捉文本潜在语义特征的问题,提出一种融合注意力机制的BERT-BiLSTM-CRF中文命名实体识别方法。首先,通过BERT模型预训练,获得含有丰富语义的词向量;其次,传送到BiLSTM中,获取文本的上下文特征;然后,将上层的输出结果再传向注意力层,对文本中不同文字赋予不同的权重,增强当前信息和上下文信息之间潜在的语义相关性,捕捉文本的潜在语义特征;最后,将结果输入到条件随机场进行解码标注。实验结果表明,在1998年人民日报数据集上取得了较好的识别效果。  相似文献   

8.
针对中文文本中不同维度特征所携带的语义信息具有差异性的问题,本文提出一种基于多维度特征融合的中文文本分类模型:CCM-MF (Chinese-text Classification Model Based on Fused Multi-dimensional Features)。该模型融合层次维度和空间维度特征,以提高中文文本分类的准确率。首先,在层次维度上,使用预训练模型ERNIE (Enhanced Representation through Knowledge Integration)获取包含字、词及实体级别特征的词向量;然后,在空间维度上,将包含层次维度特征的词向量分别输入到改进后的深度金字塔卷积神经网络(Deep Pyramid Convolutional Neural Networks,DPCNN)模型及附加注意力机制的双向长短期记忆网络(Attention-Based Bidirectional Long Short-Term Memory Networks,Att-BLSTM)模型中,得到局部语义特征和全局语义特征;最后,将得到的空间维度特征分别作用于Softmax分类器,再对计算结果进行融合并输出分类结果。通过在多个公开数据集上进行实验,较现有主流的文本分类方法,本模型在准确率上有更好的表现,证明了该模型的有效性。  相似文献   

9.
针对传统的基于字级表示的实体槽位识别模型无法很好利用词语信息,以及信息技术(IT)运维领域缺少足够数量公开数据集的问题,提出一种基于BERT_Word2vec_BiLSTM_CRF模型的实体槽位识别方法,并通过数据增强对模型的训练数据集进行扩展.该模型将基于转换器的双向编码表征(BERT)模型得到的字向量表示和Word2vec得到的词向量表示进行融合,通过双向长短时记忆(BiLSTM)网络进行上下文编码,通过条件随机场(CRF)进行解码,得到最终的序列标注结果.通过在某企业提供的数据集上进行实验,结果表明:融合词级特征可以在BERT预训练模型的基础上进一步提升识别性能,F1值达到了92.33%.  相似文献   

10.
针对命名实体识别方法存在字与字之间语义信息丢失、模型召回率不佳等问题,提出了一种跨度语义信息增强的命名实体识别方法。首先,使用ALBERT预训练语言模型提取文本中包含上下文信息的字符向量,并使用GloVe模型生成字符向量;其次,将两种向量进行拼接作为模型输入向量,对输入向量进行枚举拼接形成跨度信息矩阵;然后,使用多维循环神经网络和注意力网络对跨度信息矩阵进行运算,增强跨度之间的语义联系;最后,将跨度信息增强后的矩阵进行跨度分类以识别命名实体。实验表明:与传统的跨度方法相比该方法能够有效增强跨度之间的语义依赖特征,从而提升命名实体识别的召回率;该方法在ACE2005英文数据集上比传统的方法召回率提高了0.42%,并且取得了最高的F1值。  相似文献   

11.
为了解决柬埔寨语词法标注语料稀缺、柬埔寨语命名实体缺乏明显标识特征的问题,提出一种引入英柬跨语言特征的柬埔寨语命名实体识别方法.首先,借助英语命名实体的成熟模型及英柬双语平行语料的词对齐关系,将源语言的实体类别映射到目标语言;然后根据柬埔寨语词向量构造最近邻图,采用标签传播算法,获得柬埔寨语单词的实体类别分布,完成跨语言知识转移;最后,将柬埔寨语单词的命名实体类别分布作为约束特征融入到条件随机场模型中.实验结果表明,融入跨语言特征的条件随机场模型能有效地提升柬埔寨语命名实体识别的效果.  相似文献   

12.
针对中文命名实体识别中融合词典信息准确率提升不足的问题,使用在模型内部融合词典信息的策略,并结合预训练语言模型NEZHA增强文本的嵌入表示,提出一种基于LNBC(LE-NEZHA-BiLSTM-CRF)模型的中文命名实体识别方法.首先通过词典树匹配所有潜在的词,然后采用面向中文理解的神经语境表征模型(NEZHA)进行融合嵌入表示,将训练得到的字词融合向量输入双向长短期记忆(BiLSTM)网络进行特征提取,获取长距离的语义信息,最后通过条件随机场(CRF)层降低错误标签输出的概率.实验结果表明,该方法在MSRA数据集和Resume数据集中的F1值分别为95.71%和96.11%,较其他对比模型均有提高.  相似文献   

13.
针对数控机床(computer numerical control,CNC)故障领域命名实体识别方法中存在实体规范不足及有效实体识别模型缺乏等问题,制定了领域内实体标注策略,提出了一种基于双向转换编码器(bidirectional encoder representations from transformers,BERT)的数控机床故障领域命名实体识别方法。采用BERT编码层预训练,将生成向量输入到双向长短期记忆网络(bidirectional long short-term memory,BiLSTM)交互层以提取上下文特征,最终通过条件随机域(conditional random field,CRF)推理层输出预测标签。实验结果表明,BERT-BiLSTM-CRF模型在数控机床故障领域更具优势,与现有模型相比,F1值提升大于1.85%。  相似文献   

14.
针对传统命名实体识别方法无法有效利用实体边界信息的问题,提出一种联合实体边界检测的命名实体识别方法,即将实体边界检测作为辅助任务,增强模型对实体边界的判断能力,进而提升模型对实体的识别效果。首先,利用Bert预训练语言模型对原始文本进行特征嵌入获取词向量,并引入自注意力机制增强词对上下文信息的利用;其次,在命名实体识别任务的基础上,添加实体边界检测辅助任务,增强模型对实体边界的识别能力;再次,对比联合实体边界检测的命名实体识别方法与基线方法的有效性,并对测试结果进行消融实验;最后,进行样例分析,分析损失权重β对实体边界检测的影响。实验结果表明,在英文社交媒体数据集Twitter-2015上,联合实体边界检测的命名实体识别方法相较于基线模型取得了更高的精准率、召回率和F1值,其中F1值达到了73.57%;并且,边界检测辅助任务提升了基线方法的检测效果。所提方法能有效利用实体边界信息,从而获得更好的实体识别效果,促进了人机交互系统的发展,对自然语言处理下游任务有重要意义。  相似文献   

15.
通过提出一种多路融合卷积神经网络(multi-mixed convolutional neural network,MMCNN)对网购商品评论数据进行文本情感分类。采用skip-gram模型进行词向量的训练,并用训练好的向量表示评论数据。针对评论数据长短不一的情况,提出了循环词向量填充和随机词向量填充算法,有助于提升模型分类的准确率。针对传统卷积神经网络特征提取方式单一的问题,将多路卷积特征和池化特征在全连接层进行了特征融合,以此提升网络的文本分类效果。选择京东网站上45 000条婴儿奶粉的评论数据进行试验,并与支持向量机、最大熵模型、朴素贝叶斯等传统机器学习方法以及经典卷积神经网络方法进行对比。试验结果表明,提出的多路融合卷积神经网络具有较高的分类正确率。  相似文献   

16.
基于word2vec和BERT词向量技术的方法在文本分类分词过程中存在着错误传播问题,提出了融合ERNIE词向量技术的卷积神经网络模型.针对中文文本,运用ERNIE实体掩码的方式捕获词汇和语义信息,使用卷积神经网络进行特征提取.在THUCNews开源数据集上,准确率达到93.95%,比Word2Vec-CNN高出3.4%,BERT-CNN高出3.07%.实验结果证明了本文模型在缓解错误传播问题的有效性.  相似文献   

17.
【目的】针对词主题信息与词相似性信息对关键词提取的影响进行了研究,提出一种改进的TextRank关键词提取方法。【方法】首先,使用隐含狄利克雷分布(Latent Dirichlet allocation,LDA)主题模型对文档建模计算词主题信息;其次,使用FastText生成词向量,并计算词相似性矩阵;最后,融合词主题信息与词相似性信息的综合权重来优化TextRank词汇节点的初始权重,并进行词图模型的迭代运算与关键词提取。【结果】实验表明,改进方法的提取结果优于传统方法。【结论】证明了考虑词主题信息的全局性与词相似性信息的局部性能有效提高TextRank算法提取关键词的性能。  相似文献   

18.
针对目前中文命名时实体识别方法中存在的中文边界识别困难、模型梯度、文本特征不够充分等问题,提出了一种融合词性特征与双向时间卷积网络的中文命名时实体识别模型。该模型提出使用XLNet预训练语言模型生成对应的词嵌入表示,融合后使用双向时间卷积网络提取文本前向特征与后向特征。实验中对时间卷积网络的空洞因子、卷积层数和卷积核数进行参数实验并分析其影响原因,结果表明,该模型与其他模型相比,能够更准确且有效地提取文本中的实体。  相似文献   

19.
针对中文产品命名实体,提出了一种基于多种特征融合的识别方法。该方法以词为标注粒度,将多种特征融合到条件随机场模型中,采用递增式学习策略选取最优的特征模板,实现了从中文自由文本中识别产品命名实体。实验表明,该方法获得了令人满意的实验效果,准确率、召回率和F值分别达到94.87%、92.50%和93.67%。  相似文献   

20.
针对现有的中文电子简历命名实体识别任务中,模型在训练过程中出现字向量表示单一和无法较好地处理字的多义性问题,提出了一种基于BERT的中文电子简历命名实体识别模型。该模型将电子简历的文本数据通过BERT进行字符级编码,根据上下文语境丰富字的语义信息,有效解决了一词多义的问题;将得到的字向量输入到双向门控循环单元进行特征提取,获取文本的上下文特征;利用条件随机场进行解码并生成标签序列,得到命名实体。实验结果表明,该模型能够有效提高中文电子简历命名实体识别的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号