首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 136 毫秒
1.
命名实体是电子病历中相关医学知识的主要载体,因此,临床命名实体识别(Clinical Named Entity Recognition,CNER)也就成为了临床文本分析处理的基础性任务之一.由于文本结构和语言等方面的特殊性,面向中文电子病历(Electronic Medical Records,EMRs)的临床命名实体识别依然存在着巨大的挑战.本文提出了一种基于多头自注意力神经网络的中文临床命名实体识别方法.该方法使用了一种新颖的融合领域词典的字符级特征表示方法,并在BiLSTM-CRF模型的基础上,结合多头自注意力机制来准确地捕获字符间潜在的依赖权重、语境和语义关联等多方面的特征,从而有效地提升了中文临床命名实体的识别能力.实验结果表明本文方法超过现有的其他方法获得了较优的识别性能.  相似文献   

2.
随着微博等社交平台的兴起,如何针对微博数据进行产品命名实体识别成为了自然语言处理领域研究的热点之一,也是实现舆情监督和商业智能的基础.传统的命名实体识别技术没有考虑中文微博口语化、不规范等特点,且忽略了深层语义对命名实体识别的重要作用.因此,考虑中文微博的特殊性,提出一种融合全局上下文信息的词向量特征选择方法,分别采用主题模型和神经网络词向量聚类两种方法获取深层语义信息,并结合层叠条件随机场进行中文微博的命名实体识别.实验结果表明,基于词向量聚类的中文微博产品命名实体识别方法取得了较好的效果.  相似文献   

3.
生物医学命名实体识别是生物医学文本挖掘的基本任务.机器学习方法是生物医学命名实体研究的主流方法,选取有效的机器学习算法和采取有效的识别策略是提高生物医学命名实体识别性能的关键,鉴于条件随机域算法在自然语言处理领域的优势,本文采用该算法并结合多种识别策略对生物医学命名实体识别进行研究.实验取得了良好的效果,F测度达到了70.52%,与其它相关系统比较,识别性能有了明显提高.  相似文献   

4.
随着信息技术的发展,电子文档在糖尿病领域的信息记录中得到了大量应用,通过自动化技术对这些电子文档进行分析具有重大的意义。由于现有的命名实体识别方法在糖尿病领域中识别准确率偏低。为了改变这种现状,提出了双层的双向长短时记忆神经网络条件随机场模型(Bi-LSTM-CRF),并将其应用到糖尿病领域命名实体识别任务中。实验结果表明该模型在包含15种实体类别的数据集上准确率达到了89.14%,且在外部测试集上平均F_1值为72.89%,充分揭示了双层Bi-LSTM-CRF模型的有效性。  相似文献   

5.
电子医疗系统中的医疗健康数据为医学研究和医疗实践奠定了强大的数据基础,如何充分利用这些数据进行探索和分析,更好地支持临床决策和大众健康仍然面临着诸多挑战.因此,对中文医疗命名实体识别方法和研究现状进行归纳分析,对于医学研究具有一定的指导意义.本文阐述了医疗命名实体识别任务的定义,分析并提出了中文医疗命名实体识别的研究热...  相似文献   

6.
针对电子病历结构化中的命名实体识别问题,提出一种基于分词任务和命名实体识别任务相结合的多任务双向长短期记忆网络模型(Bidirectional Long Short-Term Memory Conditional Random Feld,Bi-LSTM-CRF).该模型通过加入共享LSTM捕获分词任务中的词边界信息,丰富了命名实体识别任务的特征集,进而达到提高命名实体的效果.实验采集数据由新疆某三甲医院提供的500份冠心病患者的出院小结和2 000份心血管疾病患者的出院小结组成.实验结果表明:F-measure值达到了0.927,满足临床的实际需求.  相似文献   

7.
在数据匮乏的领域,命名实体识别效果受限于欠拟合的字词特征表达,引入常规的多任务学习方法可以有所改善,但需要额外的标注成本.针对这一问题,提出了一种基于多粒度认知的命名实体识别方法,在不产生额外标注成本的前提下,增强字特征信息,提高命名实体识别效果.该方法从多粒度认知理论出发,以BiLSTM和CRF为基础模型,将字粒度下的命名实体识别任务与句子全局粒度下的实体数量预测任务相联合,共同优化字嵌入表达.三个不同类型的数据集上的多组实验表明,引入多粒度认知的方法有效地提升了命名实体识别效果.  相似文献   

8.
针对航空不安全事件领域命名实体识别任务,以航空安全信息周报为数据源,分析并构建航空不安全事件命名实体识别数据集和领域词典。为解决传统命名实体识别模型对于捕获领域实体边界性能较差的问题,基于BERT(bidirectional encoder representations from transformers)预训练语言模型提出融合领域词典嵌入的领域语义信息增强的方法。在自建数据集上进行多次对比实验,结果表明:所提出的方法可以进一步提升实体边界的识别率,相较于传统的双向长短期记忆网络-条件随机场(bi-directional long short term memory-conditional random field, BiLSTM-CRF)命名实体识别模型,性能提升约5%。  相似文献   

9.
提出一种基于模式匹配与命名实体识别相结合的领域答案抽取方法,该方法用答案模式串、答案模式权值和答案类型三要素来定义并构建答案模式库,结合旅游领域命名实体识别方法和模式匹配方法,实现了旅游领域实体答案的抽取.在旅游领域进行实体答案抽取实验,取得了较好的效果,其中召回率达88.78%,准确率达86.04%.  相似文献   

10.
政务领域的命名实体通常是一些政务事项名,这类实体与开放域实体比较,具有长度较长、实体并列、别称等特点,目前还未见公开可用的训练数据集。构建了具有25 176个句子的政务领域命名实体识别数据集,并提出一种基于BERT-BLSTM-CRF的神经网络识别模型,该模型在不依赖人工特征选择的情况下,使用BERT中文预训练模型,然后采用BLSTM-CRF识别实体。实验结果表明,该模型识别效果优于CRF,BLSTM-CRF,CNN-BLSTMCRF,F1值达到92. 23%。  相似文献   

11.
方莹 《河南科学》2011,29(3):350-353
英文农产品命名实体识别目前国内外研究得较少,提出了一种基于条件随机场模型(CRF)的英文农产品命名实体识别方法.在条件随机场中,该方法以词作为切分粒度,充分利用上下文和英文农产品名特有的指示信息作为分类特征进行建模.实验表明,该方法获得了较好的结果.  相似文献   

12.
针对中文产品命名实体,提出了一种基于多种特征融合的识别方法。该方法以词为标注粒度,将多种特征融合到条件随机场模型中,采用递增式学习策略选取最优的特征模板,实现了从中文自由文本中识别产品命名实体。实验表明,该方法获得了令人满意的实验效果,准确率、召回率和F值分别达到94.87%、92.50%和93.67%。  相似文献   

13.
针对数控机床(computer numerical control,CNC)故障领域命名实体识别方法中存在实体规范不足及有效实体识别模型缺乏等问题,制定了领域内实体标注策略,提出了一种基于双向转换编码器(bidirectional encoder representations from transformers,BERT)的数控机床故障领域命名实体识别方法。采用BERT编码层预训练,将生成向量输入到双向长短期记忆网络(bidirectional long short-term memory,BiLSTM)交互层以提取上下文特征,最终通过条件随机域(conditional random field,CRF)推理层输出预测标签。实验结果表明,BERT-BiLSTM-CRF模型在数控机床故障领域更具优势,与现有模型相比,F1值提升大于1.85%。  相似文献   

14.
针对于目前传统的命名实体识别模型在食品案件纠纷裁判文书领域的准确率不足的问题,在双向长短时记忆网络的基础上提出一种基于双向编码器表示模型(bidirectional encoder representations from transformers,Bert)和注意力机制的命名实体识别模型.模型通过Bert层进行字向量预训练,根据上下文语意生成字向量,字向量序列输入双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)层和Attention层提取语义特征,再通过条件随机场(conditional random field,CRF)层预测并输出字的最优标签序列,最终得到食品案件纠纷裁判文书中的实体.实验表明,该模型在食品纠纷法律文书上面的准确率和F1值分别达到了92.56%和90.25%,准确率相较于目前应用最多的BiLSTM-CRF模型提升了6.76%.Bert-BiL-STM-Attention-CRF模型通过对字向量的预训练,充分结合上下文语意,能够有效克服传统命名实体识别模型丢失字的多义性的问题,提高了食品案件纠纷裁判文书领域命名实体识别的准确率.  相似文献   

15.
中文微博命名体识别   总被引:1,自引:0,他引:1  
近年来微博的快速发展为命名体识别提供了新的载体,同时微博的特点也为命名体识别研究带来了挑战.针对微博特点,本文提出了基于拼音相似距离以及文本相似距离聚类算法对微博文本进行规范化,消除了微博的语言表达不规范造成的干扰.同时,本文还提出了篇章级、句子级以及词汇级三级粒度的特征提取,使用条件随机场模型进行训练数据,并识别命名体,采用由微博文本相似聚类获得的实体关系类对命名体类型进行修正.由于缺少大量的微博训练数据,本文采用半监督学习框架训练模型.通过对新浪微博数据的实验结果表明,本方法能够有效地提高微博中命名体识别的效果.  相似文献   

16.
汉字是象形文字,其字形特征对于中文命名实体识别有着重要的作用。针对双向长短期记忆模型(bi-directional long short-term memory,BiLSTM)提取部首,命名实体识别准确率不高的问题,提出笔画组成编码器,用于获取汉字的字形特征,并将笔画字形特征向量和预训练的语言表征模型(bidirectional encoder representation from transformers,BERT)输出的字向量进行拼接,将拼接后的向量放入双向长短期记忆模型与条件随机场(conditional random field,CRF)相连的标注模型(BiLSTM-CRF)中进行命名实体识别。实验表明,所提的方法在Resume数据集上命名实体识别准确率有显著提升。相较于用卷积神经网络做编码器提取汉字字形特征,准确率高出0.4%。相较于使用BiLSTM提取的部首特征模型和加入词典的长短期记忆模型(Lattice LSTM)模型其准确率分别提升了4.2%、0.8%。  相似文献   

17.
中文命名实体识别在中文信息处理中扮演着重要的角色. 在中文信息文本中, 许多命名实体内部包含着嵌套实体. 然而, 已有研究大多聚焦在非嵌套实体识别, 无法充分捕获嵌套实体之间的边界信息. 采用分层标注方式进行嵌套命名实体识别(nested named entity recognition, NNER), 将每层的实体识别解析为一个单独的任务, 并通过Gate过滤机制来促进层级之间的信息交换. 利用公开的1998年《人民日报》NNER语料进行了多组实验, 验证了模型的有效性. 实验结果表明, 在不使用外部资源词典信息的情况下, 该方法在《人民日报》数据集上的F1值达到了91.41%, 有效提高了中文嵌套命名实体识别的效果.  相似文献   

18.
为验证基于深度学习的命名实体识别框架在反恐领域的有效性,参照ACE 2005实体标注规范,制订了细粒度反恐实体标签体系,构建了反恐实体语料集Anti-Terr-Corpus;提出基于MacBERT-BiLSTM-CRF的实体识别模型,通过能减少预训练和微调阶段差异的MacBERT(masked language modeling as correction bidirectional encoder representations from transformers)预训练语言模型获得动态字向量表达,送入双向长短时记忆(bidirectional long short-term memory, BiLSTM)和条件随机场(conditional random field, CRF)进行上下文特征编码和解码得到最佳实体标签;替换框架中的预训练语言模型进行对比实验。实验表明该模型可以有效获取反恐新闻中的重要实体。对比BiLSTM-CRF模型,MacBERT的加入提高了24.5%的F_1值;保持编码-解码层为BiLSTM-CRF时,加入MacBERT比加入ALBERT(a lite BERT)提高了5.1%的F_1值。可见,深度学习有利于反恐领域实体识别,能够利用公开反恐新闻文本为后续反恐形势预判服务,同时有助于反恐领域信息提取、知识图谱构建等基础性任务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号