首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于CNN-CRF的中文电子病历命名实体识别研究   总被引:1,自引:0,他引:1  
智慧医疗技术的发展让我们不满足仅使用传统方法做医学研究。针对中文电子病历实体识别问题,设计了一种基于卷积神经网络结合条件随机场(convolutional neural network-conditional random field,CNN-CRF)的实体识别算法框架。为得到高质量的词向量,将标注实体加入词典进行分词,并将已标注和未标注文本作为语料,用word2vec工具对已分词文本进行无监督学习;为避免扩张卷积层数增加导致过拟合,采用迭代扩张卷积处理输入向量,并使用dropout随机丢弃一些连接;运用条件随机场对网络的分类结果进行修正。把该方法在中文电子病历上进行对比试验,从病历中提取出身体部位,疾病,症状,检查及治疗5类实体。实验结果表明,该方法能有效地辨别病历中的实体,其识别的准确率、召回率和f1值分别为90.01%,90.62%,90.31%,准确率和速率比传统方法都有一定提高。  相似文献   

2.
针对电子病历结构化中的命名实体识别问题,提出一种基于分词任务和命名实体识别任务相结合的多任务双向长短期记忆网络模型(Bidirectional Long Short-Term Memory Conditional Random Feld,Bi-LSTM-CRF).该模型通过加入共享LSTM捕获分词任务中的词边界信息,丰富了命名实体识别任务的特征集,进而达到提高命名实体的效果.实验采集数据由新疆某三甲医院提供的500份冠心病患者的出院小结和2 000份心血管疾病患者的出院小结组成.实验结果表明:F-measure值达到了0.927,满足临床的实际需求.  相似文献   

3.
针对中文产品命名实体,提出了一种基于多种特征融合的识别方法。该方法以词为标注粒度,将多种特征融合到条件随机场模型中,采用递增式学习策略选取最优的特征模板,实现了从中文自由文本中识别产品命名实体。实验表明,该方法获得了令人满意的实验效果,准确率、召回率和F值分别达到94.87%、92.50%和93.67%。  相似文献   

4.
【目的】在中文命名实体识别中,传统命名实体识别方法中词向量只能将其映射为单一向量,无法表征一词多义,在特征提取过程中易忽略局部特征。针对以上问题,提出一种基于知识增强语义表示(enhanced reprsentation through knowledge integration, ERNIE)与多特征融合的实体识别方法。【方法】首先,通过预训练模型ERNIE获得词向量;然后将词向量并行输入双向长短时记忆网络(bidirectional long short-term memory network, BiLSTM)与膨胀卷积神经网络(iterated dilated convolutional neural network, IDCNN)中提取特征,再将输出特征向量进行融合;最后通过条件随机场(conditional random field, CRF)解码获取最佳序列。【结果】本研究所提出的模型优于其他传统模型,在微软亚洲研究院(Microsoft Research Asia, MSRA)数据集上的F1值达到了95.18%,相比基准模型BiLSTM-CRF F<...  相似文献   

5.
针对目前中文命名实体识别研究集中在输入文本的特征的提取,且输入的嵌入表示直接影响模型的性能这一特点,从背景知识、研究现状和未来发展等方面对中文命名实体识别的研究展开全面的调查.回顾了命名实体识别的发展进程,解释中文命名实体识别的研究难点,归纳不同的研究方法,分为基于字的模型、基于词的模型和基于字-词的模型;介绍目前中文命名实体识别的主流数据集、标注方法和评价指标,从不同角度分析了各数据集的特点;讨论了近几年深度学习技术在中文命名实体识别中的最新研究进展,介绍各分类下具有代表性的模型及性能对比,分析性能优劣原因;总结了中文命名实体识别当下所面临的一些挑战,讨论了未来更具有研究价值的方向,促进中文命名实体识别的进一步发展.  相似文献   

6.
多特征中文命名实体识别   总被引:1,自引:0,他引:1  
命名实体识别任务是对文本中的实体进行定位,并将其分类至预定义的类别中.目前主流的中文命名实体识别的模型是基于字符的命名实体识别模型.该模型在使用句法特征之前,需先进行分词,不能很好的引入句子的句法信息.另外,基于字符的模型没有利用词典中的先验词典信息,以及中文偏旁部首蕴含的象形信息.针对上述问题,论文提出了融合句法和多粒度语义信息的多特征中文命名实体识别模型.实验证明论文模型相对目前主流模型有了较大的提高,同时论文还通过实验分析了各种特征对模型识别效果的影响.  相似文献   

7.
8.
基于深度学习的循环神经网络方法,面向中文字和词的特点,重新定义了地名标注的输入和输出,提出了汉字级别的循环网络标注模型.以词级别的循环神经网络方法为基准,本文提出的字级别模型在中文地名识别的准确率、召回率和F值均有明显提高,其中F值提高了2.88%.在包含罕见词时提高更为明显,F值提高了26.41%.   相似文献   

9.
时间作为电子病历中的一类重要实体,对于标识患者从入院到出院期间不同阶段的病情变化,有着不可替代的作用。电子病历文本中的时间可分为独立时间和基于事件的时间,针对这两类时间分别提出了基于bootstrapping的识别算法和基于条件随机场的识别算法。其中,为了解决基于事件的时间短语太长而不能准确定位其边界的问题,引入了中文症状知识库作为词典特征,有效地提高了条件随机场识别结果的准确率、召回率和F1值。实验结果表明,该方法在独立时间和基于事件的时间识别上的F1值分别达到了92.57%和93.98%。  相似文献   

10.
针对传统字向量难以表达上下文语义以及抽取的特征较为单一等问题,提出基于BERT的多特征融合模型BERT-BiLSTM-IDCNN-Attention-CRF,通过BERT建模字向量的上下文语义关系,并融合双向长短期记忆网络(BiLSTM)和迭代膨胀卷积(IDCNN),分别抽取的上下文特征和局部特征,使两种特征进行互补以...  相似文献   

11.
准确地预测社交网络中的信息扩散节点可以对谣言、计算机病毒等不良信息的传播以及信息泄露做到早检测、早溯源和早抑制。为了提高微观扩散预测精度,该文提出了一个基于多特征融合和深度学习的微观信息扩散预测通用框架(MFFDLP)。为了获取信息扩散的时序特征,基于信息扩散序列和社交网络图,采用门控循环神经网络提取局部时序特征和全局时序特征,并融合形成信息扩散序列表征;为了获取用户交互行为和兴趣爱好的动态表示,根据历史信息构建信息扩散图,使用级联图注意力网络提取信息扩散子图中节点特征和边特征,并通过嵌入查找,融合形成当前信息扩散序列中相应节点的动态扩散表征;使用双多头注意力机制,进一步捕获静态和动态扩散特征的上下文信息,实现了高精度微观扩散预测。在3个公共数据集上的对比实验结果表明:所提方法优于对比方法,在微观扩散预测的精度上最高提高了9.98%。  相似文献   

12.
13.
电子病历中蕴含着大量的医疗知识和患者的健康信息,而产科电子病历的结构化及信息抽取对临床决策支持及提高人口的生育健康水平具有重要意义.首先对中文产科电子病历的结构特点及内容进行了分析,并采用基于规则的方法对电子病历数据进行了清洗和结构化;其次采用最大熵(ME)模型及基于规则方法按治疗类型对电子病历进行分类,分类的F值达到88.16%;最后,为了进一步利用电子病历进行信息抽取和知识挖掘,以短句为单位,相似度为衡量标准,采用支持向量机(SVM)模型对首次病程记录进行去重处理及自动差异化分析,从分析的结果中筛选出68.6%的重复及相似短句.  相似文献   

14.
在翻唱歌曲识别中,手工设计的特征虽然具有高可定制性,但其采用的浅层线性结构难以表现音乐的非线性长效结构,而采用基于深度学习的特征提取算法分析音乐的非线性动力学特性可以弥补这一缺陷。本文在研究两者互补性的基础上,提出了一种融合手工特征和深度特征的翻唱歌曲识别算法。该算法分别采用深度学习模型和手工设计算法提取歌曲的音级轮廓特征和旋律特征,然后将基于这两种特征的相似度组合成相似度向量输入到改进的SVM模型中,并将输入歌曲属于翻唱组合的概率作为融合相似度。为了验证算法性能,以两个公开的数据库(covers80,covers1212)作为测试对象进行测试,实验结果表明该算法比基于单个特征的算法和基于相似度融合的算法取得了更高的识别率和分类准确率。  相似文献   

15.
中文文本实体识别,是自然语言处理的关键问题.传统的语言处理模型无法有效表示文本中的上下文语义信息,无法处理一词多义的不同语境,影响实体识别效果.提出了一种BERT-BiLSTM-CRF的实体识别模型,BERT预处理语言模型生成表征上下文语义信息的词向量,通过双向长短期记忆网络对生成的向量进行特征提取,自注意力机制能够有效获取文本语句中的长距离依赖,最后通过CRF进行解码生成实体标签序列.实验结果表明,该模型在微软亚洲研究院MSRA语料库和人民日报语料库上都取得了优异成绩,F1分别达到96.12%和95.88%.  相似文献   

16.
中文文本实体识别,是自然语言处理的关键问题。传统的语言处理模型无法有效表示文本中的上下文语义信息,无法处理一词多义的不同语境,影响实体识别效果。提出了一种BERT-BiLSTM-CRF的实体识别模型,BERT预处理语言模型生成表征上下文语义信息的词向量,通过双向长短期记忆网络对生成的向量进行特征提取,自注意力机制能够有效获取文本语句中的长距离依赖,最后通过CRF进行解码生成实体标签序列。实验结果表明,该模型在微软亚洲研究院MSRA语料库和人民日报语料库上都取得了优异成绩,F1分别达到96.12%和95.88%。  相似文献   

17.
基于深度主动学习的信息安全领域命名实体识别研究   总被引:1,自引:0,他引:1  
针对通用领域模型不能很好地解决信息安全领域的命名实体识别问题,提出一种基于字符特性,双向长短时记忆网络(Bi-LSTM)与条件随机场(CRF)相结合的信息安全领域命名实体识别方法.该方法不依赖于人工选取特征,通过神经网络模型对序列进行标注,再利用CRF对序列标签的相关性进行约束,提高序列标注的准确性.而且,针对信息安全领域标注数据样本不足的问题,采用主动学习方法,使用少量标注样本达到较好的序列标注效果.  相似文献   

18.
为了从来源不同的威胁情报中提取关键信息,方便政府监管部门开展安全风险评估,针对威胁情报文本中英文混杂严重以及专业词汇生僻导致识别困难的问题,在BiGRU-CRF模型基础上,提出了一种融合边界特征以及迭代膨胀卷积神经网络(IDCNN)的威胁情报命名实体识别方法.该方法根据人工构造的规则词典将边界清晰的实体例如英文单词进行转化以减少模型在处理较长文本时容易造成的信息损失,通过IDCNN和双向门控循环单元(BiGRU)进一步提取了文本的局部和全局特征.通过在威胁情报语料库上进行实验,结果表明所提的方法模型在相关评价指标上均优于其他模型,F值达到87.4%.  相似文献   

19.
提出了一种融合深度学习与规则的民族工艺品领域实体识别方法.首先通过BERT预训练语言模型获得语义向量;然后将其输入到BiLSTM-CRF序列标注模型中训练并预测初步结果;最后根据领域特点提出相应的规则对错误预测结果校正.实验结果表明,在自建的民族工艺品数据集上获得的准确率、召回率和F1值分别为95.43%、90.88%和93.10%,可以有效地提取民族文本中命名实体信息.  相似文献   

20.
为提高中文命名实体识别任务的识别率,提出了一种多准则融合模型.采用基于字的BERT语言模型作为语言信息特征提取层,将其接入多准则共享连接层和条件随机场(CRF)层,得到融合模型.建立大规模中文混合语料库,优化模型参数,使用单GPU设备完成BERT语言模型的预训练.将融合模型在MSRA-NER和RMRB-98-1实体标注集上进行独立训练和混合训练,得到各语料库独立的单准则中文命名实体识别模型和多准则融合中文命名实体识别模型.结果表明,多准则融合中文命名实体识别模型能够挖掘语料库间的共有信息,提高中文命名实体的识别率,MSRA-NER和RMRB-98-1实体标注集上的F1值分别为94.46%和94.32%,优于其他现有模型.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号