首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
中文嵌套命名实体识别是自然语言处理中一个比较困难的问题.针对传统的序列化标注方法的不足,本文提出了一种新的基于联合模型的中文嵌套命名实体识别方法,该方法将嵌套命名实体识别看作是一种联合切分和标注任务.联合模型用一种改进的beam search算法作为系统的解码算法,并采用一种在线学习算法平均感知器算法作为训练算法,获得了较快的收敛速度和较好的识别效果.实验结果表明基于联合模型的方法对嵌套命名实体识别取得了更好的效果.  相似文献   

2.
近年来,深度学习方法被广泛地应用于命名实体识别任务中,并取得了良好的效果.但是主流的命名实体识别都是基于序列标注的方法,这类方法依赖于足够的高质量标注语料.然而序列数据的标注成本高昂,导致命名实体识别训练集规模往往较小,这严重地限制了命名实体识别模型的最终性能.为了在不增加人工成本的前提下扩大命名实体识别的训练集规模,本文分别提出了基于EDA(Easy Data Augmentation)、基于远程监督、基于Bootstrap(自展法)的命名实体识别数据增强技术.通过在本文给出的FIND-2019数据集上进行的实验表明,这几种数据增强技术及其它们的组合能够低成本地增加训练集的规模,从而显著地提升命名实体识别模型的性能.  相似文献   

3.
针对手机短信的口语化特点,对手机短信中命名实体识别进行了研究.在对手机短信语料研究与分析的基础上,提出了一种针对手机短信口语化语料进行命名实体识别的方法.实验表明,这种方法对手机短信语料中的命名实体具有较好的识别结果.  相似文献   

4.
分析电子数码领域的产品命名实体识别的难点和特点,提出了一种基于知识库的最大熵模型的产品命名实体识别方法,实现了从中文网络文本中抽取产品命名实体.实验表明,该系统在电子数码领域中能较好地识别出产品命名实体,对产品命名实体的F1值识别性能达到86.91%.  相似文献   

5.
针对中文医药类网络文本的不规范性引起的药名实体识别性能下降,提出基于层次结构的多策略方法。首先使用条件随机场模型结合改进的最大匹配算法识别药名实体,然后在此基础上对其中的不规范药名实体利用最小编辑距离方法规范化药名实体并扩充药名词典。实验结果表明,改进的最大匹配算法结合统计模型有效地提升了药名实体识别的性能,同时为药名实体规范化扩展提供了新的思路。  相似文献   

6.
命名实体是电子病历中相关医学知识的主要载体,因此,临床命名实体识别(Clinical Named Entity Recognition,CNER)也就成为了临床文本分析处理的基础性任务之一.由于文本结构和语言等方面的特殊性,面向中文电子病历(Electronic Medical Records,EMRs)的临床命名实体识别依然存在着巨大的挑战.本文提出了一种基于多头自注意力神经网络的中文临床命名实体识别方法.该方法使用了一种新颖的融合领域词典的字符级特征表示方法,并在BiLSTM-CRF模型的基础上,结合多头自注意力机制来准确地捕获字符间潜在的依赖权重、语境和语义关联等多方面的特征,从而有效地提升了中文临床命名实体的识别能力.实验结果表明本文方法超过现有的其他方法获得了较优的识别性能.  相似文献   

7.
机器学习算法是岩性识别领域重点研究内容之一。与传统岩性识别方法相比,通过监测随钻参数变化进行岩性识别,具有高精度、多信息、集成化、智能化的优点。近年来,随着岩性识别技术不断发展,机器学习算法在岩性识别领域的研究和应用日益广泛。利用机器学习算法分析随钻数据,能够提高岩性识别结果的准确性,更高效地识别地层的岩性和构造。为了厘清岩性识别机器学习算法的发展现状,发掘其在岩性识别技术领域中的技术难题,综述了岩性识别机器学习算法的研究进展。首先,简要介绍了机器学习的概念与发展历程;其次,分类阐述能够用于岩性识别领域的机器学习算法;再次,总结了岩性识别领域各类常用机器学习算法的应用现状,比较了各类算法在岩性识别应用中的优缺点;最后,总结了岩性识别算法存在的问题和面临的挑战,并对其下一步发展方向提出了建议,使未来能更加准确高效地利用机器学习算法分析处理随钻数据,实现机器学习算法与岩性识别技术的深度结合。  相似文献   

8.
文章主要讨论了自然语言处理中的关键技术中文命名实体识别.在总结中文命名实体识别的特点和难点的基础上提出了三种常用的识别方法.重点研究了基于统计方法的隐马尔科夫模型在命名实体识别中的应用,同时指出传统的隐马尔科夫模型在实体识别中存在的局限性,对其进行分析并作出进一步改进.  相似文献   

9.
中文命名实体识别在中文信息处理中扮演着重要的角色. 在中文信息文本中, 许多命名实体内部包含着嵌套实体. 然而, 已有研究大多聚焦在非嵌套实体识别, 无法充分捕获嵌套实体之间的边界信息. 采用分层标注方式进行嵌套命名实体识别(nested named entity recognition, NNER), 将每层的实体识别解析为一个单独的任务, 并通过Gate过滤机制来促进层级之间的信息交换. 利用公开的1998年《人民日报》NNER语料进行了多组实验, 验证了模型的有效性. 实验结果表明, 在不使用外部资源词典信息的情况下, 该方法在《人民日报》数据集上的F1值达到了91.41%, 有效提高了中文嵌套命名实体识别的效果.  相似文献   

10.
电子医疗系统中的医疗健康数据为医学研究和医疗实践奠定了强大的数据基础,如何充分利用这些数据进行探索和分析,更好地支持临床决策和大众健康仍然面临着诸多挑战.因此,对中文医疗命名实体识别方法和研究现状进行归纳分析,对于医学研究具有一定的指导意义.本文阐述了医疗命名实体识别任务的定义,分析并提出了中文医疗命名实体识别的研究热点:语义缺失、资源不足问题、命名实体嵌套.详细介绍了中文医疗命名实体识别的研究现状,从最初的基于规则和字典方法到基于传统的统计学习方法再到现在的基于深度学习方法,不断地将新技术应用到命名实体识别研究中以提高性能.系统总结了常用的若干数据集和实验测评指标,以此评价了中文医疗命名实体识别模型的性能.通过综合论述和分析给出了数据增强等未来的研究建议.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号