期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李宝昌郭卫斌《华东理工大学学报(自然科学版)》2023,49(2):276-283

在中文命名实体识别任务中,字信息融合词汇信息能丰富文本特征,但一个字可能对应多个候选词汇,容易产生词汇冲突,融合无关词汇信息会影响模型的识别效果,对此提出了词典信息分层调整的中文命名实体识别方法。首先将所有潜在词语按照词语长度进行分层,通过高层词语反馈调整低层词语的权重来保留更有用的信息,以此缓解语义偏差问题和降低词汇冲突影响;然后将词汇信息拼接到字信息来增强文本特征表示。在Resume和Weibo数据集上的实验结果表明,本文方法与传统方法相比具有更优的效果。相似文献

2.

跨度语义增强的命名实体识别方法

耿汝山陈艳平唐瑞雪黄瑞章秦永彬董博《西安交通大学学报》2022,(7):118-126

针对命名实体识别方法存在字与字之间语义信息丢失、模型召回率不佳等问题,提出了一种跨度语义信息增强的命名实体识别方法。首先,使用ALBERT预训练语言模型提取文本中包含上下文信息的字符向量,并使用GloVe模型生成字符向量;其次,将两种向量进行拼接作为模型输入向量,对输入向量进行枚举拼接形成跨度信息矩阵;然后,使用多维循环神经网络和注意力网络对跨度信息矩阵进行运算,增强跨度之间的语义联系;最后,将跨度信息增强后的矩阵进行跨度分类以识别命名实体。实验表明：与传统的跨度方法相比该方法能够有效增强跨度之间的语义依赖特征,从而提升命名实体识别的召回率;该方法在ACE2005英文数据集上比传统的方法召回率提高了0.42%,并且取得了最高的F₁值。相似文献

3.

融合音节部件特征的藏文命名实体识别方法

洛桑嘎登群诺索南尖措仁增多杰《厦门大学学报(自然科学版)》2022,(4):624-629

藏文命名实体识别是藏语自然语言处理的基础任务,是完成机器翻译、网络舆情检测和知识图谱构建等任务的前提.传统的基于深度学习的藏文命名实体识别将藏文音节(字嵌入)作为模型输入的方法容易忽略藏文音节的局部特征.针对这一问题,本文提出了一种融合构成藏文音节部件特征和藏文音节特征的藏文命名实体识别神经网络模型SL-BiLSTM-CRF(syllable level long short-term memory conditional random field).其中,SL模块对构成音节的部件信息和藏文的单个音节进行特征编码,将两种不同模态的特征融合之后送入BiLSTM模型进行特征提取并预测实体标签,再通过CRF对BiLSTM模型的预测结果进行矫正,最终输出藏文实体识别结果.实验证明,该方法在藏文命名实体识别任务中相比基于单个藏文音节(字嵌入)的BiLSTM-CRF模型的F₁值提高了1.58个百分点,验证了该方法在藏文命名实体识别任务中的有效性. 相似文献

4.

融合笔画特征的命名实体识别方法

下载免费PDF全文

蒋丽媛吴亚东王书航张巍瀚李懿《科学技术与工程》2023,23(17):7436-7443

汉字是象形文字,其字形特征对于中文命名实体识别有着重要的作用。针对双向长短期记忆模型（bi-directional long short-term memory,BiLSTM）提取部首,命名实体识别准确率不高的问题,提出笔画组成编码器,用于获取汉字的字形特征,并将笔画字形特征向量和预训练的语言表征模型（bidirectional encoder representation from transformers,BERT）输出的字向量进行拼接,将拼接后的向量放入双向长短期记忆模型与条件随机场（conditional random field,CRF）相连的标注模型（BiLSTM-CRF）中进行命名实体识别。实验表明,所提的方法在Resume数据集上命名实体识别准确率有显著提升。相较于用卷积神经网络做编码器提取汉字字形特征,准确率高出0.4%。相较于使用BiLSTM提取的部首特征模型和加入词典的长短期记忆模型(Lattice LSTM)模型其准确率分别提升了4.2%、0.8%。相似文献

5.

结合位置感知的命名实体识别方法

王纪恬陈艳平黄蓉黄瑞章秦永彬《广西科学》2025,32(1):96-105

命名实体识别(Named Entity Recognition,NER)的性能影响自然语言处理中诸多下游任务。跨度分类是命名实体识别常用的方法,由于其需要枚举每一个跨度,因此存在高复杂度和大量负实例问题。此外,对每个跨度的独立预测不仅忽略了词与词之间的依赖关系和位置信息,而且导致模型获取的语义信息较为单一,从而忽略了全局信息。针对上述问题,本文提出结合位置感知的命名实体识别方法。具体来说,首先使用位置编码增强词与词之间的位置特征,序列融合了绝对位置信息和相对位置信息,从而得到关注语序的语义信息,预测可能的实体边界;然后对候选实体边界进行匹配组合并过滤生成带有标签信息的候选实体实例;最后使用具有局部信息感知的标签注意力机制和多层感知机联合判断候选实体的标签。实验结果表明,本文提出模型在ACE2005、GENIA和CoNLL-2003数据集上的F1分数分别达到90.02%、81.33%和94.52%,该结果充分验证了所提模型在不同数据集上的有效性,进一步证明了其在命名实体识别任务中的优越性能。相似文献

6.

基于语义边界增强的司法命名实体识别

下载免费PDF全文

张天宇孙媛媛杜文玉邢铁军林鸿飞杨亮《清华大学学报(自然科学版)》2024,64(5):749-759

法律文书命名实体识别是智慧司法的关键任务。现有的序列标注模型仅关注字符信息, 导致在法律文书命名实体识别任务中无法获得语义和词语的上下文信息, 且无法对实体的边界进行限制。因此, 该文提出了一个融合外部信息并对边界限制的司法命名实体识别模型（semantic and boundary enhance named entity recognition, SBENER）。该模型收集了40万条盗窃罪法律文书, 首先, 预训练模型, 将获得的司法盗窃罪词向量作为输入模型的外部信息; 其次, 设计 Adapter, 将司法盗窃罪的信息融入字符序列以增强语义特征; 最后, 使用边界指针网络对实体边界进行限制, 解决了序列标注模型丢失词语信息及缺少边界限制的问题。该模型在 CAILIE 1.0 数据集和LegalCorpus数据集上进行实验, 结果表明, SBENER模型在2个数据集上的F₁ 值（F₁-score）分别达88.70 %和87.67 %, 比其他基线模型取得了更好的效果。SBENER模型能够提升司法领域命名实体识别的效果。相似文献

7.

基于多维度特征融合的中文命名实体识别系统

牛迪《南京理工大学学报(自然科学版)》2020,44(6):645-650

现阶段的命名实体识别(Named entity recognition,NER)多依赖深度学习模型自动抽取文本特征,无法对文本中字词的特征进行融合,同时对于模型的错误预测结果也无法人工干预,只能通过优化模型参数和再次语料训练来解决.针对这样的问题,该文设计了整体的NER系统架构,同时提出了多维度特征融合的深度学习模型.... 相似文献

8.

基于LNBC模型的中文命名实体识别

马永军王野《天津科技大学学报》2023,(2):50-55

针对中文命名实体识别中融合词典信息准确率提升不足的问题,使用在模型内部融合词典信息的策略,并结合预训练语言模型NEZHA增强文本的嵌入表示,提出一种基于LNBC(LE-NEZHA-BiLSTM-CRF)模型的中文命名实体识别方法．首先通过词典树匹配所有潜在的词,然后采用面向中文理解的神经语境表征模型(NEZHA)进行融合嵌入表示,将训练得到的字词融合向量输入双向长短期记忆(BiLSTM)网络进行特征提取,获取长距离的语义信息,最后通过条件随机场(CRF)层降低错误标签输出的概率．实验结果表明,该方法在MSRA数据集和Resume数据集中的F1值分别为95.71%和96.11%,较其他对比模型均有提高．相似文献

9.

融合边界交互信息的命名实体识别方法

何安康;陈艳平;扈应;黄瑞章;秦永彬《广西师范大学学报(自然科学版)》2025,(3):1-11

命名实体识别是自然语言处理领域中的一项基本任务,旨在识别和分类文本中的命名实体。目前,基于跨度的方法在实体识别方面取得一定进展,但这些方法往往忽视了候选跨度的质量差异。针对该问题,本文提出一种融合边界交互信息的命名实体识别方法。该方法通过一个边界交互模块评估边界间的语义关联和交互强度,生成边界交互信息矩阵,用于识别边界间潜在的语义联系,引导模型识别和标记出高质量的候选跨度。此外,该方法集成多尺度空洞卷积模块,利用跨度之间的语义关系来减轻非实体噪声的影响。实验表明,本文方法在ACE2005中文数据集、ACE2005英文数据集和Weibo数据集上的F₁值分别达到89.78%、87.37%和72.10%,与基准模型相比分别提升0.67、0.95和0.69个百分点,验证了该方法对命名实体识别的有效性。相似文献

10.

多特征中文命名实体识别 总被引：1，自引：0，他引：1

下载免费PDF全文

胥小波王涛康睿周刚李天宁《四川大学学报(自然科学版)》2022,59(2):022003-63

命名实体识别任务是对文本中的实体进行定位,并将其分类至预定义的类别中.目前主流的中文命名实体识别的模型是基于字符的命名实体识别模型.该模型在使用句法特征之前,需先进行分词,不能很好的引入句子的句法信息.另外,基于字符的模型没有利用词典中的先验词典信息,以及中文偏旁部首蕴含的象形信息.针对上述问题,论文提出了融合句法和多粒度语义信息的多特征中文命名实体识别模型.实验证明论文模型相对目前主流模型有了较大的提高,同时论文还通过实验分析了各种特征对模型识别效果的影响. 相似文献

11.

针对命名实体识别的数据增强技术

《华东师范大学学报(自然科学版)》2021,(5)

近年来,深度学习方法被广泛地应用于命名实体识别任务中,并取得了良好的效果.但是主流的命名实体识别都是基于序列标注的方法,这类方法依赖于足够的高质量标注语料.然而序列数据的标注成本高昂,导致命名实体识别训练集规模往往较小,这严重地限制了命名实体识别模型的最终性能.为了在不增加人工成本的前提下扩大命名实体识别的训练集规模,本文分别提出了基于EDA(Easy Data Augmentation)、基于远程监督、基于Bootstrap(自展法)的命名实体识别数据增强技术.通过在本文给出的FIND-2019数据集上进行的实验表明,这几种数据增强技术及其它们的组合能够低成本地增加训练集的规模,从而显著地提升命名实体识别模型的性能. 相似文献

12.

联合实体边界检测的命名实体识别方法

下载免费PDF全文

李晓腾勾智楠高凯《河北科技大学学报》2023,44(1):20-28

针对传统命名实体识别方法无法有效利用实体边界信息的问题,提出一种联合实体边界检测的命名实体识别方法,即将实体边界检测作为辅助任务,增强模型对实体边界的判断能力,进而提升模型对实体的识别效果。首先,利用Bert预训练语言模型对原始文本进行特征嵌入获取词向量,并引入自注意力机制增强词对上下文信息的利用;其次,在命名实体识别任务的基础上,添加实体边界检测辅助任务,增强模型对实体边界的识别能力;再次,对比联合实体边界检测的命名实体识别方法与基线方法的有效性,并对测试结果进行消融实验;最后,进行样例分析,分析损失权重β对实体边界检测的影响。实验结果表明,在英文社交媒体数据集Twitter-2015上,联合实体边界检测的命名实体识别方法相较于基线模型取得了更高的精准率、召回率和F1值,其中F1值达到了73.57%;并且,边界检测辅助任务提升了基线方法的检测效果。所提方法能有效利用实体边界信息,从而获得更好的实体识别效果,促进了人机交互系统的发展,对自然语言处理下游任务有重要意义。相似文献

13.

基于BERT-BLSTM-CRF的政务领域命名实体识别方法

张晖李波杨春明赵旭剑魏成志《西南科技大学学报》2020,(3):86-91

政务领域的命名实体通常是一些政务事项名,这类实体与开放域实体比较,具有长度较长、实体并列、别称等特点,目前还未见公开可用的训练数据集.构建了具有25176个句子的政务领域命名实体识别数据集,并提出一种基于BERT-BLSTM-CRF的神经网络识别模型,该模型在不依赖人工特征选择的情况下,使用BERT中文预训练模型,然后... 相似文献

14.

基于多粒度认知的命名实体识别方法

下载免费PDF全文

李攀锋陈樱珏钟泠韵林锋《四川大学学报(自然科学版)》2022,59(2):022004-70

在数据匮乏的领域,命名实体识别效果受限于欠拟合的字词特征表达,引入常规的多任务学习方法可以有所改善,但需要额外的标注成本.针对这一问题,提出了一种基于多粒度认知的命名实体识别方法,在不产生额外标注成本的前提下,增强字特征信息,提高命名实体识别效果.该方法从多粒度认知理论出发,以BiLSTM和CRF为基础模型,将字粒度下的命名实体识别任务与句子全局粒度下的实体数量预测任务相联合,共同优化字嵌入表达.三个不同类型的数据集上的多组实验表明,引入多粒度认知的方法有效地提升了命名实体识别效果. 相似文献

15.

中文医疗命名实体识别方法研究综述

王红王彩雨《山东师范大学学报(自然科学版)》2021,(2):109-117

电子医疗系统中的医疗健康数据为医学研究和医疗实践奠定了强大的数据基础,如何充分利用这些数据进行探索和分析,更好地支持临床决策和大众健康仍然面临着诸多挑战.因此,对中文医疗命名实体识别方法和研究现状进行归纳分析,对于医学研究具有一定的指导意义.本文阐述了医疗命名实体识别任务的定义,分析并提出了中文医疗命名实体识别的研究热... 相似文献

16.

基于标签语义信息感知的少样本命名实体识别方法

张越;王长征;苏雪峰;闫智超;张广军;邵文远;李茹《北京大学学报(自然科学版)》2024,60(3):413-421

在少样本命名实体识别方法中,目前广泛应用的方法是基于原型网络的两阶段模型。但是,该方法未充分利用实体标签中的语义信息,且在距离计算中过度依赖实体类型原型向量,导致模型泛化能力差。针对这些问题,提出一种基于标签语义信息感知的少样本命名实体识别方法。该方法是一种先进行实体跨度检测,再判断实体类型的两阶段方法。在构建实体类型原型向量时,将对应实体类型包含的语义信息考虑在内,通过维度转换层将其与原型向量相融合。在对新样本进行实体识别时,将实体类型的正负样本与实体类型原型向量组成实体类型三元组,依据样本到三元组的距离对其进行分类。在多个数据集上的实验结果证明,该模型的性能比以往的模型有较大的提升。相似文献

17.

融合多特征的中文产品命名实体识别

下载免费PDF全文

谷川《科学技术与工程》2013,13(31)

针对中文产品命名实体,提出了一种基于多种特征融合的识别方法。该方法以词为标注粒度,将多种特征融合到条件随机场模型中,采用递增式学习策略选取最优的特征模板,实现了从中文自由文本中识别产品命名实体。实验表明,该方法获得了令人满意的实验效果,准确率、召回率和F值分别达到94.87%、92.50%和93.67%。相似文献

18.

基于BERT-IDCNN-CRF的中文命名实体识别方法

李妮关焕梅杨飘董文永《山东大学学报(理学版)》2020,55(1):102-109

预训练语言模型能够表达句子丰富的句法和语法信息,并且能够对词的多义性建模,在自然语言处理中有着广泛的应用,BERT(bidirectional encoder representations from transformers)预训练语言模型是其中之一。在基于BERT微调的命名实体识别方法中,存在的问题是训练参数过多,训练时间过长。针对这个问题提出了基于BERT-IDCNN-CRF(BERT-iterated dilated convolutional neural network-conditional random field)的中文命名实体识别方法,该方法通过BERT预训练语言模型得到字的上下文表示,再将字向量序列输入IDCNN-CRF模型中进行训练,训练过程中保持BERT参数不变,只训练IDCNN-CRF部分,在保持多义性的同时减少了训练参数。实验表明,该模型在MSRA语料上F1值能够达到94.41%,在中文命名实体任务上优于目前最好的Lattice-LSTM模型,提高了1.23%;与基于BERT微调的方法相比,该方法的F1值略低但是训练时间大幅度缩短。将该模型应用于信息安全、电网电磁环境舆情等领域的敏感实体识别,速度更快,响应更及时。相似文献

19.

基于局部对抗训练的命名实体识别方法研究

下载免费PDF全文

李静程芃森许丽丹刘嘉勇《四川大学学报(自然科学版)》2021,58(2):023003-023003-8

命名实体识别研究中,数据集内普遍存在实体与非实体,实体内部类别间边界样本混淆的问题,极大地影响了命名实体识别方法的性能.提出以BiLSTM-CRF为基线模型,结合困难样本筛选与目标攻击对抗训练的命名实体识别方法.该方法筛选出包含大量边界样本的困难样本,利用边界样本易被扰动偏离正确类别的特性,采用按照混淆矩阵错误概率分布的目标攻击方法,生成对抗样本用于对抗训练,增强模型对混淆边界样本的识别能力.为验证该方法的优越性,设计非目标攻击方式的全局、局部对抗训练方法与目标攻击全局对抗训练方法作为对比实验.实验结果表明,该方法提高了对抗样本质量,保留了对抗训练的优势,在JNLPBA、MalwareTextDB、Drugbank三个数据集上F1值分别提升1.34%、6.03%、3.65%. 相似文献

20.

基于词汇增强与跨度编码的中文命名实体识别

《曲阜师范大学学报》2023,49(4)

相似文献