首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 250 毫秒
1.
为了准确地从中文文本中识别出复杂体育赛事命名实体,提出了一种基于双层条件随机场模型的命名实体识别方法.该方法首先在低层条件随机场模型中识别出简单体育赛事命名实体,然后在高层条件随机场模型中识别出嵌套了简单体育赛事命名实体的复杂命名实体如赛事名、参赛球队名和比赛场馆名.在对大规模真实语料进行的开放测试中,赛事名、参赛球队名和比赛场馆名识别的F值分别达到97.09%,97.81%和98.03%.  相似文献   

2.
生物医学命名实体识别是生物医学文本挖掘的基本任务.机器学习方法是生物医学命名实体研究的主流方法,选取有效的机器学习算法和采取有效的识别策略是提高生物医学命名实体识别性能的关键,鉴于条件随机域算法在自然语言处理领域的优势,本文采用该算法并结合多种识别策略对生物医学命名实体识别进行研究.实验取得了良好的效果,F测度达到了70.52%,与其它相关系统比较,识别性能有了明显提高.  相似文献   

3.
中文嵌套命名实体识别是自然语言处理中一个比较困难的问题.针对传统的序列化标注方法的不足,本文提出了一种新的基于联合模型的中文嵌套命名实体识别方法,该方法将嵌套命名实体识别看作是一种联合切分和标注任务.联合模型用一种改进的beam search算法作为系统的解码算法,并采用一种在线学习算法平均感知器算法作为训练算法,获得了较快的收敛速度和较好的识别效果.实验结果表明基于联合模型的方法对嵌套命名实体识别取得了更好的效果.  相似文献   

4.
近年来,网络媒体微博的迅速发展,为命名实体的识别研究提供了一种全新的载体.针对中文微博文本短、表达不清、网络化严重等特点,论文提出了一种规则与统计相结合的中文微博命名实体识别方法.该方法首先利用中文微博的主题标签对处理后的数据进行筛选,然后再选取合适的特征模板,并利用条件随机场模型(Conditional random fields, CRF)进行实体识别.为了满足实验要求,该文将传统网页爬虫方法与API接口采集方法相结合进行微博数据采集.实验结果表明,该方法能够有效提高中文微博命名实体的识别效果.  相似文献   

5.
针对命名实体识别方法存在字与字之间语义信息丢失、模型召回率不佳等问题,提出了一种跨度语义信息增强的命名实体识别方法。首先,使用ALBERT预训练语言模型提取文本中包含上下文信息的字符向量,并使用GloVe模型生成字符向量;其次,将两种向量进行拼接作为模型输入向量,对输入向量进行枚举拼接形成跨度信息矩阵;然后,使用多维循环神经网络和注意力网络对跨度信息矩阵进行运算,增强跨度之间的语义联系;最后,将跨度信息增强后的矩阵进行跨度分类以识别命名实体。实验表明:与传统的跨度方法相比该方法能够有效增强跨度之间的语义依赖特征,从而提升命名实体识别的召回率;该方法在ACE2005英文数据集上比传统的方法召回率提高了0.42%,并且取得了最高的F1值。  相似文献   

6.
基于条件随机场的越南语命名实体识别方法   总被引:2,自引:0,他引:2  
针对越南语特点,提出一种基于条件随机场模型的越语命名实体识别方法。该方法针对越语词和词性的特点,采用条件随机场算法,选取词和词性作为特征,定义特征模版,选取越南语新闻文本,标记地名、人名、组织机构等6类实体语料,训练获得越南语实体识别模型,实现实体识别。实验结果表明该方法提取实体的准确率达到83.73%。  相似文献   

7.
命名实体识别研究中,数据集内普遍存在实体与非实体,实体内部类别间边界样本混淆的问题,极大地影响了命名实体识别方法的性能.提出以BiLSTM-CRF为基线模型,结合困难样本筛选与目标攻击对抗训练的命名实体识别方法.该方法筛选出包含大量边界样本的困难样本,利用边界样本易被扰动偏离正确类别的特性,采用按照混淆矩阵错误概率分布的目标攻击方法,生成对抗样本用于对抗训练,增强模型对混淆边界样本的识别能力.为验证该方法的优越性,设计非目标攻击方式的全局、局部对抗训练方法与目标攻击全局对抗训练方法作为对比实验.实验结果表明,该方法提高了对抗样本质量,保留了对抗训练的优势,在JNLPBA、MalwareTextDB、Drugbank三个数据集上F1值分别提升1.34%、6.03%、3.65%.  相似文献   

8.
命名实体识别是自然语言处理和信息提取的基本任务,传统专家命名实体识别方法存在过度依赖人工特征标注和分词效果、专家简介中大量专业新词无法识别等问题.本文提出一种基于多特征双向门控神经网络结构并结合条件随机场模型进行领域专家实体抽取方法.该方法首先通过构建领域专家语料库以训练实体抽取模型;接着,使用Bert方法进行字嵌入表示,对语料库专业领域词汇构造要素进行特征分析并提取边界特征;然后,利用双向门控神经网络和注意力机制有效获取特定词语长距离依赖关系;最后,结合条件随机场模型实现命名实体识别.在同一数据集上进行5种方法实验比较分析,结果表明该模型较BiLSTM-CRF和IDCNN-CRF方法F1值提高9.98%以上.  相似文献   

9.
基于转移学习的命名实体挖掘技术   总被引:1,自引:0,他引:1  
研究了针对大规模查询日志中丰富的命名实体的挖掘技术,通过利用Wikipedia数据,结合转移学习方法构建目标类别的分类器.该技术很好地利用了监督学习的优越性能以提高查询日志中命名实体挖掘的准确性,同时也解决了监督学习方法中大规模标注的问题.实验结果表明,基于转移学习的命名实体挖掘技术具有优越的命名实体挖掘性能.  相似文献   

10.
为了解决柬埔寨语词法标注语料稀缺、柬埔寨语命名实体缺乏明显标识特征的问题,提出一种引入英柬跨语言特征的柬埔寨语命名实体识别方法.首先,借助英语命名实体的成熟模型及英柬双语平行语料的词对齐关系,将源语言的实体类别映射到目标语言;然后根据柬埔寨语词向量构造最近邻图,采用标签传播算法,获得柬埔寨语单词的实体类别分布,完成跨语言知识转移;最后,将柬埔寨语单词的命名实体类别分布作为约束特征融入到条件随机场模型中.实验结果表明,融入跨语言特征的条件随机场模型能有效地提升柬埔寨语命名实体识别的效果.  相似文献   

11.
针对中文产品命名实体,提出了一种基于多种特征融合的识别方法。该方法以词为标注粒度,将多种特征融合到条件随机场模型中,采用递增式学习策略选取最优的特征模板,实现了从中文自由文本中识别产品命名实体。实验表明,该方法获得了令人满意的实验效果,准确率、召回率和F值分别达到94.87%、92.50%和93.67%。  相似文献   

12.
中文微博命名体识别   总被引:1,自引:0,他引:1  
近年来微博的快速发展为命名体识别提供了新的载体,同时微博的特点也为命名体识别研究带来了挑战.针对微博特点,本文提出了基于拼音相似距离以及文本相似距离聚类算法对微博文本进行规范化,消除了微博的语言表达不规范造成的干扰.同时,本文还提出了篇章级、句子级以及词汇级三级粒度的特征提取,使用条件随机场模型进行训练数据,并识别命名体,采用由微博文本相似聚类获得的实体关系类对命名体类型进行修正.由于缺少大量的微博训练数据,本文采用半监督学习框架训练模型.通过对新浪微博数据的实验结果表明,本方法能够有效地提高微博中命名体识别的效果.  相似文献   

13.
为了快速处理航天情报,基于数据驱动的深度学习技术,提出融合多源异构知识标注中文航天情报数据集的方法流程,以及基于预训练(pre-training)模型的航天情报实体识别(AIER)方法;通过对航天情报进行命名实体识别,达到对航天情报进行信息抽取的目的.通过融合BERT(bidirectional encoder representation from transformers)预训练模型和条件随机场(CRF)模型构建AIER模型(BERT-CRF模型),将其与隐马尔可夫模型(HMM)、条件随机场(CRF)模型、双向长短期记忆网络加条件随机场(BiLSTM-CRF)模型进行实体识别对比实验.结果表明:基于预训练模型的AIER模型能够取得93.68%的准确率、97.56%的召回率和95.58%的F1值;相比于其他方法,基于预训练模型方法的性能得到提高.  相似文献   

14.
针对数控机床(computer numerical control,CNC)故障领域命名实体识别方法中存在实体规范不足及有效实体识别模型缺乏等问题,制定了领域内实体标注策略,提出了一种基于双向转换编码器(bidirectional encoder representations from transformers,BERT)的数控机床故障领域命名实体识别方法。采用BERT编码层预训练,将生成向量输入到双向长短期记忆网络(bidirectional long short-term memory,BiLSTM)交互层以提取上下文特征,最终通过条件随机域(conditional random field,CRF)推理层输出预测标签。实验结果表明,BERT-BiLSTM-CRF模型在数控机床故障领域更具优势,与现有模型相比,F1值提升大于1.85%。  相似文献   

15.
材料领域的文献中蕴含着丰富的知识, 利用机器学习和自然语言处理等手段对文献进行数据挖掘是研究热点. 命名实体识别(named entity recognition, NER)是高效利用挖掘和抽取数据中信息的首要步骤. 为了解决现有实体识别方法中存在的向量表示无法解决一词多义、模型常提取上下文特征而忽略全局特征等问题, 提出了一种基于上下文词汇匹配和图卷积命名实体识别方法. 该方法首先利用 XLNet 获取文本的上下文动态特征, 其次利用长短期记忆网络并结合文本上下文匹配词汇的图卷积神经网络(graph convolutional network, GCN)模型分别获取上下文特征与全局特征, 最终经过条件随机场输出标签序列. 2 种不同语料对模型进行验证的结果表明, 该方法在材料数据集上的精确率、召回率和 F1 值分别达到 90.05%、88.67% 和 89.36%, 可有效提升命名实体识别的准确率.  相似文献   

16.
汉字是象形文字,其字形特征对于中文命名实体识别有着重要的作用。针对双向长短期记忆模型(bi-directional long short-term memory,BiLSTM)提取部首,命名实体识别准确率不高的问题,提出笔画组成编码器,用于获取汉字的字形特征,并将笔画字形特征向量和预训练的语言表征模型(bidirectional encoder representation from transformers,BERT)输出的字向量进行拼接,将拼接后的向量放入双向长短期记忆模型与条件随机场(conditional random field,CRF)相连的标注模型(BiLSTM-CRF)中进行命名实体识别。实验表明,所提的方法在Resume数据集上命名实体识别准确率有显著提升。相较于用卷积神经网络做编码器提取汉字字形特征,准确率高出0.4%。相较于使用BiLSTM提取的部首特征模型和加入词典的长短期记忆模型(Lattice LSTM)模型其准确率分别提升了4.2%、0.8%。  相似文献   

17.
在数据匮乏的领域,命名实体识别效果受限于欠拟合的字词特征表达,引入常规的多任务学习方法可以有所改善,但需要额外的标注成本.针对这一问题,提出了一种基于多粒度认知的命名实体识别方法,在不产生额外标注成本的前提下,增强字特征信息,提高命名实体识别效果.该方法从多粒度认知理论出发,以BiLSTM和CRF为基础模型,将字粒度下的命名实体识别任务与句子全局粒度下的实体数量预测任务相联合,共同优化字嵌入表达.三个不同类型的数据集上的多组实验表明,引入多粒度认知的方法有效地提升了命名实体识别效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号