首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 484 毫秒
1.
为了准确地从中文文本中识别出复杂体育赛事命名实体,提出了一种基于双层条件随机场模型的命名实体识别方法.该方法首先在低层条件随机场模型中识别出简单体育赛事命名实体,然后在高层条件随机场模型中识别出嵌套了简单体育赛事命名实体的复杂命名实体如赛事名、参赛球队名和比赛场馆名.在对大规模真实语料进行的开放测试中,赛事名、参赛球队名和比赛场馆名识别的F值分别达到97.09%,97.81%和98.03%.  相似文献   

2.
基于条件随机场的越南语命名实体识别方法   总被引:2,自引:0,他引:2  
针对越南语特点,提出一种基于条件随机场模型的越语命名实体识别方法。该方法针对越语词和词性的特点,采用条件随机场算法,选取词和词性作为特征,定义特征模版,选取越南语新闻文本,标记地名、人名、组织机构等6类实体语料,训练获得越南语实体识别模型,实现实体识别。实验结果表明该方法提取实体的准确率达到83.73%。  相似文献   

3.
针对利用远程监督标注文本实体过程中存在实体类别标注错误问题导致模型难以有效区分各实体的类别特征,影响模型精准度的问题,本文提出一种利用原型网络过滤训练语料中标注错误样本的远程监督命名实体识别方法,利用预训练的原型网络编码正确标注实体生成类别原型表示,过滤语料中距类别原型较远的样本.实验表明,使用原型网络有效地提高了语料的标注质量,提升了模型性能.  相似文献   

4.
针对汉越跨语言事件检测缺少平行语料,越南语标注困难,需要统一跨语言语义空间,且触发词存在较大的歧义和局限性等问题,提出基于事件类型感知的汉越跨语言事件检测方法。构造类型感知的注意力机制突显事件特征,融入汉越的词位置、词性和命名实体信息,并通过梯度反转(gradient reversal layer, GRL),实现有标注汉语和无标注越南语之间的对抗训练,将从大量汉语新闻文本中学到的语言无关的事件类型特征融入到联合特征提取器中,进行汉越跨语言的无触发词事件检测,缓解越南语的数据稀缺和触发词的局限性。实验中提出的方法较最好的基线模型在准确率上提升了4.32%。  相似文献   

5.
在把所获取的国家社科基金项目标题按照词表示成训练和测试语料的基础上,基于条件随机场模型和双向长短时记忆模型对所构建的国家社科基金项目学科类别判定模型,进行了多个角度和层面的验证,并与支持向量机模型的实验结果进行对比.基于相应的模型性能评价指标,验证了传统机器学习模型在小规模语料上的整体性能,证明增加了人工特征模型后的条件随机场模型的整体性能并未突出,同时对条件随机场的性能进行个案分析.  相似文献   

6.
命名实体识别是自然语言处理和信息提取的基本任务,传统专家命名实体识别方法存在过度依赖人工特征标注和分词效果、专家简介中大量专业新词无法识别等问题.本文提出一种基于多特征双向门控神经网络结构并结合条件随机场模型进行领域专家实体抽取方法.该方法首先通过构建领域专家语料库以训练实体抽取模型;接着,使用Bert方法进行字嵌入表...  相似文献   

7.
针对现有的中文电子简历命名实体识别任务中,模型在训练过程中出现字向量表示单一和无法较好地处理字的多义性问题,提出了一种基于BERT的中文电子简历命名实体识别模型。该模型将电子简历的文本数据通过BERT进行字符级编码,根据上下文语境丰富字的语义信息,有效解决了一词多义的问题;将得到的字向量输入到双向门控循环单元进行特征提取,获取文本的上下文特征;利用条件随机场进行解码并生成标签序列,得到命名实体。实验结果表明,该模型能够有效提高中文电子简历命名实体识别的准确率。  相似文献   

8.
条件随机场模型是文本信息抽取的重要方法之一,在命名实体识别方面CRF性能要明显优于隐马尔科夫模型和最大熵模型。本文以基于字一级的条件随机场模型实现了中文命名实体识别,取得了较好的识别效果。  相似文献   

9.
电子病历实体识别是医疗领域人工智能和医疗信息服务中非常关键的基础任务.为了更充分地挖掘电子病历中的实体语义知识以提升中文医疗实体识别效果,提出融入外部语义特征的中文电子病历实体识别模型.该模型首先利用语言模型word2vec将大规模的未标记文本生成具有语义特征的字符级向量,接着通过医疗语义资源的整合以及实体边界特征分析构建了医疗实体及特征库,将其与字符级向量相拼接以更好地挖掘序列信息,最后采用改进的Voting算法将深度学习结果与条件随机场(Conditional Random Fields,CRF)的结果加以整合来纠正标签偏置.实验表明,融入外部语义特征的改进模型的F值达到94. 06%,较CRF高出1. 55%.此外,还给出了模型最佳效果的各项参数.  相似文献   

10.
传统中医本草文献含有丰富的中医知识,是中医理论研究的重要载体.为了更好地挖掘中医本草知识,精准地实现中医本草文献命名实体识别任务,提出了一种基于特征增强的Bert-BiGRU-CRF中医本草命名实体识别模型,使用特征融合器拼接Bert生成的词向量与实体特征作为输入,以双向门控循环单元(bi-directional gated recurrent unit, BiGRU)为特征提取器,以条件随机场(conditional random fields, CRF)进行标签预测,通过特征增强的方法更好地识别中医本草的药名、药性、药味、归经等实体及其边界信息,完成中医本草命名实体任务.在中医本草数据集上的实验结果表明,融入特征的模型F1值达到了90.54%,证明了所提出的方法可以更好地提高中医本草命名实体识别精度.  相似文献   

11.
英语-柬埔寨语双语平行语料库资源是柬埔寨语信息处理的一项基础资源,对于促进柬埔寨语言信息处理技术的发展具有非常重要的研究意义。在得到平行的双语网页之后,将平行句对的获取问题看作是对候选平行句对的分类问题。为了从候选平行句对中识别出平行句对,构造了二分类的最大熵分类器。采用句子长度特征、词汇化比例特征、句子位置特征、符号特征等进行英柬双语句对分类器的训练。最后利用该分类器对英柬候选平行句对进行分类,从而确定出英柬双语平行句对资源。实验结果表明通过加入不同的特征进行比较,最终的准确率和召回率达到了90%以上,证明利用该分类器进行平行句对识别取得了比较好的效果。  相似文献   

12.
方莹 《河南科学》2011,29(3):350-353
英文农产品命名实体识别目前国内外研究得较少,提出了一种基于条件随机场模型(CRF)的英文农产品命名实体识别方法.在条件随机场中,该方法以词作为切分粒度,充分利用上下文和英文农产品名特有的指示信息作为分类特征进行建模.实验表明,该方法获得了较好的结果.  相似文献   

13.
互联网公开数据蕴含着大量高价值的军事情报,成为获取开源军事情报的重要数据源之一。军事领域命名实体识别是进行军事领域信息提取、问答系统、知识图谱等工作的基础性关键任务。相比较于其他领域的命名实体,军事领域命名实体边界模糊,界定困难;互联网媒体中军事术语表达不规范,随意性的简化表达现象较普遍;现阶段面向军事领域的公开语料鲜见。该文提出一种考虑实体模糊边界的标注策略,结合领域专家知识,构建了基于微博数据的军事语料集MilitaryCorpus;提出一种多神经网络协作的军事领域命名实体识别模型,该模型通过基于Transformer的双向编码器(bidirectional encoder representations from transformers, BERT)的字向量表达层获得字级别的特征,通过双向长短时记忆神经网络(bi-directional long short-term memory, BiLSTM)层抽取上下文特征形成特征矩阵,最后由条件随机场层(conditional random field, CRF)生成最优标签序列。实验结果表明:相较于基于CRF的实体识别模型,应用该文提出的BERT-BiLSTM-CRF模型召回率提高28.48%,F值提高18.65%;相较于基于BiLSTM-CRF的实体识别模型,该文模型召回率提高13.91%,F值提高8.69%;相较于基于CNN (convolutional neural networks)-BiLSTM-CRF的实体识别模型,该文模型召回率提高7.08%,F值提高5.15%。  相似文献   

14.
针对中文产品命名实体,提出了一种基于多种特征融合的识别方法。该方法以词为标注粒度,将多种特征融合到条件随机场模型中,采用递增式学习策略选取最优的特征模板,实现了从中文自由文本中识别产品命名实体。实验表明,该方法获得了令人满意的实验效果,准确率、召回率和F值分别达到94.87%、92.50%和93.67%。  相似文献   

15.
随着信息技术的发展,电子文档在糖尿病领域的信息记录中得到了大量应用,通过自动化技术对这些电子文档进行分析具有重大的意义。由于现有的命名实体识别方法在糖尿病领域中识别准确率偏低。为了改变这种现状,提出了双层的双向长短时记忆神经网络条件随机场模型(Bi-LSTM-CRF),并将其应用到糖尿病领域命名实体识别任务中。实验结果表明该模型在包含15种实体类别的数据集上准确率达到了89.14%,且在外部测试集上平均F_1值为72.89%,充分揭示了双层Bi-LSTM-CRF模型的有效性。  相似文献   

16.
材料领域的文献中蕴含着丰富的知识, 利用机器学习和自然语言处理等手段对文献进行数据挖掘是研究热点. 命名实体识别(named entity recognition, NER)是高效利用挖掘和抽取数据中信息的首要步骤. 为了解决现有实体识别方法中存在的向量表示无法解决一词多义、模型常提取上下文特征而忽略全局特征等问题, 提出了一种基于上下文词汇匹配和图卷积命名实体识别方法. 该方法首先利用 XLNet 获取文本的上下文动态特征, 其次利用长短期记忆网络并结合文本上下文匹配词汇的图卷积神经网络(graph convolutional network, GCN)模型分别获取上下文特征与全局特征, 最终经过条件随机场输出标签序列. 2 种不同语料对模型进行验证的结果表明, 该方法在材料数据集上的精确率、召回率和 F1 值分别达到 90.05%、88.67% 和 89.36%, 可有效提升命名实体识别的准确率.  相似文献   

17.
在充分研究维吾尔语言形态特征的基础上,制定相应的分词规则并手工标注原始语料,建成原始语料库;针对传统机器学习分词方法过度依赖背景知识和特征选取的问题,提出了一种基于长短期记忆(LSTM)神经网络改进的双向长短时记忆条件随机场(BI-LSTM-CRF)网络模型来进行维吾尔语分词,其能够有效地使用过去和未来的输入特征.利用该分词模型与基于传统机器学习方法的条件随机场(CRF)模型对比,实验结果表明,使用BI-LSTM-CRF模型分词性能有明显提高,且具有良好的泛化能力.  相似文献   

18.
为了快速处理航天情报,基于数据驱动的深度学习技术,提出融合多源异构知识标注中文航天情报数据集的方法流程,以及基于预训练(pre-training)模型的航天情报实体识别(AIER)方法;通过对航天情报进行命名实体识别,达到对航天情报进行信息抽取的目的.通过融合BERT(bidirectional encoder representation from transformers)预训练模型和条件随机场(CRF)模型构建AIER模型(BERT-CRF模型),将其与隐马尔可夫模型(HMM)、条件随机场(CRF)模型、双向长短期记忆网络加条件随机场(BiLSTM-CRF)模型进行实体识别对比实验.结果表明:基于预训练模型的AIER模型能够取得93.68%的准确率、97.56%的召回率和95.58%的F1值;相比于其他方法,基于预训练模型方法的性能得到提高.  相似文献   

19.
汉字是象形文字,其字形特征对于中文命名实体识别有着重要的作用。针对双向长短期记忆模型(bi-directional long short-term memory,BiLSTM)提取部首,命名实体识别准确率不高的问题,提出笔画组成编码器,用于获取汉字的字形特征,并将笔画字形特征向量和预训练的语言表征模型(bidirectional encoder representation from transformers,BERT)输出的字向量进行拼接,将拼接后的向量放入双向长短期记忆模型与条件随机场(conditional random field,CRF)相连的标注模型(BiLSTM-CRF)中进行命名实体识别。实验表明,所提的方法在Resume数据集上命名实体识别准确率有显著提升。相较于用卷积神经网络做编码器提取汉字字形特征,准确率高出0.4%。相较于使用BiLSTM提取的部首特征模型和加入词典的长短期记忆模型(Lattice LSTM)模型其准确率分别提升了4.2%、0.8%。  相似文献   

20.
针对双向长短时记忆网络-条件随机场(bi-directional long short-term memory-conditional random field,BiLSTM-CRF)模型存在准确率低和向量无法表示上下文的问题,提出一种改进的中文命名实体识别模型。利用裁剪的双向编码器表征模型(bidirectional encoder representations from transformers,BERT)得到包含上下文信息的语义向量;输入双向门控循环单元(bidirectional gated recurrent unit,BiGRU)网络及多头自注意力层捕获序列的全局和局部特征;通过条件随机场(conditional random field,CRF)层进行序列解码标注,提取出命名实体。在人民日报和微软亚洲研究院(Microsoft research Asia,MSRA)数据集上的实验结果表明,改进模型在识别效果和速度方面都有一定提高;对BERT模型内在机理的分析表明,BERT模型主要依赖从低层和中层学习到的短语及语法信息完成命名实体识别(named entity recognition,NER)任务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号