首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 212 毫秒
1.
为了准确地从中文文本中识别出复杂体育赛事命名实体,提出了一种基于双层条件随机场模型的命名实体识别方法.该方法首先在低层条件随机场模型中识别出简单体育赛事命名实体,然后在高层条件随机场模型中识别出嵌套了简单体育赛事命名实体的复杂命名实体如赛事名、参赛球队名和比赛场馆名.在对大规模真实语料进行的开放测试中,赛事名、参赛球队名和比赛场馆名识别的F值分别达到97.09%,97.81%和98.03%.  相似文献   

2.
在充分研究维吾尔语言形态特征的基础上,制定相应的分词规则并手工标注原始语料,建成原始语料库;针对传统机器学习分词方法过度依赖背景知识和特征选取的问题,提出了一种基于长短期记忆(LSTM)神经网络改进的双向长短时记忆条件随机场(BI-LSTM-CRF)网络模型来进行维吾尔语分词,其能够有效地使用过去和未来的输入特征.利用该分词模型与基于传统机器学习方法的条件随机场(CRF)模型对比,实验结果表明,使用BI-LSTM-CRF模型分词性能有明显提高,且具有良好的泛化能力.  相似文献   

3.
近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列数据标注模型,基于字的词位标注汉语分词方法逐渐成为汉语分词的主要技术路线.针对一些领域文本中含有较多的英文词汇、缩写、数字等非汉字子串,提出了一种基于字和子串联合标注的汉语分词方法,该方法将子串看作和汉字等同的一个整体,采用四词位标注集,使用条件随机场模型深入研究了基于字和子串联合标注的汉语分词技术.在CIPS-SIGHAN2010汉语分词评测所提供的文学、计算机、医药、金融四个领域语料上进行了封闭测试,实验结果表明此方法比传统的字标注分词方法性能更好.  相似文献   

4.
以已经分词并进行了词性标注和介词短语标注的《人民日报》为实验语料,选取其中出现频次高于20次的61个介词为实验对象,采用支持向量机、最大熵和条件随机场这3种统计模型,对介词短语边界识别进行了研究.实验结果表明在3种模型中,采用条件随机场模型效果最好,微平均准确率达到了95.68%.  相似文献   

5.
基于MapReduce的中文词性标注CRF模型并行化训练研究   总被引:1,自引:0,他引:1  
针对条件随机场模型面对大规模数据传统训练算法单机处理性能不高的问题, 提出一种基于MapReduce框架的条件随机场模型训练并行化方法, 设计了条件随机场模型特征提取及参数估计的并行算法, 实现了迭代缩放算法的并行。实验表明, 所提出的并行化方法在保证训练结果正确性的同时, 大大减少了训练时间, 效率得到较大提升。  相似文献   

6.
针对评价对象存在领域相关性这一特点,在条件随机场模型中结合领域词词典特征进行中文句子评价对象的抽取,然后利用领域规则对抽取结果进行处理.针对COAE2011任务三标注语料的抽取实验结果表明,结合领域词词典和领域规则对于利用线性链、跳跃链和层叠条件随机场模型的中文句子评价对象抽取方法可以有效地提高抽取的精度,并抽取出更多的评价对象.  相似文献   

7.
针对微博数据特点,采用降噪算法和条件随机场模型对微博数据进行词性标注,并对其中比重较大的谐音词使用贝叶斯方法进行词性二次纠正.首先利用新浪平台API和爬虫获取原始微博数据,再根据噪音特点人工制定规则进行降噪.由于条件随机场在中文词性标注中特征提取的优势,使用条件随机场模型对降噪后的微博语料词性标注.在此基础上,利用微博语料中谐音词比重较大的特点,将微博词语转化为拼音,根据贝叶斯方法计算得到谐音词的原生词候选,再根据词语的上下文建立谐音词和原生词映射,并利用原生词的词性已知的性质,对谐音词进行词性纠错.实验结果表明,该方法可以较好地标注微博未登录词,词性标注准确率达到95.23%.  相似文献   

8.
提出了一种基于隐条件随机场的人体行为识别方法。首先,通过目标检测和目标跟踪提取图像序列中人体所在时空区域;其次,提取人体区域的 Gist 特征作为人体行为视觉描述子;最后,利用隐条件随机场模型对人体行为进行建模和识别。通过大规模试验证明了该方法的有效性,与其他方法的对比实验验证了该方法的优越性。  相似文献   

9.
自然语言处理作为人工智能领域的一个重要分支,随着计算机信息处理技术的发展,已经取得较大进展.但是古汉语信息处理研究却相对滞后.本研究选择编年体体裁的《明史》作为研究语料,通过交叉检验方法比较了基于条件随机场的三种图模型(无边图模型、完全图模型以及嵌套图模型)在古汉语词性标注中的应用,发现完全图模型和嵌套图模型在《明史》的词性标注中的效果优于无边图模型,分词(Word Segmentation)在一定程度上可以提高古汉语词性标注的效率.另外,还发现基于条件随机场的图模型在分词前后对测试集中未登录词的词性标注效果均比较低.  相似文献   

10.
针对中智C-均值聚类算法抗噪能力弱的问题,提出基于隐马尔科夫随机场的半监督中智聚类分割算法.利用隐马尔科夫随机场模型的先验信息描述图像像素邻域关系,将其与隶属度相结合作为监督因子,嵌入现有中智聚类并构造半监督中智聚类目标函数;将欧式空间样本通过非线性变换用核函数映射至高维特征空间,增强图像的抗干扰能力;最后采用最优化方法获得隐马尔科夫随机场的半监督核空间中智聚类分割的迭代表达式.对灰度图像添加高斯和椒盐噪声进行分割测试,以验证算法性能.测试结果表明:所建立的分割算法相比基于隐马尔科夫随机场的模糊C-均值聚类等分割算法的抗噪性能有了显著提高.  相似文献   

11.
提出一种基于条件随机域模型的方法用于中文文本组块分析. 该方法将中文组块分析转化为对每个词语赋予一个组块标注符号, 再根据条件随机域对标注好的训练语料建立模型, 从而预测测试语料中每个词语的组块标注符号. 使用北京大学中文树库的测试结果为F1=85.5%, 高于隐马尔可夫模型和最大熵马尔可夫模型. 实验结果表明, 条件随机域在中文组块识别方面有效, 并避免了严格的独立性假设和数据归纳偏 置问题.  相似文献   

12.
针对传统关系抽取模型依赖特征工程等机器学习方法, 存在准确率较低且规则较繁琐等问题, 提出一种BERT+BiLSTM+CRF方法. 首先使用BERT(bidirectional encoder representations from transformers)对语料进行预训练; 然后利用BERT根据上下文特征动态生成词向量的特点, 将生成的词向量通过双向长短期记忆网络(BiLSTM)编码; 最后输入到条件随机场(CRF)层完成对因果关系的抽取. 实验结果表明, 该模型在SemEval-CE数据集上准确率比BiLSTM+CRF+self-ATT模型提高了0.054 1, 从而提高了深度学习方法在因果关系抽取任务中的性能.  相似文献   

13.
基于CNN-CRF的中文电子病历命名实体识别研究   总被引:1,自引:0,他引:1  
智慧医疗技术的发展让我们不满足仅使用传统方法做医学研究。针对中文电子病历实体识别问题,设计了一种基于卷积神经网络结合条件随机场(convolutional neural network-conditional random field,CNN-CRF)的实体识别算法框架。为得到高质量的词向量,将标注实体加入词典进行分词,并将已标注和未标注文本作为语料,用word2vec工具对已分词文本进行无监督学习;为避免扩张卷积层数增加导致过拟合,采用迭代扩张卷积处理输入向量,并使用dropout随机丢弃一些连接;运用条件随机场对网络的分类结果进行修正。把该方法在中文电子病历上进行对比试验,从病历中提取出身体部位,疾病,症状,检查及治疗5类实体。实验结果表明,该方法能有效地辨别病历中的实体,其识别的准确率、召回率和f1值分别为90.01%,90.62%,90.31%,准确率和速率比传统方法都有一定提高。  相似文献   

14.
针对数控机床(computer numerical control,CNC)故障领域命名实体识别方法中存在实体规范不足及有效实体识别模型缺乏等问题,制定了领域内实体标注策略,提出了一种基于双向转换编码器(bidirectional encoder representations from transformers,BERT)的数控机床故障领域命名实体识别方法。采用BERT编码层预训练,将生成向量输入到双向长短期记忆网络(bidirectional long short-term memory,BiLSTM)交互层以提取上下文特征,最终通过条件随机域(conditional random field,CRF)推理层输出预测标签。实验结果表明,BERT-BiLSTM-CRF模型在数控机床故障领域更具优势,与现有模型相比,F1值提升大于1.85%。  相似文献   

15.
为解决数控(computer numerical control, CNC)机床设计知识图谱构建过程中关键实体的抽取问题,制定了数控机床领域知识分类标准和标注策略,构建了领域数据集,并提出了一种基于RoBERTa(robustly optimized BERT pretraining approach)的数控机床设计知识实体识别方法。首先,利用数控机床领域数据集对RoBERTa模型进行微调,再利用RoBERTa对文本编码,生成向量表示;其次,采用双向长短期记忆(bidirectional long short-term memory, BiLSTM)网络提取向量特征;最后,利用条件随机场(conditional random field, CRF)推理出最优结果,进而为实体打上标签。实验结果表明:模型在数据集上的F1值为86.139%;对多数关键实体的F1值大于85%;相比其他模型提升2%~18%。可见该方法在数控机床设计知识实体识别中具有明显优势,能够识别机床设计知识文本包含的关键实体,为数控机床设计知识图谱构建提供了数据基础。  相似文献   

16.
为了快速处理航天情报,基于数据驱动的深度学习技术,提出融合多源异构知识标注中文航天情报数据集的方法流程,以及基于预训练(pre-training)模型的航天情报实体识别(AIER)方法;通过对航天情报进行命名实体识别,达到对航天情报进行信息抽取的目的.通过融合BERT(bidirectional encoder representation from transformers)预训练模型和条件随机场(CRF)模型构建AIER模型(BERT-CRF模型),将其与隐马尔可夫模型(HMM)、条件随机场(CRF)模型、双向长短期记忆网络加条件随机场(BiLSTM-CRF)模型进行实体识别对比实验.结果表明:基于预训练模型的AIER模型能够取得93.68%的准确率、97.56%的召回率和95.58%的F1值;相比于其他方法,基于预训练模型方法的性能得到提高.  相似文献   

17.
Chinese organization name recognition is hard and important in natural language processing. To reduce tagged corpus and use untagged corpus, we presented combing Co-trainins with support vector machines (SVM) and conditional random fields (CRF) to improve recognition results. Based on principles of uncorrelated and compatible, we constructed different classifiers from different views within SVM or CRF alone and combination of these two models. And we modified a heuristic untagged samples selection algorithm to reduce time complexity. Experimental results show that under the same tagged data, Co-training has 10% F-measure higher than using SVM or CRF alone; under the same F-measure, Co-training saves at most 70% of tagged data to achieve the same performance.  相似文献   

18.
采用手工分析案件卷宗,容易产生案件实体遗漏现象及提取特征效率低下问题.为此,使用基于双向训练Transformer的编码器表征预训练模型.在手工标注的语料库中微调模型参数,再由长短时记忆网络与条件随机场对前一层输出的语义编码进行解码,完成实体抽取.该预训练模型具有巨大的参数量、强大的特征提取能力和实体的多维语义表征等优势,可有效提升实体抽取效果.实验结果表明,本文提出的模型能实现89%以上的实体提取准确度,显著优于传统的循环神经网络和卷积神经网络模型.  相似文献   

19.
CRF与规则相结合的中文地名识别   总被引:2,自引:0,他引:2  
采用递增式学习策略优化条件随机域(conditional random fields,CRF)的特征模板以提高中文地名的识别效果,结合语言学相关知识构建规则库,以弥补机器学习模型获取知识不够全面导致召回率偏低的不足,最终实现了CRF与规则相结合的中文地名识别系统.实验结果表明,采用CRF与规则相结合的方法识别中文文本中的地名是有效的,对Bakeoff2007NER任务的MSRA语料进行开放测试,召回率、精确率和F值分别为94.67%、92.35%和93.50%.  相似文献   

20.
提出了一种基于条件随机场的中文自动文摘方法.用条件随机场来建立词性标注模型.在文摘句抽取时,引入了关键词抽取技术抽取文摘句.在生成文摘时,采用了基于规则的方法去除文摘中的冗余信息,使最后生成的文摘更具有可读性.实例表明该方法能够适应于许多领域,得到了很好的应用效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号