首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 592 毫秒
1.
针对评价对象存在领域相关性这一特点,在条件随机场模型中结合领域词词典特征进行中文句子评价对象的抽取,然后利用领域规则对抽取结果进行处理.针对COAE2011任务三标注语料的抽取实验结果表明,结合领域词词典和领域规则对于利用线性链、跳跃链和层叠条件随机场模型的中文句子评价对象抽取方法可以有效地提高抽取的精度,并抽取出更多的评价对象.  相似文献   

2.
针对因果关系事件中对象、属性及其相互作用关系抽取工作的不足和因果关系中的长距离依赖问题,定义了创新问题的因果关系表达方式,提出了基于层叠跳跃链条件随机场的因果关系标注方法.首先通过低层线性链条件随机场模型对预处理过的候选集进行因果关系边界标注,其次对标注结果进行降噪和扩充,将其作为新的特征传递给高层跳跃链条件随机场模型用于识别因果角色,最后对高层结果进行指代消解和降噪.对多种类别的真实语料进行了实验,结果表明应用本方法可取得较好的标注效果.  相似文献   

3.
以已经分词并进行了词性标注和介词短语标注的《人民日报》为实验语料,选取其中出现频次高于20次的61个介词为实验对象,采用支持向量机、最大熵和条件随机场这3种统计模型,对介词短语边界识别进行了研究.实验结果表明在3种模型中,采用条件随机场模型效果最好,微平均准确率达到了95.68%.  相似文献   

4.
为了快速处理航天情报,基于数据驱动的深度学习技术,提出融合多源异构知识标注中文航天情报数据集的方法流程,以及基于预训练(pre-training)模型的航天情报实体识别(AIER)方法;通过对航天情报进行命名实体识别,达到对航天情报进行信息抽取的目的.通过融合BERT(bidirectional encoder representation from transformers)预训练模型和条件随机场(CRF)模型构建AIER模型(BERT-CRF模型),将其与隐马尔可夫模型(HMM)、条件随机场(CRF)模型、双向长短期记忆网络加条件随机场(BiLSTM-CRF)模型进行实体识别对比实验.结果表明:基于预训练模型的AIER模型能够取得93.68%的准确率、97.56%的召回率和95.58%的F1值;相比于其他方法,基于预训练模型方法的性能得到提高.  相似文献   

5.
条件随机场模型是文本信息抽取的重要方法之一,在命名实体识别方面CRF性能要明显优于隐马尔科夫模型和最大熵模型。本文以基于字一级的条件随机场模型实现了中文命名实体识别,取得了较好的识别效果。  相似文献   

6.
命名实体识别是自然语言处理和信息提取的基本任务,传统专家命名实体识别方法存在过度依赖人工特征标注和分词效果、专家简介中大量专业新词无法识别等问题.本文提出一种基于多特征双向门控神经网络结构并结合条件随机场模型进行领域专家实体抽取方法.该方法首先通过构建领域专家语料库以训练实体抽取模型;接着,使用Bert方法进行字嵌入表...  相似文献   

7.
用户评论产品时经常带有明确的指向,例如,针对产品的某一部分或某一功能做出评价,因此,评论中的产品名称和产品属性的识别显得尤为重要。文章使用了cw2vec模型对中文文本进行表示,在此基础上,使用双向长短期记忆模型融合了条件随机场模型对产品中的对象和属性进行识别。该方法利用长短期记忆模型对上下文信息进行有效建模,同时利用条件随机场模型作为标签推理层很好地解决序列标签的依赖问题。通过在汽车领域数据上进行实验,实验结果表明cw2vec-BiLSTM-CRF模型在产品名称和产品属性识别任务中的是有效的。与仅使用CRF模型相比,产品名称的识别准确率、召回率、F值分别提升了5.87%、5.59%、5.89%,产品属性的识别准确率、召回率、F值分别提升了6.36%、4.41%and 5.28%。  相似文献   

8.
针对目前中文医疗机构名识别问题,提出一种基于层叠条件随机场模型的中文医疗机构名识别方法;该方法第一层条件随机场(CRF)模型基于词粒度,结合自定义词典,实现人名、地名以及简单机构名识别,将最终的结果传递到第二层CRF模型;第二层CRF模型通过词性、词界以及上下文等特征最终完成对复合嵌套的医疗机构名实体的识别。结果表明:在封闭实验中,该方法识别正确率达到94.6%,召回率达到96.2%;在开放实验中,该方法识别正确率达到92.3%,召回率达到90.2%。本文模型相比于结合规则的单层CRF模型,F值分别提高1.99%、2.8%,总体结果得到显著改善。  相似文献   

9.
随着微博等社交平台的兴起,如何针对微博数据进行产品命名实体识别成为了自然语言处理领域研究的热点之一,也是实现舆情监督和商业智能的基础.传统的命名实体识别技术没有考虑中文微博口语化、不规范等特点,且忽略了深层语义对命名实体识别的重要作用.因此,考虑中文微博的特殊性,提出一种融合全局上下文信息的词向量特征选择方法,分别采用主题模型和神经网络词向量聚类两种方法获取深层语义信息,并结合层叠条件随机场进行中文微博的命名实体识别.实验结果表明,基于词向量聚类的中文微博产品命名实体识别方法取得了较好的效果.  相似文献   

10.
标点符号在现代汉语中扮演着重要的角色,但古代汉语中却不含有任何标点。这使得现代中国人阅读古代文献有严重的困难。该文提出一个基于条件随机场(CRF)的古汉语自动断句标点方法,并引入互信息和t测-试差两个统计量作为模型的特征。分别在《论语》与《史记》两个语料库上进行了充分实验,该方法在《论语》断句处理F 1分数上超出现有方法0.124,在《论语》标点和《史记》断句、标点处理上也取得了满意效果。实验证明:基于条件随机场的方法能较好解决古文自动标点处理问题;层叠条件随机场策略亦优于单层条件随机场策略。  相似文献   

11.
针对领域本体构建中概念上下位关系获取难的问题,提出融合句子结构特征的概念上下位语义关系抽取方法。首先利用层叠条件随机场(cascaded conditional random fields, CCRFs)算法建模实现概念上下位实体识别,然后通过对句子结构特征分析得出融合概念上下位关系的句子结构特征,最后利用融入句法特征基于支持向量机(support vector machine,SVM)建模的方法实现概念上下位关系抽取。为验证提出方法的有效性,以旅游领域上下位实体关系抽取为例进行了相关实验。实验结果表明:基于CCRFs模型的识别效果相对于现有的单层模型有较大改进, 其F值提高了6.57%;加入句法特征基于SVM概念上下位关系抽取方法较现有的基于条件随机场(conditional random fields,CRFs)概念上下位关系抽取方法更有效,其F值提高了4.68%。  相似文献   

12.
为了准确地从中文文本中识别出复杂体育赛事命名实体,提出了一种基于双层条件随机场模型的命名实体识别方法.该方法首先在低层条件随机场模型中识别出简单体育赛事命名实体,然后在高层条件随机场模型中识别出嵌套了简单体育赛事命名实体的复杂命名实体如赛事名、参赛球队名和比赛场馆名.在对大规模真实语料进行的开放测试中,赛事名、参赛球队名和比赛场馆名识别的F值分别达到97.09%,97.81%和98.03%.  相似文献   

13.
基于注意力机制(attention)的神经网络模型在自然语言处理的情感分析任务中至关重要.针对目前情感分析任务中现有神经网络模型耗时长、准确率低、特征提取不充分等问题,本文提出了基于注意力机制结合条件随机场(conditional random field,CRF)和双向门控循环神经网络(bidirectional g...  相似文献   

14.
针对现有的中文电子简历命名实体识别任务中,模型在训练过程中出现字向量表示单一和无法较好地处理字的多义性问题,提出了一种基于BERT的中文电子简历命名实体识别模型。该模型将电子简历的文本数据通过BERT进行字符级编码,根据上下文语境丰富字的语义信息,有效解决了一词多义的问题;将得到的字向量输入到双向门控循环单元进行特征提取,获取文本的上下文特征;利用条件随机场进行解码并生成标签序列,得到命名实体。实验结果表明,该模型能够有效提高中文电子简历命名实体识别的准确率。  相似文献   

15.
刘星宇  宁慧  张汝波 《应用科技》2021,(1):25-30,35
针对如何使用适当的模型或结构使得词性标注结果准确率提升的问题,对隐马尔可夫模型和条件随机场模型进行了深入研究和实验,使用条件随机场的不同特征方程进行了多组实验,并对比了每组实验的准确率.实验结果表明,条件随机场对于解决英文词性标注问题有着更大的优势;将共性的特征与相对具体的后缀特征结合使用所达到的词性标注准确率最高.  相似文献   

16.
根据蒙古文地名的特点,引入词性特征、字典特征、实体指示词特征以及外文地名用词特征,基于条件随机场模型对蒙古文地名自动识别问题进行研究.结果表明,该模型对蒙古文地名识别的准确率为95.45%,召回率为79.41%,F值为86.70%.  相似文献   

17.
充分利用人名的外部特征和内部颗粒特征,提出了一种基于条件随机场的中国人名识别方法.通过建立原子模板和复合模板,将局部特征、关联特征、全局特征以及专家知识相融合,基于条件随机场建立了相应的语言模型,极大地提高了人名识别的准确率和召回率.  相似文献   

18.
随着气候变化成为全球议题,对能源政策文件进行量化分析与研究,具有非常重要的意义。现有的中文分词技术应用在能源政策这一特定领域时,由于无法正确识别领域新词,往往很难取得令人满意的效果。针对新词发现这一问题,该文提出一种基于条件随机场(Conditional random field,CRF)和词向量的能源政策新词发现方法。利用无监督方法,在无需人工标注的情况下,提升CRF模型在特定领域的适应性。提出了种子词典的概念,通过关键词提取并辅以少量人工筛选和补充的方式,构建能源政策领域的种子词典。将种子词典和CRF模型标注结果相结合,并利用词向量筛选,完成领域新词的发现。在真实能源政策文本数据上的试验结果表明,该方法能够在较低人工成本的前提下,有效地实现能源政策领域的新词发现,进而提高中文分词在能源政策文本的表现。  相似文献   

19.
基于条件随机场的越南语命名实体识别方法   总被引:2,自引:0,他引:2  
针对越南语特点,提出一种基于条件随机场模型的越语命名实体识别方法。该方法针对越语词和词性的特点,采用条件随机场算法,选取词和词性作为特征,定义特征模版,选取越南语新闻文本,标记地名、人名、组织机构等6类实体语料,训练获得越南语实体识别模型,实现实体识别。实验结果表明该方法提取实体的准确率达到83.73%。  相似文献   

20.
根据微博文本中句子的依存关系和情感词在依存关系中的位置来提取特征,将特征应用于最大熵模型来预测句子的情感倾向(褒义、贬义或中性)。并在此基础上,将词、词性和词在句法结构中的成分作为特征,训练条件随机场统计模型以此预测评价对象。实验结果表明,将句法依存关系作为特征应用到中文微博观点句识别中能够取得不错的效果,明显提高了中文微博观点句的识别率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号