首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 126 毫秒
1.
针对中文的语料,采用基于条件随机场的方法,在词、词性特征的基础上结合最近名词、句法依赖关系和句子倾向性等特征,分析不同特征对于评价对象抽取的影响.实验结果表明,结合了词、句子倾向性、词性、语法依赖关系、邻近名词等特征的条件随机场方法对于中文句子评价对象的抽取更有效.  相似文献   

2.
随着微博、论坛等社交平台的兴起,如何针对观点句进行评价对象识别已经成为了自然语言处理领域研究的热点之一.传统的评价对象识别技术在一定程度上取得了不错的效果,但其在模型优化、新词覆盖度和准确率方面仍有很大不足.因此,提出一种全新的循环层叠条件随机场模型,融合基于词性与句法语义的候选评价对象抽取方法提高新词覆盖度,并采用支持向量机对评价对象进行筛选过滤以提高准确率.实验结果表明,基于循环层叠条件随机场的评价对象识别方法可以取得较好的效果.  相似文献   

3.
基于条件随机场的中文科研论文信息抽取   总被引:1,自引:1,他引:1  
科研论文头部信息和引文信息对基于域的论文检索、统计和引用分析是必不可少的.由于隐马尔可夫模型不能充分利用对抽取有用的上下文特征,因此文中提出了一种基于条件随机场的中文科研论文头部和引文信息抽取方法,该方法的关键在于模型参数估计和特征选择.实验中采用L-BFGS算法学习模型参数,并选择局部、版面、词典和状态转移4类特征作为模型特征集.在信息抽取时先利用分隔符、特定标识符等格式信息对文本进行分块,在分块基础上用条件随机场进行指定域的抽取.实验表明,该方法抽取性能明显优于基于隐马尔可夫模型的方法,且加入不同的特征集对抽取性能提升作用不同.  相似文献   

4.
网页分块方法使得Web信息抽取的单位由原来的页面缩小为分块.结合分块重要度模型与二维条件随机场的优点,提出一种Web对象信息抽取方法.该方法利用分块重要度模型对网页分块进行重要度标注,过滤掉大量与主题无关信息,更加准确的定位待抽取信息的位置.二维条件随机场模型相比传统的线性条件随机场模型更好的适应了网页分块的二维结构,有效的提高信息抽取准确率.实验结果表明,该方法对Web对象信息抽取具有良好的效果.  相似文献   

5.
条件随机场模型是文本信息抽取的重要方法之一,在命名实体识别方面CRF性能要明显优于隐马尔科夫模型和最大熵模型。本文以基于字一级的条件随机场模型实现了中文命名实体识别,取得了较好的识别效果。  相似文献   

6.
中文事件抽取通常使用循环神经网络(recurrent neural network, RNN)来进行事件和事件要素的抽取, 但 RNN 在处理长度较长的词语时容易丢失重要信息, 为此提出一种组合卷积神经网络(convolutional neural network, CNN)与双向长短期记忆(bidirectional long short-term memory, Bi-LSTM)网络的中文事件抽取模型 CNN-Bi-LSTM-CRF, 其中 CRF (conditional random field) 为条件随机场. 采用基于注意力机制和语义特征生成的字词联合向量, 使用 CNN 和 Bi-LSTM 模型对字词联合向量进行处理, 以获取其隐含表示, 最后通过 CRF 得出预测结果. 实验结果表明, 所提出的方法与其他现有的中文事件抽取方法相比, 准确率有明显提升.  相似文献   

7.
针对汉语并列关系的标注方式, 提出一种基于条件随机场模型的并列关系自动识别方法。从语料库中自动抽取并列关系的角色信息, 进行角色标注, 在条件随机场模型的基础上实现并列关系的识别。与基于图的依存分析方法比较, 并列关系的召回率和正确率分别提高了9.1%和13.8%。  相似文献   

8.
针对评价对象存在领域相关性这一特点,在条件随机场模型中结合领域词词典特征进行中文句子评价对象的抽取,然后利用领域规则对抽取结果进行处理.针对COAE2011任务三标注语料的抽取实验结果表明,结合领域词词典和领域规则对于利用线性链、跳跃链和层叠条件随机场模型的中文句子评价对象抽取方法可以有效地提高抽取的精度,并抽取出更多的评价对象.  相似文献   

9.
情感倾向性分析是近年来中文信息处理领域的热点问题.通过对新浪微博进行情感的分析与研究,提出了一种基于主体句和句法依赖关系的微博情感倾向性分析方法.首先利用自定义规则和条件随机场模型进行主体句及主体评价对象的抽取;然后使用句法分析器对主体句进行依赖关系分析,可以准确的获得修饰评价对象的评价词;最后利用情感词典计算出句子的情感倾向.实验结果表明在精确获取评价对象的基础上再进行情感倾向性判别效果要优于对微博直接进行情感倾向性分析.  相似文献   

10.
数值信息作为数据的一种直观表达方式,能够真实、有效地表达数据的量化含义.完整的数值信息要素包含有数字,数字的量化对象,如:主体及其属性,以及时空约束条件.对文本中蕴含的数值信息进行有效识别和抽取,并以问答的形式反馈给用户是大数据挖掘的重要意义,越来越受到学术界和产业界的关注.提出了一种基于数值模板结合条件随机场的数值信息抽取方法,该方法利用数值相关知识来制定数值信息抽取模板,对文本模式匹配,并使用条件随机场修补模板的局限性.实验结果的准确率、召回率和F值分别为0.847、0.665和0.745.  相似文献   

11.
为了快速处理航天情报,基于数据驱动的深度学习技术,提出融合多源异构知识标注中文航天情报数据集的方法流程,以及基于预训练(pre-training)模型的航天情报实体识别(AIER)方法;通过对航天情报进行命名实体识别,达到对航天情报进行信息抽取的目的.通过融合BERT(bidirectional encoder representation from transformers)预训练模型和条件随机场(CRF)模型构建AIER模型(BERT-CRF模型),将其与隐马尔可夫模型(HMM)、条件随机场(CRF)模型、双向长短期记忆网络加条件随机场(BiLSTM-CRF)模型进行实体识别对比实验.结果表明:基于预训练模型的AIER模型能够取得93.68%的准确率、97.56%的召回率和95.58%的F1值;相比于其他方法,基于预训练模型方法的性能得到提高.  相似文献   

12.
标点符号在现代汉语中扮演着重要的角色,但古代汉语中却不含有任何标点。这使得现代中国人阅读古代文献有严重的困难。该文提出一个基于条件随机场(CRF)的古汉语自动断句标点方法,并引入互信息和t测-试差两个统计量作为模型的特征。分别在《论语》与《史记》两个语料库上进行了充分实验,该方法在《论语》断句处理F 1分数上超出现有方法0.124,在《论语》标点和《史记》断句、标点处理上也取得了满意效果。实验证明:基于条件随机场的方法能较好解决古文自动标点处理问题;层叠条件随机场策略亦优于单层条件随机场策略。  相似文献   

13.
针对传统关系抽取模型依赖特征工程等机器学习方法, 存在准确率较低且规则较繁琐等问题, 提出一种BERT+BiLSTM+CRF方法. 首先使用BERT(bidirectional encoder representations from transformers)对语料进行预训练; 然后利用BERT根据上下文特征动态生成词向量的特点, 将生成的词向量通过双向长短期记忆网络(BiLSTM)编码; 最后输入到条件随机场(CRF)层完成对因果关系的抽取. 实验结果表明, 该模型在SemEval-CE数据集上准确率比BiLSTM+CRF+self-ATT模型提高了0.054 1, 从而提高了深度学习方法在因果关系抽取任务中的性能.  相似文献   

14.
针对领域本体构建中概念上下位关系获取难的问题,提出融合句子结构特征的概念上下位语义关系抽取方法。首先利用层叠条件随机场(cascaded conditional random fields, CCRFs)算法建模实现概念上下位实体识别,然后通过对句子结构特征分析得出融合概念上下位关系的句子结构特征,最后利用融入句法特征基于支持向量机(support vector machine,SVM)建模的方法实现概念上下位关系抽取。为验证提出方法的有效性,以旅游领域上下位实体关系抽取为例进行了相关实验。实验结果表明:基于CCRFs模型的识别效果相对于现有的单层模型有较大改进, 其F值提高了6.57%;加入句法特征基于SVM概念上下位关系抽取方法较现有的基于条件随机场(conditional random fields,CRFs)概念上下位关系抽取方法更有效,其F值提高了4.68%。  相似文献   

15.
基于CNN-CRF的中文电子病历命名实体识别研究   总被引:1,自引:0,他引:1  
智慧医疗技术的发展让我们不满足仅使用传统方法做医学研究。针对中文电子病历实体识别问题,设计了一种基于卷积神经网络结合条件随机场(convolutional neural network-conditional random field,CNN-CRF)的实体识别算法框架。为得到高质量的词向量,将标注实体加入词典进行分词,并将已标注和未标注文本作为语料,用word2vec工具对已分词文本进行无监督学习;为避免扩张卷积层数增加导致过拟合,采用迭代扩张卷积处理输入向量,并使用dropout随机丢弃一些连接;运用条件随机场对网络的分类结果进行修正。把该方法在中文电子病历上进行对比试验,从病历中提取出身体部位,疾病,症状,检查及治疗5类实体。实验结果表明,该方法能有效地辨别病历中的实体,其识别的准确率、召回率和f1值分别为90.01%,90.62%,90.31%,准确率和速率比传统方法都有一定提高。  相似文献   

16.
通过对某市货车驾驶员进行问卷调查,研究了桥梁限重标志对货车驾驶员驾驶行为的约束作用规律;基于实测随机车流的统计分布规律,利用蒙特卡洛法编写了考虑桥梁限重标志对驾驶员行为约束作用的随机车流模拟程序.以55t桥梁限重值为例,根据《公路工程结构可靠度设计统一标准》的荷载效应分析方法,计算了简支梁桥在模拟随机车流荷载作用下的跨中弯矩和支座剪力.对日均交通量、条件约束水平和桥梁跨径进行了参数分析,并将随机车流荷载作用下的荷载效应与中国现行桥梁设计规范中对应的汽车荷载效应标准值做了比较.研究结果表明:1)只有当超重货车驾驶员均严格遵守桥梁限重规定时,桥梁限重标志才能有效地控制车辆荷载效应,从而保障桥梁的安全可靠性;2)中国现行桥梁设计规范的设计荷载可能低估了某些路段实际车流的荷载,且在小跨径桥梁上尤为突出,应当引起重视.  相似文献   

17.
面向专利文献的汉语分词技术研究   总被引:2,自引:0,他引:2  
针对专利文献专业术语多、领域广的特点, 采用基于领域词典与统计相结合的方法探讨了专利文献的汉语分词问题。利用NC-value算法抽取专业术语, 使用条件随机场模型(CRF)提高专业术语识别率, 提高分词精度。实验结果表明, 提出的方法在开放测试下分词的准确率为95.56%, 召回率为96.18%, F值为95.87%, 大大提高了专利文献的分词精度。  相似文献   

18.
采用手工分析案件卷宗,容易产生案件实体遗漏现象及提取特征效率低下问题.为此,使用基于双向训练Transformer的编码器表征预训练模型.在手工标注的语料库中微调模型参数,再由长短时记忆网络与条件随机场对前一层输出的语义编码进行解码,完成实体抽取.该预训练模型具有巨大的参数量、强大的特征提取能力和实体的多维语义表征等优势,可有效提升实体抽取效果.实验结果表明,本文提出的模型能实现89%以上的实体提取准确度,显著优于传统的循环神经网络和卷积神经网络模型.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号