首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
本文首先分析了藏文人名的特点以及藏文人名识别的难点,在此基础上,利用条件随机场模型,分别提出了采用基于亚音节标注的藏文人名识别方法和分词与词性标注一体化的藏文人名识别方法.  相似文献   

2.
基于条件随机场的越南语命名实体识别方法   总被引:2,自引:0,他引:2  
针对越南语特点,提出一种基于条件随机场模型的越语命名实体识别方法。该方法针对越语词和词性的特点,采用条件随机场算法,选取词和词性作为特征,定义特征模版,选取越南语新闻文本,标记地名、人名、组织机构等6类实体语料,训练获得越南语实体识别模型,实现实体识别。实验结果表明该方法提取实体的准确率达到83.73%。  相似文献   

3.
维吾尔语是属于阿尔泰语系的黏着性语言,构词特点比较复杂,尤其是维吾尔语中的人名,由于来源差别巨大,识别难度很高,到目前为止,还未出现成熟的维吾尔语人名识别工具。大量维吾尔语文本中的人名统计发现,维吾尔族人名和汉族人名共占据了约83%,因此该文分别针对维吾尔语文本中出现的维吾尔族人名和汉族人名提出相应的识别方法。针对维吾尔族人名,提出基于字母的模糊匹配识别方法;针对汉族人名,借助机器翻译思想提出基于音字转换的识别方法。实验结果表明:所提方法识别维吾尔族人名F1值能够达到91.84%,识别汉族人名F1值能够达到95.86%。  相似文献   

4.
文本挖掘中命名实体识别是一项重要的研究内容,利用统计学原理进行命名实体识别具有较高的识别率.利用条件随机场(conditional random fields,CRF)方法,研究藏文人名识别技术,重点探讨藏文人名的内部结构特征、上下文特征、特征选择和数据预处理等内容,并通过实验分析了不同特征的有效性.首先给出了基于字(音节)和字位信息的人名识别方法;其次研究了触发词、虚词、人名词典和指人名词后缀为特征的不同特征组合与优化,并细化了不同虚词对人名识别的作用;最后,通过不同组合的实验测试,结果表明:1)触发词和作格助词特征在藏文人名识别上能够起到积极的作用;2)不同特征窗口大小对人名识别有一定影响;3)利用CRF识别藏文人名F1值能够达到80%左右,但由于藏文两字人名的高歧义性,目前还达不到与其他语言相近的识别效果.  相似文献   

5.
针对目前中文医疗机构名识别问题,提出一种基于层叠条件随机场模型的中文医疗机构名识别方法;该方法第一层条件随机场(CRF)模型基于词粒度,结合自定义词典,实现人名、地名以及简单机构名识别,将最终的结果传递到第二层CRF模型;第二层CRF模型通过词性、词界以及上下文等特征最终完成对复合嵌套的医疗机构名实体的识别。结果表明:在封闭实验中,该方法识别正确率达到94.6%,召回率达到96.2%;在开放实验中,该方法识别正确率达到92.3%,召回率达到90.2%。本文模型相比于结合规则的单层CRF模型,F值分别提高1.99%、2.8%,总体结果得到显著改善。  相似文献   

6.
充分利用人名的外部特征和内部颗粒特征,提出了一种基于条件随机场的中国人名识别方法.通过建立原子模板和复合模板,将局部特征、关联特征、全局特征以及专家知识相融合,基于条件随机场建立了相应的语言模型,极大地提高了人名识别的准确率和召回率.  相似文献   

7.
维吾尔语是一种黏着语,基于单词的语言模型不太适合于维吾尔语大词汇连续语音识别任务。该文提出了适合维吾尔语的基于音节的语言模型,引入最大匹配分词算法评价音节语言模型在大词汇连续语音识别任务中的单词识别性能。实验结果表明:基于音节的语言模型在未登录词和模型复杂度等方面表现出比基于单词的语言模型更加优越的性能,并且使识别系统的单元错误率比基于单词的系统减少了50%。因此,在维吾尔语语音识别任务上可以将音节作为识别单元。  相似文献   

8.
在充分研究维吾尔语言形态特征的基础上,制定相应的分词规则并手工标注原始语料,建成原始语料库;针对传统机器学习分词方法过度依赖背景知识和特征选取的问题,提出了一种基于长短期记忆(LSTM)神经网络改进的双向长短时记忆条件随机场(BI-LSTM-CRF)网络模型来进行维吾尔语分词,其能够有效地使用过去和未来的输入特征.利用该分词模型与基于传统机器学习方法的条件随机场(CRF)模型对比,实验结果表明,使用BI-LSTM-CRF模型分词性能有明显提高,且具有良好的泛化能力.  相似文献   

9.
为了准确地从中文文本中识别出复杂体育赛事命名实体,提出了一种基于双层条件随机场模型的命名实体识别方法.该方法首先在低层条件随机场模型中识别出简单体育赛事命名实体,然后在高层条件随机场模型中识别出嵌套了简单体育赛事命名实体的复杂命名实体如赛事名、参赛球队名和比赛场馆名.在对大规模真实语料进行的开放测试中,赛事名、参赛球队名和比赛场馆名识别的F值分别达到97.09%,97.81%和98.03%.  相似文献   

10.
时间作为电子病历中的一类重要实体,对于标识患者从入院到出院期间不同阶段的病情变化,有着不可替代的作用。电子病历文本中的时间可分为独立时间和基于事件的时间,针对这两类时间分别提出了基于bootstrapping的识别算法和基于条件随机场的识别算法。其中,为了解决基于事件的时间短语太长而不能准确定位其边界的问题,引入了中文症状知识库作为词典特征,有效地提高了条件随机场识别结果的准确率、召回率和F1值。实验结果表明,该方法在独立时间和基于事件的时间识别上的F1值分别达到了92.57%和93.98%。  相似文献   

11.
针对中文产品命名实体,提出了一种基于多种特征融合的识别方法。该方法以词为标注粒度,将多种特征融合到条件随机场模型中,采用递增式学习策略选取最优的特征模板,实现了从中文自由文本中识别产品命名实体。实验表明,该方法获得了令人满意的实验效果,准确率、召回率和F值分别达到94.87%、92.50%和93.67%。  相似文献   

12.
藏族人名的性别自动识别是自然语言处理中非常重要的基础性问题之一.文章中提出了融合音节特征的SVM模型藏族人名性别识别方法,采用支持向量机(SVM)模型为基本框架,依据藏族人名的构词特征和统计分析,设计了特征模板,使支持向量机模型有效地处理藏族人名性别识别问题.实验结果表明,在包含18 821个藏族人名的103974个句子中,随机抽取3 764个藏族人名作为测试语料,对SVM的高斯核、线性核、多项式核和S型核等4个常用核函数做了实验,性别自动识别的准确率分别达到99.98%、98.81%、96.98%和95.45%.  相似文献   

13.
针对汉语并列关系的标注方式, 提出一种基于条件随机场模型的并列关系自动识别方法。从语料库中自动抽取并列关系的角色信息, 进行角色标注, 在条件随机场模型的基础上实现并列关系的识别。与基于图的依存分析方法比较, 并列关系的召回率和正确率分别提高了9.1%和13.8%。  相似文献   

14.
条件随机场模型是文本信息抽取的重要方法之一,在命名实体识别方面CRF性能要明显优于隐马尔科夫模型和最大熵模型。本文以基于字一级的条件随机场模型实现了中文命名实体识别,取得了较好的识别效果。  相似文献   

15.
根据蒙古文地名的特点,引入词性特征、字典特征、实体指示词特征以及外文地名用词特征,基于条件随机场模型对蒙古文地名自动识别问题进行研究.结果表明,该模型对蒙古文地名识别的准确率为95.45%,召回率为79.41%,F值为86.70%.  相似文献   

16.
为了研究飞行员在使用平视显示器执行不同飞行任务时的行为模式,提出了一种包括飞行员眼动、头部运动和手部运动多种特征的行为识别框架。首先,开展行为模式研究实验,通过眼动仪获取眼部运动和头部运动,通过基于视频的手动跟踪获取手部运动。之后采用实验得到的结果对模型进行训练和测试。最后,对比了条件随机场和隐动态条件随机场在不同特征下的识别效果。结果表明,采用眼动特征加手部特征时,隐动态条件随机场模型对不同飞行任务的识别效果较好。  相似文献   

17.
利用"现代维吾尔语语音声学参数库",对维吾尔语清塞音[q]的单音节、双音节、三音节、多音节中男性(M2)和女性(F2)的无声间隙(GAP)、嗓音起始时间(VOT)、时长(CD)、音强(CA)、共振峰(F)等不同音节中的声学特征进行统计和声学分析,找出维吾尔语清塞音[q]在不同音节中的不同声学特征.本研究对维吾尔语教学、语音识别和语音合成有一定的理论基础和应用价值.  相似文献   

18.
条件随机场能够很好地处理序列标注问题.引入条件随机场进行维吾尔语分词方法研究,主要包括制定词性和分词单独标注与一体化标注集并建成语料库;设计不同特征模板进行训练测试,反复比较实验结果,总结优化以获取最佳的特征模板.在设计特征模板时充分结合维吾尔语语言形态特征,采用了对称特征组合非对称特征的设计方法,并将获得的最佳分词模板应用到分步预测词性和分词实验中.相比单独分词标注,分词时加入词性特征列进行分词与词性一体化标注能展现更优的分词性能.  相似文献   

19.
为了研究飞行员在使用平视显示器(head up display,HUD)执行不同飞行任务时的行为模式,提出了一种包括飞行员眼动、头部运动和手部运动多种特征的行为识别框架。首先,开展行为模式研究实验,通过眼动仪获取眼部运动和头部运动,通过基于视频的手动跟踪获取手部运动。之后采用实验得到的结果对模型进行训练和测试。最后,对比了条件随机场和隐动态条件随机场在不同特征下的识别效果。结果表明,采用眼动特征加手部特征时,隐动态条件随机场模型对不同飞行任务的识别效果较好。  相似文献   

20.
为了快速处理航天情报,基于数据驱动的深度学习技术,提出融合多源异构知识标注中文航天情报数据集的方法流程,以及基于预训练(pre-training)模型的航天情报实体识别(AIER)方法;通过对航天情报进行命名实体识别,达到对航天情报进行信息抽取的目的.通过融合BERT(bidirectional encoder representation from transformers)预训练模型和条件随机场(CRF)模型构建AIER模型(BERT-CRF模型),将其与隐马尔可夫模型(HMM)、条件随机场(CRF)模型、双向长短期记忆网络加条件随机场(BiLSTM-CRF)模型进行实体识别对比实验.结果表明:基于预训练模型的AIER模型能够取得93.68%的准确率、97.56%的召回率和95.58%的F1值;相比于其他方法,基于预训练模型方法的性能得到提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号