首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
基于支持向量机的中文文本中地名识别   总被引:2,自引:0,他引:2  
提出并实现了一种基于支持向量机(SVM)的中文文本中地名的自动识别方法.结合地名的特点,抽取单字本身、基于字的词性、是否在地名特征词表中及其上下文的信息作为向量的特性,并将其转化为二进制表示,在此基础上建立了训练集,并通过对多项式Kernel函数的测试,得到了用支持向量机进行地名识别的机器学习模型.实验表明,所建立的SVM地名识别模型是有效的,系统开式召回率和精确率分别达86.69% 和93.82%,F-值为90.12%.  相似文献   

2.
CRF与规则相结合的中文地名识别   总被引:2,自引:0,他引:2  
采用递增式学习策略优化条件随机域(conditional random fields,CRF)的特征模板以提高中文地名的识别效果,结合语言学相关知识构建规则库,以弥补机器学习模型获取知识不够全面导致召回率偏低的不足,最终实现了CRF与规则相结合的中文地名识别系统.实验结果表明,采用CRF与规则相结合的方法识别中文文本中的地名是有效的,对Bakeoff2007NER任务的MSRA语料进行开放测试,召回率、精确率和F值分别为94.67%、92.35%和93.50%.  相似文献   

3.
通过对中文机构名的语法语义特性进行分析,将中文机构名分成前部词和特征词,提出了一种基于统计的识别方法.使用成熟语料库的训练数据,计算候选机构名的特征词可信度、前部词首词可信度和前部词中部可信度,最终得到机构名构词可信度,并与给定阈值比较,实现了中文机构名识别.在开放性实验中,达到了85.57%的召回率和94.37%的准确率.  相似文献   

4.
汉英机器翻译中趋向动词处理研究   总被引:1,自引:0,他引:1  
在大规模语料的基础上,对趋向动词的用法和上下文信息进行了统计和分析,得到了趋向动词在谓词后面作趋向补语的概率、小概率作趋向补语(即趋向动词在谓词后面作补语的概率介于两个阈值之间)时的上下文信息;建立了一个基于趋向动词在谓词后面作趋向补语的概率统计模型来识别趋向动词用法,同时,根据趋向动词与谓词搭配后词义变化情况,对词典进行了补充.封闭测试识别精确率达99.01%,召回率达96.67%;开放测试识别精确率达98.14%,召回率达96.19%.  相似文献   

5.
基于深度学习的中文地名识别研究   总被引:1,自引:1,他引:0  
基于深度学习的循环神经网络方法,面向中文字和词的特点,重新定义了地名标注的输入和输出,提出了汉字级别的循环网络标注模型.以词级别的循环神经网络方法为基准,本文提出的字级别模型在中文地名识别的准确率、召回率和F值均有明显提高,其中F值提高了2.88%.在包含罕见词时提高更为明显,F值提高了26.41%.   相似文献   

6.
针对目前中文医疗机构名识别问题,提出一种基于层叠条件随机场模型的中文医疗机构名识别方法;该方法第一层条件随机场(CRF)模型基于词粒度,结合自定义词典,实现人名、地名以及简单机构名识别,将最终的结果传递到第二层CRF模型;第二层CRF模型通过词性、词界以及上下文等特征最终完成对复合嵌套的医疗机构名实体的识别。结果表明:在封闭实验中,该方法识别正确率达到94.6%,召回率达到96.2%;在开放实验中,该方法识别正确率达到92.3%,召回率达到90.2%。本文模型相比于结合规则的单层CRF模型,F值分别提高1.99%、2.8%,总体结果得到显著改善。  相似文献   

7.
基于互信息的中文姓名识别方法   总被引:4,自引:0,他引:4  
提出并实现了一个基于互信息的中文姓名识别方法,该方法充分挖掘姓名和其上下文信息的关联程度以及姓名用字之间关联程度的信息,引入互信息对其进行定量的描述;提出中文姓名的上下文互信息、内部互信息等概念,并对其建立了动态评价函数,开放测试结果表明,该方法有效地提高了中文姓名识别的效果,保证了较高的精确率和召回率。  相似文献   

8.
基于地址结构匹配的手写中文地址的切分与识别   总被引:2,自引:0,他引:2  
为了自动识别手写中文地址,提出基于地址结构的汉字字符切分和匹配方法。它将地址行图像过切分为一列子字符图像,对于可能的子字符合并方式进行识别。置信度比较大的词作为关键词搜索地址数据库,得到一系列候选地址。对每个候选地址进行匹配,综合考虑切分、识别和匹配代价给出最终结果。该方法在565个地址行样本上获得了超过91%的地址匹配率。实验表明:该方法能有效地克服传统手写汉字切分方法的不足,减少切分错误,从而提高地址匹配的正确率。  相似文献   

9.
提出了一种基于支持向量机(SVM)和条件随机场(CRF)的双层模型进行中文机构名识别的方法.第一层模型采用CRF识别简单机构名,并将识别结果传至第二层辅助下一步的识别;第二层采用基于驱动的方法,将SVM和CRF结合进行复杂机构名的识别;最后将两层的识别结果合并,并通过一个后续处理对置信度较低的识别结果进行修正.大规模真实语料的开放测试表明,精确率达到94.83 %,召回率达到95.02%,证明了该方法的有效性.  相似文献   

10.
提出了一种在构造内部规则和外部规则的同时采用概率统计的中文地名实体的识别方法,并利用这种基于规则和统计相结合的方法对测试语料库进行识别测试,实验证明该方法获得了较高的准确率和召回率,具有可行性和合理性,同时也指出了它的局限性.  相似文献   

11.
自然手写汉字预处理子系统   总被引:8,自引:0,他引:8  
针对自然手写汉字联机识别系统,设计了一种高效实用的预处理子系统,主要包括笔迹采集、归一化、 除重合点,连续化等功能模块,提出和完善了相应策略和算法,为后续处理奠定了良好基础,经分析和测试表明,它具有高变形稳定性和容忍度。  相似文献   

12.
自然手写汉字五笔码识别法   总被引:1,自引:0,他引:1  
在深入剖析五笔字型键盘输入法编码原则和字根结构基础上,结合联机识别技术特点对五笔字根作出适应性发行后,提出了一种联机识别自然手写汉字新方法:五笔码识别法。在构建的识别体系中 采用了层间分级技术,并提出将键盘输入技术与联机识别技术有机融合,为联机识别自然手写汉字探索新途径。  相似文献   

13.
对自然手写体汉字联机识别系统中笔画和字根提取问题作了深入研究,提出并改进了有关策略和算法实现。经深入分析和测试结果表明,由于充分考虑了自然手写体汉字的书写习惯和结构特征,技术策略和算法实现具有高稳定性和变形容忍度。  相似文献   

14.
面向情感变化检测的汉语情感语音数据库   总被引:3,自引:0,他引:3  
该文介绍了面向普通话情感变化检测的情感语音数据库CESD。该数据库的语音以对话形式录制,包括男女声情感对话语音1 200段。以生气、着急、中性、愉悦、高兴为基本情感,共包含20种情感变化模式。除语音文件外,还包含带有静音段/有效语音段、情感类别、情感变化段、情感质量等内容的标注文件。为了使更多的研究人员可以使用该数据库,利用P raat工具提取出67维常用声学特征,作为特征文件一同存储在该数据库中。对该数据库进行主观评价和情感变化检测的结果表明:语音情感状态自然、情感变化真实,能够满足语音情感识别和语音情感变化检测研究的双重需求。  相似文献   

15.
该文给出一种汉字子笔划的提取方法 ,较好地解决了因子笔划相交 ,使提取的同类字符子笔划不稳定问题。引入了字符的固定部件划分方法及特征矩阵的概念。字符部件中包含各类子笔划的位置、长度等信息 ,特征矩阵是这些信息的集中体现。设计了一种新的遗传算法 ,由未知字符一个部件的一类子笔划表示的字符与某类模型的相似度 ,既由与其它 3类子笔划相应的相似度调节 ,又由与周围部件同类子笔划相应的相似度调节。实验表明 ,该手写体汉字识别方法是有效的  相似文献   

16.
经过训练、高质量的摹仿手写汉字签名给文件检验工作者提出了挑战,使传统的特征比对方法显得力不从心,据此本文提出采用计算机进行精确、快速的静态手写汉字签名鉴定。对于静态手写汉字签名鉴定,如何选择良好的特征和对选择的特征进行描述,使描述后的特征具有相对的稳定性,特征描述模型很好地反映书写者的生物特征而不是汉字本身的内容,是计算机静态手写汉字签名鉴定问题首先要解决的问题。  相似文献   

17.
中文姓名识别是信息抽取的一个重要研究内容,同时也对自然语言处理的其他应用具有重要意义.本文针对中文姓名构成的一般规律和特点,提出了一种姓氏用字驱动的统计与规则相结合的混合中文姓名识别算法,该算法以姓氏用字为线索,通过对前后文中汉字串成词的可能性的评价来进行姓名识别.对所提出的算法用144 K文本进行了实验测试,验证了它的有效性.  相似文献   

18.
二级印刷体汉字的识别   总被引:1,自引:0,他引:1  
本文提出了一种利用数学形态学提取汉字结构特征进行汉字识别的方法。该方法模仿人的认字过程,根据汉字构造的基本规律选取字的边框特征和局部特征,所取特征可适用于多体印刷体汉字的识别。用传真机输入的6763个二级汉字进行了实验,分类稳定,正确识别率为95.2%。  相似文献   

19.
基于自建的汉语篇章结构语料库以及语料库中连接词和连接词关系类别的标注, 抽取自动句法树和标准句法树的句法、词法和位置特征, 利用有监督的方法进行连接词识别和分类。实验结果表明, 连接词识别的F1值为69.2%, 连接词自动识别并分类的总正确率为89.1%。  相似文献   

20.
基于四值逻辑的汉字图像识别方法   总被引:1,自引:0,他引:1  
采用定义在汉字图像平面上的四值逻辑函数对汉字图像特征进行定量描述,建立汉字图像特征的逻辑表达式。通过求解这些表达式的值,即可判断该汉字是否具有某种特征,从而得到一种汉字图像识别的新方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号