首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 406 毫秒
1.
文章就藏文人名本身的特性分析了人名识别的难点,提出了CRF与规则相结合的藏文人名识别方法.该方法首先以CRF作为机器学习模型,充分利用藏文人名的各类特征,然后针对人名不能全面召回的问题,利用规则方法进行后处理,最终建立了一种优势互补的识别模型.实验结果表明,该文提出的方法具有较好的性能,F-值可达91.55.  相似文献   

2.
文本挖掘中命名实体识别是一项重要的研究内容,利用统计学原理进行命名实体识别具有较高的识别率.利用条件随机场(conditional random fields,CRF)方法,研究藏文人名识别技术,重点探讨藏文人名的内部结构特征、上下文特征、特征选择和数据预处理等内容,并通过实验分析了不同特征的有效性.首先给出了基于字(音节)和字位信息的人名识别方法;其次研究了触发词、虚词、人名词典和指人名词后缀为特征的不同特征组合与优化,并细化了不同虚词对人名识别的作用;最后,通过不同组合的实验测试,结果表明:1)触发词和作格助词特征在藏文人名识别上能够起到积极的作用;2)不同特征窗口大小对人名识别有一定影响;3)利用CRF识别藏文人名F1值能够达到80%左右,但由于藏文两字人名的高歧义性,目前还达不到与其他语言相近的识别效果.  相似文献   

3.
藏文指代消解是藏文信息处理的重要内容也是难点之一.本文利用Naive Bayes模型实现了藏文人名性别的自动识别,从而达到人称代词消解的目的.本方法根据人名的结构和用字(syllable)信息,利用Naive Bayes模型进行机器学习,对3463个藏族人名数据进行开放语料的测试,男女综合人名的准确率达到了99.31%.  相似文献   

4.
提出了一种基于统计与规则相结合的藏文人名自动识别方法.该方法充分挖掘了人名与上下文信息的关联程度,引入互信息对关联程度进行了定量的描述.根据大规模语料(30.2 M文本语料)的统计数据所建立的规则极大地提高了识别算法的准确率;在处理汉族音译人名情况时,采用姓氏驱动的方法,很好地解决了藏文文本中汉族人名的识别问题.实验结果表明,该方法具有较高的准确率和召回率.  相似文献   

5.
古藏文字符统计研究能够对机器翻译以及从海量文本中快速定位核心内容、情报收集工作等有着重要意义.目前,藏文字符统计研究主要依据现代藏文语料库.文章以敦煌藏文文献为主,构建了古藏文文献标注语料库.在此基础上,应用python语言设计出古藏文频率统计软件,对古藏文和现代藏文的元音、辅音、藏文数字频次等进行对比分析,归纳出古藏文字符的分布特征,以期为古藏文标注语料库的构建和研究提供参考.  相似文献   

6.
汉藏机器翻译中汉族人名翻译问题探讨   总被引:1,自引:0,他引:1  
在机器翻译中,对于人名的翻译是个比较棘手的问题,本文仅对汉族人名翻译成藏文这个问题进行一些讨论.  相似文献   

7.
维吾尔语是属于阿尔泰语系的黏着性语言,构词特点比较复杂,尤其是维吾尔语中的人名,由于来源差别巨大,识别难度很高,到目前为止,还未出现成熟的维吾尔语人名识别工具。大量维吾尔语文本中的人名统计发现,维吾尔族人名和汉族人名共占据了约83%,因此该文分别针对维吾尔语文本中出现的维吾尔族人名和汉族人名提出相应的识别方法。针对维吾尔族人名,提出基于字母的模糊匹配识别方法;针对汉族人名,借助机器翻译思想提出基于音字转换的识别方法。实验结果表明:所提方法识别维吾尔族人名F1值能够达到91.84%,识别汉族人名F1值能够达到95.86%。  相似文献   

8.
本文在藏语短语句法分析的基础上,融入功能语义信息线索,采用在藏语短语句法树库的基础上加入语义角色标注的方法,并融合事件触发词信息,对藏文信息进行抽取,并通过实验进行了对比分析。本文事件特征融合与已标注信息对藏文信息抽取有帮助,本文模型可以很好地应用于藏文信息抽取工作。  相似文献   

9.
针对“藏汉人名对照词典”系统友好界面的设计,提出了藏汉两种界面的转换思想,给出了通过加载藏文字体显示藏文的方法,研究了利用配置文件存放不同语言字符串和动态加载不同语言文件来实现界面切换的功能,同时提供了关键技术实现代码.  相似文献   

10.
由于中国人名形式复杂多样,且存在简称、别名等不规范形式,针对传统的中国人名识别方法对诸如人名简称或别名这类非完整形式中国人名识别尚不完善的问题,提出了一种基于扩展模式集的中国人名识别方法,通过扩展人名识别模式集,提高对于非完整形式的中国人名的识别效果。实验结果表明,该方法取得了较好的正确率和召回率,尤其对于非完整形式的中文人名识别取得了一定效果,促进了人名识别工作的完整性。  相似文献   

11.
本论述采用藏语三级切分体系对藏文文本进行分词和词性标注,并借助手工建立的藏文情感分析用词表,与已有的特征选择方法相结合提取情感特征,用相似度分类算法进行藏文文本的情感分类,达到了较好的分类效果.  相似文献   

12.
文章依据所抓取的大量藏文网页URL,对相关的藏文信息网页进行除噪去重处理,得到较为完善的藏文信息库。对用户要查询的藏文信息进行预处理和藏文语义标注,通过基于本体的词汇相关性算法,扩展藏文的查询词汇,建立一对多的藏语词汇联系,从而实现藏文查询中的相关性检索,得到更加符合用户需求的语义关联网页信息。  相似文献   

13.
通过分析各种联机手写识别方法(统计模式识别方法、结构模式识别方法、结构和统计模式识别方法) 以及藏文自身的特点,总结出藏文联机手写识别的方法.  相似文献   

14.
《西藏大学学报》2006,21(1):91-91
由文学院次旦扎西教授主持申报的《大型藏文基础语料库建设》,经国家语言文字工作委员会科研规划领导小组办公室组织的专家评审获立项资助,经费60万元。本课题的目标是:建立一个1.5亿万藏文字符的大型藏文平衡语料库,并结合计算机自动处理与人工处理方式,抽取3000万藏文字符的生语料,进行分词和属性标注等深层次加工,得到藏文基本标注语料库,以便为进一步的语料库文本的语言学和计算语言学研究奠定基础。此课题还将借助计算机技术和语言学理论的新成就及其研究方法,建设大型的藏文基础语料库,对于弘扬民族文化具有十分重要的意义。将为藏语…  相似文献   

15.
通过藏文格助词的接续、结构以及上下文特征,提出基于规则、支持向量机、还原法等三层混合模式的藏文音节切分方法.藏文音节切分是藏文字频统计、分词、词性标注和机器翻译等研究领域的基础,其中藏文紧缩格歧义现象的正确识别、切分和还原是藏文音节切分的难点.经实验,混合模式藏文音节切分的F值为99.97%.  相似文献   

16.
针对藏文图像文本识别在Android系统上的应用问题,提出了一种基于混合注意力机制神经网络模型(CBAM-LeNet-5)的藏文图像文本识别方法,并采用Android平台研发了APP,实现印刷体藏文文本图像预处理、字丁分割以及识别等功能.经实验,改进后的网络模型比传统的LeNet-5模型识别率提高了2.36个百分点,表...  相似文献   

17.
周海涛 《科技资讯》2008,(11):241-241
汉语的多音字给语音合成带来很多问题,尤其是人名和地名。本文在简述语音合成技术及多音字基础上,提出一种汉语人名地名的多音字识别方法并在VC工程中加以实现。  相似文献   

18.
藏文句子边界识别作为藏文信息处理研究领域中的一项重要工作,在词法分析、句法分析、语义分析和机器翻译等领域都具有广泛的应用.在分析藏语句子的概念、分类和边界特征的基础上,提出一种基于混合策略的藏文句子边界识别方法.经实验模型在测试数据集上的F值达99.25%.  相似文献   

19.
在藏文文本理解中虚词发挥着重要的句法、语义桥接作用,其规则的有效性在藏文分词处理中扮演着特殊的角色。由于虚词本身及其角色的丰富性,在一定意义上可以说藏文分词处理是虚词识别的过程。因此,虚词识别的正确与否直接影响着藏文文本分词处理的效果。文章依据藏语自身的语法规律和虚词功能的特殊性,首先构建了虚词知识库、虚词兼类库,以及其作为藏文连续文本中识别虚词的依据;其次,研制了标有词汇属性的分词词表和一定规模的训练语料库资源,以基于条件随机域(CRF)的方法进行词性标注,并结合虚词和词性赋码的资源制作了藏文自动分词赋码一体化处理的模型。  相似文献   

20.
针对藏文词汇资源匮乏和词汇分级模糊等问题,采用词典语料和词性标注语料相结合的方法,设计了藏文单音节单纯词抽取模型,规划了详细的技术方案,构建了比较完整的词典语料库,获得了藏文单音节单纯词的分类词表,依据相对通用度得到了分级词表,其中名词、动词、形容词、副词和数词等单音节单纯词总数1414条,词性之间存在大量的兼类现象,对汉藏语言资源库建设具有重要意义.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号