首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
藏文基字是藏文字符的核心构件,能够在藏文音节结构中准确地识别基字,不仅有利于解析藏文字符的构件,对实现藏文排序算法也具有重要意义。文章依据藏文文法,严格遵循现代藏文音节字的结构特征,设计了现代藏文音节字的基字识别算法,并对不符合现代藏文构字规则的高频字进行了特殊处理,设计实现了现代藏文音节字的基字识别软件。该软件对18785个现代藏文音节字进行测试,识别率达到100%。  相似文献   

2.
在藏文信息处理中,实现藏文字符排序的关键在于准确地判断藏文音节,而藏文音节判定的关键是对音节构件的识别.文章在借鉴藏文传统语法理论的基础上,结合现代语言学、计算机理论和统计学等知识,介绍了藏文音节的组合形式与特征,规则等问题,以藏文国际标准编码体系为依据,根据音节组件的约束关系,分析了藏文音节七元组的组合规则与类型,有利于藏文音节字符构件的研究和七元组类型的分析、识别与处理.  相似文献   

3.
藏文字符分割是藏文印刷体识别技术中的关键技术之一,高精度的字符分割是图像文本识别的主要因素,分割的效果直接影响最终的识别.该文通过研究藏文字形结构和文本图像分割技术,提出了投影法和连通域分割法相结合的藏文音节分割方法.在不同的喜马拉雅字体文本图像上分割测试准确率达99.31%,在卷积网络模型上藏文音节识别准确率比字丁高2.7%,表明藏文音节分割方法的有效性.  相似文献   

4.
藏文音节字检错是藏文文本校对的重要环节。文章通过分析现代藏文音节字,将藏文音节字分为规则音节字(遵循组件组合规则的藏文音节字)和不规则音节字(不遵循组件组合规则的音节字)两种。对规则音节字采用了音节字组件组合规则进行检错,对非规则音节字采用建立梵源藏文词典、音译藏文词典和本体非规则音节字词典进行检错。实验表明,文章提出的藏文音节字检错方法对报纸类藏文的检错率为100%。  相似文献   

5.
通过藏文格助词的接续、结构以及上下文特征,提出基于规则、支持向量机、还原法等三层混合模式的藏文音节切分方法.藏文音节切分是藏文字频统计、分词、词性标注和机器翻译等研究领域的基础,其中藏文紧缩格歧义现象的正确识别、切分和还原是藏文音节切分的难点.经实验,混合模式藏文音节切分的F值为99.97%.  相似文献   

6.
藏文命名实体识别是藏语自然语言处理的基础任务,是完成机器翻译、网络舆情检测和知识图谱构建等任务的前提.传统的基于深度学习的藏文命名实体识别将藏文音节(字嵌入)作为模型输入的方法容易忽略藏文音节的局部特征.针对这一问题,本文提出了一种融合构成藏文音节部件特征和藏文音节特征的藏文命名实体识别神经网络模型SL-BiLSTM-CRF(syllable level long short-term memory conditional random field).其中,SL模块对构成音节的部件信息和藏文的单个音节进行特征编码,将两种不同模态的特征融合之后送入BiLSTM模型进行特征提取并预测实体标签,再通过CRF对BiLSTM模型的预测结果进行矫正,最终输出藏文实体识别结果.实验证明,该方法在藏文命名实体识别任务中相比基于单个藏文音节(字嵌入)的BiLSTM-CRF模型的F1值提高了1.58个百分点,验证了该方法在藏文命名实体识别任务中的有效性.  相似文献   

7.
文章在win8操作系统支持下,设计并实现了基于音节的现代藏文文本校对功能。通过分析和研究藏文音节的拼写规则,对传统藏语中的音节拼写规则进行了详细的形式化描述。采用统计方法对藏语音节的搭配规则做了探索性的研究,创建了音节搭配规则知识库,以这些知识库为基础进行音节模式匹配查错,创建了音节规则校对模型,运用音节规则模型实现现代藏文文本的音节级校对功能。  相似文献   

8.
根据小字符集编码特征和藏文正字法规则,并通过占位辅音和非占位辅音在组合字符中的规则来判定组合字符的构成.组合字符的结构确定后,再参照藏文正字法的知识,最终实现现代藏文音节结构的判定以及各部件的识别.  相似文献   

9.
首先介绍藏文音节独特的构造方法, 以及藏文字母的语音特性带来的藏文组合形式上的诸多限制。然后以藏文音节为研究对象, 借助藏文语法规则, 建立现代藏文音节的简化模型和相应的规则库,并介绍其应用领域。最后提出一种基于音节模型的的藏文音节自动拼写算法, 并通过实验验证规则方法的有效性。  相似文献   

10.
现代藏文自动校对中,对音节字( )的校对是其基础。在藏文文本中音节字是用音节点进行间隔的,由于藏文二维的书写特征和音节字形成过程中与其构件之间严格的搭配规则等诸多问题,使得对它的校对又区别于任何一种文字。文章介绍了音节字的构件、结构和搭配规则等问题,列举了藏文音节字中的错误类型,并针对其特殊性给出了一个特有的音节字校对的流程和方法。  相似文献   

11.
文章就藏文字处理领域对藏文校对功能的实际需要,提出了基于音节的藏文文本校对方案对藏语音节规则的详细描述.采用统计方法对藏语音节的搭配规则等做了探索性的研究,创建了音节及音节搭配规则等多种知识库,以这些知识库为基础进行音节模式匹配查错.设计实现了音节规则模型与音节库模式匹配方法相结合的音节级查错.通过借鉴藏文传统语法理论、现代语言学理论、计算机技术和统计学理论等知识,介绍了藏文文本校对的设计思想,给出了藏文文本校对系统的组成原理、关键技术及可操作的实现方法.实验结果表明,基于音节的查错方案是可行的.为进一步研究开发藏文智能校对软件提供了所需的规则特征集和统计语料等基础性的研究资料.也为将来实现基于词、语法和语义层面的校对奠定了基础.  相似文献   

12.
藏文音节字的频次统计可以准确地掌握藏文音节字中表意字的使用频度。文章以1亿5千万藏文字符的藏文平衡语料库——大型藏文基础语料库为统计源,提出了非藏文字符和93个特殊藏文字符作为音节分隔符来识别藏文音节字的方法,设计实现了藏文音节字频次统计软件,并从不同的角度对统计结果和错误音节的类型进行了分析。  相似文献   

13.
在藏文信息处理系统中,藏文拉丁转写是需要解决的重要课题。本文从藏文文本规范化、黏着语的分离与还原、基字的确定和藏文音节转写规则四个部分设计了藏文拉丁转写方案,最终实现藏文拉丁转写。该转写方案的设计在藏文信息处理领域具有非常重要的现实意义和应用价值。  相似文献   

14.
提出了一种基于统计与规则相结合的藏文人名自动识别方法.该方法充分挖掘了人名与上下文信息的关联程度,引入互信息对关联程度进行了定量的描述.根据大规模语料(30.2 M文本语料)的统计数据所建立的规则极大地提高了识别算法的准确率;在处理汉族音译人名情况时,采用姓氏驱动的方法,很好地解决了藏文文本中汉族人名的识别问题.实验结果表明,该方法具有较高的准确率和召回率.  相似文献   

15.
基于藏文La格(??????)例句的自动分类在藏语自然语言处理领域的重要性,根据藏文La格的用法和添接规则,在对藏文La格例句进行分类并定义分类概念的基础上,提出一种融合双通道音节特征的藏文La格例句自动分类模型.该模型首先使用word2vec和Glove构建双通道藏文音节嵌入,分别在每路卷积中融合双通道音节特征,丰富...  相似文献   

16.
针对藏文信息处理的需求,提出了一套层次化、基于规则的藏文文本规范化处理方案.首先分析整理了藏文文本中的不规范文本类型,然后根据藏文文本中不同类型的不规范文本特征,分别设计文本规范化算法,并用程序实现了藏文文本的规范化.最后对该方法进行了实验测试,测试结果表明该方法能较好地实现藏文文本的规范化.  相似文献   

17.
现代藏文字典序是按照传统藏文字的构造序而建立的排序方法,遵循严格的书面藏语构造规则.藏文编码中国国家标准正式发布实施后,藏文字符自身构造的复杂性、大量梵音藏文等他族语字符以及科技字符的存在,使得Microsoft office环境下藏文的序性问题一直未得到很好的解决.本文提出并实现了一种基于VBA的藏文音节在Word应用程序中的排序方法,方法简单、容易实现,解决了藏文音节在Microsoft office环境中排序的问题.  相似文献   

18.
文本挖掘中命名实体识别是一项重要的研究内容,利用统计学原理进行命名实体识别具有较高的识别率.利用条件随机场(conditional random fields,CRF)方法,研究藏文人名识别技术,重点探讨藏文人名的内部结构特征、上下文特征、特征选择和数据预处理等内容,并通过实验分析了不同特征的有效性.首先给出了基于字(音节)和字位信息的人名识别方法;其次研究了触发词、虚词、人名词典和指人名词后缀为特征的不同特征组合与优化,并细化了不同虚词对人名识别的作用;最后,通过不同组合的实验测试,结果表明:1)触发词和作格助词特征在藏文人名识别上能够起到积极的作用;2)不同特征窗口大小对人名识别有一定影响;3)利用CRF识别藏文人名F1值能够达到80%左右,但由于藏文两字人名的高歧义性,目前还达不到与其他语言相近的识别效果.  相似文献   

19.
统计与规则相结合的藏文句子自动断句方法   总被引:1,自引:0,他引:1  
 藏文句子断句是藏文信息处理领域的难点之一,也是藏汉机器翻译、藏文文本分类等工作的一项重要基础性研究.提出了一种统计与规则相结合的藏文句子自动断句方法以解决藏文标点符号功能的歧义问题,实验结果表明该方法具有比较好的效果,F1值达到98%以上.在规则中首先使用经验的方法,识别出不确定的藏文句子作为候选句子,然后采用基于关联词的复句分析方法进行分句合并形成二次候选句子;最后使用最大熵的方法对二次候选句子进行断句.经验方法和复句分析有效解决了最大熵算法无法触及的语料稀疏和分句问题.  相似文献   

20.
文章就藏文人名本身的特性分析了人名识别的难点,提出了CRF与规则相结合的藏文人名识别方法.该方法首先以CRF作为机器学习模型,充分利用藏文人名的各类特征,然后针对人名不能全面召回的问题,利用规则方法进行后处理,最终建立了一种优势互补的识别模型.实验结果表明,该文提出的方法具有较好的性能,F-值可达91.55.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号