首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
藏文音节字的频次统计可以准确地掌握藏文音节字中表意字的使用频度。文章以1亿5千万藏文字符的藏文平衡语料库——大型藏文基础语料库为统计源,提出了非藏文字符和93个特殊藏文字符作为音节分隔符来识别藏文音节字的方法,设计实现了藏文音节字频次统计软件,并从不同的角度对统计结果和错误音节的类型进行了分析。  相似文献   

2.
藏文基字是藏文字符的核心构件,能够在藏文音节结构中准确地识别基字,不仅有利于解析藏文字符的构件,对实现藏文排序算法也具有重要意义。文章依据藏文文法,严格遵循现代藏文音节字的结构特征,设计了现代藏文音节字的基字识别算法,并对不符合现代藏文构字规则的高频字进行了特殊处理,设计实现了现代藏文音节字的基字识别软件。该软件对18785个现代藏文音节字进行测试,识别率达到100%。  相似文献   

3.
藏文字符分割是藏文印刷体识别技术中的关键技术之一,高精度的字符分割是图像文本识别的主要因素,分割的效果直接影响最终的识别.该文通过研究藏文字形结构和文本图像分割技术,提出了投影法和连通域分割法相结合的藏文音节分割方法.在不同的喜马拉雅字体文本图像上分割测试准确率达99.31%,在卷积网络模型上藏文音节识别准确率比字丁高2.7%,表明藏文音节分割方法的有效性.  相似文献   

4.
音节字是构成藏文文本的基本单位,也是整个现代藏文自动校对的基础。音节字校对的结果直接影响词校对的正确率,从而对词、格助词、句法和语义校对等产生重要影响。文章以语料库统计得到的藏文音节字字表、二元同现表和纠错建议表等作为语言知识库,以藏文音节字的错误类型为依据,设计了字表匹配和查找同现概率为侦错方法、用纠错建议表进行纠错的音节字校对系统。  相似文献   

5.
在藏文信息处理中,实现藏文字符排序的关键在于准确地判断藏文音节,而藏文音节判定的关键是对音节构件的识别.文章在借鉴藏文传统语法理论的基础上,结合现代语言学、计算机理论和统计学等知识,介绍了藏文音节的组合形式与特征,规则等问题,以藏文国际标准编码体系为依据,根据音节组件的约束关系,分析了藏文音节七元组的组合规则与类型,有利于藏文音节字符构件的研究和七元组类型的分析、识别与处理.  相似文献   

6.
藏文音节字检错是藏文文本校对的重要环节。文章通过分析现代藏文音节字,将藏文音节字分为规则音节字(遵循组件组合规则的藏文音节字)和不规则音节字(不遵循组件组合规则的音节字)两种。对规则音节字采用了音节字组件组合规则进行检错,对非规则音节字采用建立梵源藏文词典、音译藏文词典和本体非规则音节字词典进行检错。实验表明,文章提出的藏文音节字检错方法对报纸类藏文的检错率为100%。  相似文献   

7.
文章就藏文字处理领域对藏文校对功能的实际需要,提出了基于音节的藏文文本校对方案对藏语音节规则的详细描述.采用统计方法对藏语音节的搭配规则等做了探索性的研究,创建了音节及音节搭配规则等多种知识库,以这些知识库为基础进行音节模式匹配查错.设计实现了音节规则模型与音节库模式匹配方法相结合的音节级查错.通过借鉴藏文传统语法理论、现代语言学理论、计算机技术和统计学理论等知识,介绍了藏文文本校对的设计思想,给出了藏文文本校对系统的组成原理、关键技术及可操作的实现方法.实验结果表明,基于音节的查错方案是可行的.为进一步研究开发藏文智能校对软件提供了所需的规则特征集和统计语料等基础性的研究资料.也为将来实现基于词、语法和语义层面的校对奠定了基础.  相似文献   

8.
桑塔  达哇彭措 《科技信息》2010,(29):14-14,19
依据传统藏语文字学著作,以现代语言信息处理为目的,运用字丁为单位对藏文音节的纵向排列形式进行了统计。在基子位置上出现的形式有469个、前加字5个、后加字10个以及重后加字2个。  相似文献   

9.
现代藏文自动校对中,对音节字( )的校对是其基础。在藏文文本中音节字是用音节点进行间隔的,由于藏文二维的书写特征和音节字形成过程中与其构件之间严格的搭配规则等诸多问题,使得对它的校对又区别于任何一种文字。文章介绍了音节字的构件、结构和搭配规则等问题,列举了藏文音节字中的错误类型,并针对其特殊性给出了一个特有的音节字校对的流程和方法。  相似文献   

10.
古藏文字符统计研究能够对机器翻译以及从海量文本中快速定位核心内容、情报收集工作等有着重要意义.目前,藏文字符统计研究主要依据现代藏文语料库.文章以敦煌藏文文献为主,构建了古藏文文献标注语料库.在此基础上,应用python语言设计出古藏文频率统计软件,对古藏文和现代藏文的元音、辅音、藏文数字频次等进行对比分析,归纳出古藏文字符的分布特征,以期为古藏文标注语料库的构建和研究提供参考.  相似文献   

11.
现代藏文字典序是按照传统藏文字的构造序而建立的排序方法,遵循严格的书面藏语构造规则.藏文编码中国国家标准正式发布实施后,藏文字符自身构造的复杂性、大量梵音藏文等他族语字符以及科技字符的存在,使得Microsoft office环境下藏文的序性问题一直未得到很好的解决.本文提出并实现了一种基于VBA的藏文音节在Word应用程序中的排序方法,方法简单、容易实现,解决了藏文音节在Microsoft office环境中排序的问题.  相似文献   

12.
文章根据国际藏文编码标准,分析基本集变长序列码与藏文音节的映射关系,描述以前导字符、组合字符及元音构成变长码序列的规则,从而提出藏文音节结构的拉丁文转写模型,实现了通用的转换组件.  相似文献   

13.
文章在win8操作系统支持下,设计并实现了基于音节的现代藏文文本校对功能。通过分析和研究藏文音节的拼写规则,对传统藏语中的音节拼写规则进行了详细的形式化描述。采用统计方法对藏语音节的搭配规则做了探索性的研究,创建了音节搭配规则知识库,以这些知识库为基础进行音节模式匹配查错,创建了音节规则校对模型,运用音节规则模型实现现代藏文文本的音节级校对功能。  相似文献   

14.
通过藏文格助词的接续、结构以及上下文特征,提出基于规则、支持向量机、还原法等三层混合模式的藏文音节切分方法.藏文音节切分是藏文字频统计、分词、词性标注和机器翻译等研究领域的基础,其中藏文紧缩格歧义现象的正确识别、切分和还原是藏文音节切分的难点.经实验,混合模式藏文音节切分的F值为99.97%.  相似文献   

15.
藏文编码字符集构件集   总被引:3,自引:1,他引:2  
本文论述了藏文信息结构和构件拆分的原理,采用统计方法,建立了藏文编码字符集构件集,用已编码的藏文字符表示未编码的藏文外字具体字型的结构和内容,说明厂构件集的选取与排序,论证了它的可行性,以期建立全藏文编码体系。  相似文献   

16.
根据小字符集编码特征和藏文正字法规则,并通过占位辅音和非占位辅音在组合字符中的规则来判定组合字符的构成.组合字符的结构确定后,再参照藏文正字法的知识,最终实现现代藏文音节结构的判定以及各部件的识别.  相似文献   

17.
首先介绍藏文音节独特的构造方法, 以及藏文字母的语音特性带来的藏文组合形式上的诸多限制。然后以藏文音节为研究对象, 借助藏文语法规则, 建立现代藏文音节的简化模型和相应的规则库,并介绍其应用领域。最后提出一种基于音节模型的的藏文音节自动拼写算法, 并通过实验验证规则方法的有效性。  相似文献   

18.
藏文命名实体识别是藏语自然语言处理的基础任务,是完成机器翻译、网络舆情检测和知识图谱构建等任务的前提.传统的基于深度学习的藏文命名实体识别将藏文音节(字嵌入)作为模型输入的方法容易忽略藏文音节的局部特征.针对这一问题,本文提出了一种融合构成藏文音节部件特征和藏文音节特征的藏文命名实体识别神经网络模型SL-BiLSTM-CRF(syllable level long short-term memory conditional random field).其中,SL模块对构成音节的部件信息和藏文的单个音节进行特征编码,将两种不同模态的特征融合之后送入BiLSTM模型进行特征提取并预测实体标签,再通过CRF对BiLSTM模型的预测结果进行矫正,最终输出藏文实体识别结果.实验证明,该方法在藏文命名实体识别任务中相比基于单个藏文音节(字嵌入)的BiLSTM-CRF模型的F1值提高了1.58个百分点,验证了该方法在藏文命名实体识别任务中的有效性.  相似文献   

19.
基于藏文音节规则的识别后处理方法,总结了音节规则的约束条件 试验表明该方法在藏文文本识别后处理中具有较高的自适应性 在《印刷藏文(汉英混排)文档识别系统》的测试中,50万字的藏文测试样本,识别率在97.3%的基础上提高了0.3%,显示出该方法具有良好的效果  相似文献   

20.
在藏文信息处理系统中,藏文拉丁转写是需要解决的重要课题。本文从藏文文本规范化、黏着语的分离与还原、基字的确定和藏文音节转写规则四个部分设计了藏文拉丁转写方案,最终实现藏文拉丁转写。该转写方案的设计在藏文信息处理领域具有非常重要的现实意义和应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号