首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 20 毫秒
1.
文章将信息论的方法引入藏文信息处理技术研究领域,利用统计的方法研究了以字符为单位和以音节字为单位的藏文信息熵。通过对275万多音节字的大规模藏语单语语料进行统计,给出了以字符为统计单位和以音节字为统计单位的现代藏文的熵,其值分别为4.17和8.21比特,并从信息论的角度证明了藏文具有拼音文字和音节字特征的双重属性。  相似文献   

2.
藏文基字是藏文字符的核心构件,能够在藏文音节结构中准确地识别基字,不仅有利于解析藏文字符的构件,对实现藏文排序算法也具有重要意义。文章依据藏文文法,严格遵循现代藏文音节字的结构特征,设计了现代藏文音节字的基字识别算法,并对不符合现代藏文构字规则的高频字进行了特殊处理,设计实现了现代藏文音节字的基字识别软件。该软件对18785个现代藏文音节字进行测试,识别率达到100%。  相似文献   

3.
音节字是构成藏文文本的基本单位,也是整个现代藏文自动校对的基础。音节字校对的结果直接影响词校对的正确率,从而对词、格助词、句法和语义校对等产生重要影响。文章以语料库统计得到的藏文音节字字表、二元同现表和纠错建议表等作为语言知识库,以藏文音节字的错误类型为依据,设计了字表匹配和查找同现概率为侦错方法、用纠错建议表进行纠错的音节字校对系统。  相似文献   

4.
古藏文字符统计研究能够对机器翻译以及从海量文本中快速定位核心内容、情报收集工作等有着重要意义.目前,藏文字符统计研究主要依据现代藏文语料库.文章以敦煌藏文文献为主,构建了古藏文文献标注语料库.在此基础上,应用python语言设计出古藏文频率统计软件,对古藏文和现代藏文的元音、辅音、藏文数字频次等进行对比分析,归纳出古藏文字符的分布特征,以期为古藏文标注语料库的构建和研究提供参考.  相似文献   

5.
藏文字符分割是藏文印刷体识别技术中的关键技术之一,高精度的字符分割是图像文本识别的主要因素,分割的效果直接影响最终的识别.该文通过研究藏文字形结构和文本图像分割技术,提出了投影法和连通域分割法相结合的藏文音节分割方法.在不同的喜马拉雅字体文本图像上分割测试准确率达99.31%,在卷积网络模型上藏文音节识别准确率比字丁高2.7%,表明藏文音节分割方法的有效性.  相似文献   

6.
在藏文信息处理中,实现藏文字符排序的关键在于准确地判断藏文音节,而藏文音节判定的关键是对音节构件的识别.文章在借鉴藏文传统语法理论的基础上,结合现代语言学、计算机理论和统计学等知识,介绍了藏文音节的组合形式与特征,规则等问题,以藏文国际标准编码体系为依据,根据音节组件的约束关系,分析了藏文音节七元组的组合规则与类型,有利于藏文音节字符构件的研究和七元组类型的分析、识别与处理.  相似文献   

7.
藏文音节字检错是藏文文本校对的重要环节。文章通过分析现代藏文音节字,将藏文音节字分为规则音节字(遵循组件组合规则的藏文音节字)和不规则音节字(不遵循组件组合规则的音节字)两种。对规则音节字采用了音节字组件组合规则进行检错,对非规则音节字采用建立梵源藏文词典、音译藏文词典和本体非规则音节字词典进行检错。实验表明,文章提出的藏文音节字检错方法对报纸类藏文的检错率为100%。  相似文献   

8.
文章根据国际藏文编码标准,分析基本集变长序列码与藏文音节的映射关系,描述以前导字符、组合字符及元音构成变长码序列的规则,从而提出藏文音节结构的拉丁文转写模型,实现了通用的转换组件.  相似文献   

9.
现代藏文自动校对中,对音节字( )的校对是其基础。在藏文文本中音节字是用音节点进行间隔的,由于藏文二维的书写特征和音节字形成过程中与其构件之间严格的搭配规则等诸多问题,使得对它的校对又区别于任何一种文字。文章介绍了音节字的构件、结构和搭配规则等问题,列举了藏文音节字中的错误类型,并针对其特殊性给出了一个特有的音节字校对的流程和方法。  相似文献   

10.
现代藏文字典序是按照传统藏文字的构造序而建立的排序方法,遵循严格的书面藏语构造规则.藏文编码中国国家标准正式发布实施后,藏文字符自身构造的复杂性、大量梵音藏文等他族语字符以及科技字符的存在,使得Microsoft office环境下藏文的序性问题一直未得到很好的解决.本文提出并实现了一种基于VBA的藏文音节在Word应用程序中的排序方法,方法简单、容易实现,解决了藏文音节在Microsoft office环境中排序的问题.  相似文献   

11.
根据小字符集编码特征和藏文正字法规则,并通过占位辅音和非占位辅音在组合字符中的规则来判定组合字符的构成.组合字符的结构确定后,再参照藏文正字法的知识,最终实现现代藏文音节结构的判定以及各部件的识别.  相似文献   

12.
《西藏大学学报》2006,21(1):91-91
由文学院次旦扎西教授主持申报的《大型藏文基础语料库建设》,经国家语言文字工作委员会科研规划领导小组办公室组织的专家评审获立项资助,经费60万元。本课题的目标是:建立一个1.5亿万藏文字符的大型藏文平衡语料库,并结合计算机自动处理与人工处理方式,抽取3000万藏文字符的生语料,进行分词和属性标注等深层次加工,得到藏文基本标注语料库,以便为进一步的语料库文本的语言学和计算语言学研究奠定基础。此课题还将借助计算机技术和语言学理论的新成就及其研究方法,建设大型的藏文基础语料库,对于弘扬民族文化具有十分重要的意义。将为藏语…  相似文献   

13.
藏文编码字符集构件集   总被引:3,自引:1,他引:2  
本文论述了藏文信息结构和构件拆分的原理,采用统计方法,建立了藏文编码字符集构件集,用已编码的藏文字符表示未编码的藏文外字具体字型的结构和内容,说明厂构件集的选取与排序,论证了它的可行性,以期建立全藏文编码体系。  相似文献   

14.
在考察、借鉴上百年来国内外对德、英、汉、蒙、藏等语种所作的文字计量研究,特别是各种汉文字词频度统计研究成果的基础上,论述了基于大型藏文语料库的藏文字符、部件、音节、词汇频度与通用度统计、分析的理论与方法及其实现过程 该项研究是一项基础性研究,首次实现了大规模藏文词汇频度与通用度统计,具有一定的创新性 其成果有助于藏族基础教育和扫盲教育的语言文字教学,对藏语语言学研究和藏文信息处理领域的许多方面具有重要应用价值  相似文献   

15.
文章就藏文字处理领域对藏文校对功能的实际需要,提出了基于音节的藏文文本校对方案对藏语音节规则的详细描述.采用统计方法对藏语音节的搭配规则等做了探索性的研究,创建了音节及音节搭配规则等多种知识库,以这些知识库为基础进行音节模式匹配查错.设计实现了音节规则模型与音节库模式匹配方法相结合的音节级查错.通过借鉴藏文传统语法理论、现代语言学理论、计算机技术和统计学理论等知识,介绍了藏文文本校对的设计思想,给出了藏文文本校对系统的组成原理、关键技术及可操作的实现方法.实验结果表明,基于音节的查错方案是可行的.为进一步研究开发藏文智能校对软件提供了所需的规则特征集和统计语料等基础性的研究资料.也为将来实现基于词、语法和语义层面的校对奠定了基础.  相似文献   

16.
藏文命名实体识别是藏语自然语言处理的基础任务,是完成机器翻译、网络舆情检测和知识图谱构建等任务的前提.传统的基于深度学习的藏文命名实体识别将藏文音节(字嵌入)作为模型输入的方法容易忽略藏文音节的局部特征.针对这一问题,本文提出了一种融合构成藏文音节部件特征和藏文音节特征的藏文命名实体识别神经网络模型SL-BiLSTM-CRF(syllable level long short-term memory conditional random field).其中,SL模块对构成音节的部件信息和藏文的单个音节进行特征编码,将两种不同模态的特征融合之后送入BiLSTM模型进行特征提取并预测实体标签,再通过CRF对BiLSTM模型的预测结果进行矫正,最终输出藏文实体识别结果.实验证明,该方法在藏文命名实体识别任务中相比基于单个藏文音节(字嵌入)的BiLSTM-CRF模型的F1值提高了1.58个百分点,验证了该方法在藏文命名实体识别任务中的有效性.  相似文献   

17.
文章在win8操作系统支持下,设计并实现了基于音节的现代藏文文本校对功能。通过分析和研究藏文音节的拼写规则,对传统藏语中的音节拼写规则进行了详细的形式化描述。采用统计方法对藏语音节的搭配规则做了探索性的研究,创建了音节搭配规则知识库,以这些知识库为基础进行音节模式匹配查错,创建了音节规则校对模型,运用音节规则模型实现现代藏文文本的音节级校对功能。  相似文献   

18.
通过藏文格助词的接续、结构以及上下文特征,提出基于规则、支持向量机、还原法等三层混合模式的藏文音节切分方法.藏文音节切分是藏文字频统计、分词、词性标注和机器翻译等研究领域的基础,其中藏文紧缩格歧义现象的正确识别、切分和还原是藏文音节切分的难点.经实验,混合模式藏文音节切分的F值为99.97%.  相似文献   

19.
桑塔  达哇彭措 《科技信息》2010,(29):14-14,19
依据传统藏语文字学著作,以现代语言信息处理为目的,运用字丁为单位对藏文音节的纵向排列形式进行了统计。在基子位置上出现的形式有469个、前加字5个、后加字10个以及重后加字2个。  相似文献   

20.
基于藏文音节规则的识别后处理方法,总结了音节规则的约束条件 试验表明该方法在藏文文本识别后处理中具有较高的自适应性 在《印刷藏文(汉英混排)文档识别系统》的测试中,50万字的藏文测试样本,识别率在97.3%的基础上提高了0.3%,显示出该方法具有良好的效果  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号