首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在藏文信息处理中,实现藏文字符排序的关键在于准确地判断藏文音节,而藏文音节判定的关键是对音节构件的识别.文章在借鉴藏文传统语法理论的基础上,结合现代语言学、计算机理论和统计学等知识,介绍了藏文音节的组合形式与特征,规则等问题,以藏文国际标准编码体系为依据,根据音节组件的约束关系,分析了藏文音节七元组的组合规则与类型,有利于藏文音节字符构件的研究和七元组类型的分析、识别与处理.  相似文献   

2.
文章就藏文字处理领域对藏文校对功能的实际需要,提出了基于音节的藏文文本校对方案对藏语音节规则的详细描述.采用统计方法对藏语音节的搭配规则等做了探索性的研究,创建了音节及音节搭配规则等多种知识库,以这些知识库为基础进行音节模式匹配查错.设计实现了音节规则模型与音节库模式匹配方法相结合的音节级查错.通过借鉴藏文传统语法理论、现代语言学理论、计算机技术和统计学理论等知识,介绍了藏文文本校对的设计思想,给出了藏文文本校对系统的组成原理、关键技术及可操作的实现方法.实验结果表明,基于音节的查错方案是可行的.为进一步研究开发藏文智能校对软件提供了所需的规则特征集和统计语料等基础性的研究资料.也为将来实现基于词、语法和语义层面的校对奠定了基础.  相似文献   

3.
藏文命名实体识别是藏语自然语言处理的基础任务,是完成机器翻译、网络舆情检测和知识图谱构建等任务的前提.传统的基于深度学习的藏文命名实体识别将藏文音节(字嵌入)作为模型输入的方法容易忽略藏文音节的局部特征.针对这一问题,本文提出了一种融合构成藏文音节部件特征和藏文音节特征的藏文命名实体识别神经网络模型SL-BiLSTM-CRF(syllable level long short-term memory conditional random field).其中,SL模块对构成音节的部件信息和藏文的单个音节进行特征编码,将两种不同模态的特征融合之后送入BiLSTM模型进行特征提取并预测实体标签,再通过CRF对BiLSTM模型的预测结果进行矫正,最终输出藏文实体识别结果.实验证明,该方法在藏文命名实体识别任务中相比基于单个藏文音节(字嵌入)的BiLSTM-CRF模型的F1值提高了1.58个百分点,验证了该方法在藏文命名实体识别任务中的有效性.  相似文献   

4.
藏文音节字检错是藏文文本校对的重要环节。文章通过分析现代藏文音节字,将藏文音节字分为规则音节字(遵循组件组合规则的藏文音节字)和不规则音节字(不遵循组件组合规则的音节字)两种。对规则音节字采用了音节字组件组合规则进行检错,对非规则音节字采用建立梵源藏文词典、音译藏文词典和本体非规则音节字词典进行检错。实验表明,文章提出的藏文音节字检错方法对报纸类藏文的检错率为100%。  相似文献   

5.
现代藏文自动校对中,对音节字( )的校对是其基础。在藏文文本中音节字是用音节点进行间隔的,由于藏文二维的书写特征和音节字形成过程中与其构件之间严格的搭配规则等诸多问题,使得对它的校对又区别于任何一种文字。文章介绍了音节字的构件、结构和搭配规则等问题,列举了藏文音节字中的错误类型,并针对其特殊性给出了一个特有的音节字校对的流程和方法。  相似文献   

6.
音节字是构成藏文文本的基本单位,也是整个现代藏文自动校对的基础。音节字校对的结果直接影响词校对的正确率,从而对词、格助词、句法和语义校对等产生重要影响。文章以语料库统计得到的藏文音节字字表、二元同现表和纠错建议表等作为语言知识库,以藏文音节字的错误类型为依据,设计了字表匹配和查找同现概率为侦错方法、用纠错建议表进行纠错的音节字校对系统。  相似文献   

7.
藏文字符分割是藏文印刷体识别技术中的关键技术之一,高精度的字符分割是图像文本识别的主要因素,分割的效果直接影响最终的识别.该文通过研究藏文字形结构和文本图像分割技术,提出了投影法和连通域分割法相结合的藏文音节分割方法.在不同的喜马拉雅字体文本图像上分割测试准确率达99.31%,在卷积网络模型上藏文音节识别准确率比字丁高2.7%,表明藏文音节分割方法的有效性.  相似文献   

8.
藏文分词是藏文自然语言处理的基础。根据藏文虚词在藏文文本中的特殊作用以及虚词的兼类性、结合性、黏着变体性和还原特性,设计实现了一个基于藏语虚词切分的正向最大匹配的藏文分词系统,该系统对原始文本进行逐次扫描处理得到分词结果。实验表明,文章提出的藏文分词系统具有较高的切分精度和切分速度。  相似文献   

9.
藏文音节字的频次统计可以准确地掌握藏文音节字中表意字的使用频度。文章以1亿5千万藏文字符的藏文平衡语料库——大型藏文基础语料库为统计源,提出了非藏文字符和93个特殊藏文字符作为音节分隔符来识别藏文音节字的方法,设计实现了藏文音节字频次统计软件,并从不同的角度对统计结果和错误音节的类型进行了分析。  相似文献   

10.
首先介绍藏文音节独特的构造方法, 以及藏文字母的语音特性带来的藏文组合形式上的诸多限制。然后以藏文音节为研究对象, 借助藏文语法规则, 建立现代藏文音节的简化模型和相应的规则库,并介绍其应用领域。最后提出一种基于音节模型的的藏文音节自动拼写算法, 并通过实验验证规则方法的有效性。  相似文献   

11.
藏文基字是藏文字符的核心构件,能够在藏文音节结构中准确地识别基字,不仅有利于解析藏文字符的构件,对实现藏文排序算法也具有重要意义。文章依据藏文文法,严格遵循现代藏文音节字的结构特征,设计了现代藏文音节字的基字识别算法,并对不符合现代藏文构字规则的高频字进行了特殊处理,设计实现了现代藏文音节字的基字识别软件。该软件对18785个现代藏文音节字进行测试,识别率达到100%。  相似文献   

12.
现代藏文字典序是按照传统藏文字的构造序而建立的排序方法,遵循严格的书面藏语构造规则.藏文编码中国国家标准正式发布实施后,藏文字符自身构造的复杂性、大量梵音藏文等他族语字符以及科技字符的存在,使得Microsoft office环境下藏文的序性问题一直未得到很好的解决.本文提出并实现了一种基于VBA的藏文音节在Word应用程序中的排序方法,方法简单、容易实现,解决了藏文音节在Microsoft office环境中排序的问题.  相似文献   

13.
基于藏文La格(??????)例句的自动分类在藏语自然语言处理领域的重要性,根据藏文La格的用法和添接规则,在对藏文La格例句进行分类并定义分类概念的基础上,提出一种融合双通道音节特征的藏文La格例句自动分类模型.该模型首先使用word2vec和Glove构建双通道藏文音节嵌入,分别在每路卷积中融合双通道音节特征,丰富...  相似文献   

14.
文章根据国际藏文编码标准,分析基本集变长序列码与藏文音节的映射关系,描述以前导字符、组合字符及元音构成变长码序列的规则,从而提出藏文音节结构的拉丁文转写模型,实现了通用的转换组件.  相似文献   

15.
叶西切忠  安见才让 《科技信息》2011,(31):236-236,256
藏文分词是藏文信息处理领域的一项不可缺少的基础性工作,也是智能化藏文信息处理的关键所在。在藏文分词的研究过程中藏文分词的准确性,直接制约着藏文输入法研究、藏文电子词典建设、藏文词频统计、搜索引擎的设计和实现、机器翻译系统的开发、藏文语料库建设以及藏语语义分析研究等高层藏文信息处理技术的进一步发展。本文借鉴汉语的分词理论和方法,提出符合藏文特性的分词方法,以及歧义字段切分和未登录词识别等相关问题,并举例说明。  相似文献   

16.
文章在win8操作系统支持下,设计并实现了基于音节的现代藏文文本校对功能。通过分析和研究藏文音节的拼写规则,对传统藏语中的音节拼写规则进行了详细的形式化描述。采用统计方法对藏语音节的搭配规则做了探索性的研究,创建了音节搭配规则知识库,以这些知识库为基础进行音节模式匹配查错,创建了音节规则校对模型,运用音节规则模型实现现代藏文文本的音节级校对功能。  相似文献   

17.
针对传统端点检测算法因忽视语言特点导致的检测精度不足问题,结合元音中心论、响度说、合张运动说等俄语音节理论,提出一种面向俄语语音的音节端点检测算法.算法利用共振峰能量检测元音,并根据元音动态调整门限,基于短时过零率和能熵比提取和切分音节.算法在元音检测中查准率为84.9%,查全率为87%,音节切分的正确率为78.6%,端点检测精度为91.6%,较传统算法剔除了音节间的无话帧,提高了端点检测的精度.  相似文献   

18.
文章针对传统藏文分词的切词难点及切分歧义现象,提出一种基于小字符集的藏文自动分词技术方案.其中包括分词预处理、多级Hash词典机制、藏文格助词紧缩格的判别及还原规则、逐字匹配算法和未登录词的处理等内容.  相似文献   

19.
本文首先分析了藏文人名的特点以及藏文人名识别的难点,在此基础上,利用条件随机场模型,分别提出了采用基于亚音节标注的藏文人名识别方法和分词与词性标注一体化的藏文人名识别方法.  相似文献   

20.
文章将信息论的方法引入藏文信息处理技术研究领域,利用统计的方法研究了以字符为单位和以音节字为单位的藏文信息熵。通过对275万多音节字的大规模藏语单语语料进行统计,给出了以字符为统计单位和以音节字为统计单位的现代藏文的熵,其值分别为4.17和8.21比特,并从信息论的角度证明了藏文具有拼音文字和音节字特征的双重属性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号