首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
《西藏大学学报》2006,21(1):91-91
由文学院次旦扎西教授主持申报的《大型藏文基础语料库建设》,经国家语言文字工作委员会科研规划领导小组办公室组织的专家评审获立项资助,经费60万元。本课题的目标是:建立一个1.5亿万藏文字符的大型藏文平衡语料库,并结合计算机自动处理与人工处理方式,抽取3000万藏文字符的生语料,进行分词和属性标注等深层次加工,得到藏文基本标注语料库,以便为进一步的语料库文本的语言学和计算语言学研究奠定基础。此课题还将借助计算机技术和语言学理论的新成就及其研究方法,建设大型的藏文基础语料库,对于弘扬民族文化具有十分重要的意义。将为藏语…  相似文献   

2.
洲塔先生现为兰州大学西北少数民族研究中心教授,博士生导师.多年来,洲塔教授致力于藏族社会历史、藏语言文学、佛教哲学、古藏文文献等研究,几乎走遍了藏区的每一个角落,研究成果丰硕.其中,《甘肃藏族部落的社会与历史研究》和《甘肃宕昌藏族家藏古藏文苯教文献》是具有代表性的两项研究成果.文章主要对洲塔教授的学术生涯、学术思想、研究成果及研究方法等方面进行了采访.  相似文献   

3.
日本学者通过对敦煌古藏文禅宗文献的研究,证明某些中原地区的禅宗文化被译成藏文,传到了吐蕃;有些藏文佛教文献直接译自梵文,而非自汉地传入,从而推进了对藏传佛教和汉地佛教禅宗的研究,领先于国际敦煌学界。  相似文献   

4.
针对藏文词汇资源匮乏和词汇分级模糊等问题,采用词典语料和词性标注语料相结合的方法,设计了藏文单音节单纯词抽取模型,规划了详细的技术方案,构建了比较完整的词典语料库,获得了藏文单音节单纯词的分类词表,依据相对通用度得到了分级词表,其中名词、动词、形容词、副词和数词等单音节单纯词总数1414条,词性之间存在大量的兼类现象,对汉藏语言资源库建设具有重要意义.  相似文献   

5.
在藏文信息处理中,实现藏文字符排序的关键在于准确地判断藏文音节,而藏文音节判定的关键是对音节构件的识别.文章在借鉴藏文传统语法理论的基础上,结合现代语言学、计算机理论和统计学等知识,介绍了藏文音节的组合形式与特征,规则等问题,以藏文国际标准编码体系为依据,根据音节组件的约束关系,分析了藏文音节七元组的组合规则与类型,有利于藏文音节字符构件的研究和七元组类型的分析、识别与处理.  相似文献   

6.
藏文音节字的频次统计可以准确地掌握藏文音节字中表意字的使用频度。文章以1亿5千万藏文字符的藏文平衡语料库——大型藏文基础语料库为统计源,提出了非藏文字符和93个特殊藏文字符作为音节分隔符来识别藏文音节字的方法,设计实现了藏文音节字频次统计软件,并从不同的角度对统计结果和错误音节的类型进行了分析。  相似文献   

7.
现代藏文字典序是按照传统藏文字的构造序而建立的排序方法,遵循严格的书面藏语构造规则.藏文编码中国国家标准正式发布实施后,藏文字符自身构造的复杂性、大量梵音藏文等他族语字符以及科技字符的存在,使得Microsoft office环境下藏文的序性问题一直未得到很好的解决.本文提出并实现了一种基于VBA的藏文音节在Word应用程序中的排序方法,方法简单、容易实现,解决了藏文音节在Microsoft office环境中排序的问题.  相似文献   

8.
在研究和分析藏文拼写文法的基础上,对计算机藏文快速输入法键盘键位布局进行形式化描述,推导计算机藏文键盘键位布局规则及方法。综合考虑藏文字符的字频统计结果、计算机藏文键盘键位布局规则、德沃拉克键盘键位击键方便指数以及为了便于记忆加以考虑的藏文字母与英文字母发音上的近似性,设计一种能够实现藏文无重码快速输入的键盘键位布局。最后,计算输入一个藏文字的平均击键数,验证所设计的键盘键位布局比现有的输入法键盘键位布局更具科学性。  相似文献   

9.
叶西切忠  安见才让 《科技信息》2011,(31):236-236,256
藏文分词是藏文信息处理领域的一项不可缺少的基础性工作,也是智能化藏文信息处理的关键所在。在藏文分词的研究过程中藏文分词的准确性,直接制约着藏文输入法研究、藏文电子词典建设、藏文词频统计、搜索引擎的设计和实现、机器翻译系统的开发、藏文语料库建设以及藏语语义分析研究等高层藏文信息处理技术的进一步发展。本文借鉴汉语的分词理论和方法,提出符合藏文特性的分词方法,以及歧义字段切分和未登录词识别等相关问题,并举例说明。  相似文献   

10.
以构建面向藏文用户的客户关系管理系统为研究对象,采用目前较为流行的Struts2框架技术实现MVC视图,由表现层、应用逻辑层、语料库层和数据层组成的四层结构来实现藏文客户关系管理系统架构设计方案,并详细介绍了各模块功能.  相似文献   

11.
文章就藏文字处理领域对藏文校对功能的实际需要,提出了基于音节的藏文文本校对方案对藏语音节规则的详细描述.采用统计方法对藏语音节的搭配规则等做了探索性的研究,创建了音节及音节搭配规则等多种知识库,以这些知识库为基础进行音节模式匹配查错.设计实现了音节规则模型与音节库模式匹配方法相结合的音节级查错.通过借鉴藏文传统语法理论、现代语言学理论、计算机技术和统计学理论等知识,介绍了藏文文本校对的设计思想,给出了藏文文本校对系统的组成原理、关键技术及可操作的实现方法.实验结果表明,基于音节的查错方案是可行的.为进一步研究开发藏文智能校对软件提供了所需的规则特征集和统计语料等基础性的研究资料.也为将来实现基于词、语法和语义层面的校对奠定了基础.  相似文献   

12.
在藏文文本理解中虚词发挥着重要的句法、语义桥接作用,其规则的有效性在藏文分词处理中扮演着特殊的角色。由于虚词本身及其角色的丰富性,在一定意义上可以说藏文分词处理是虚词识别的过程。因此,虚词识别的正确与否直接影响着藏文文本分词处理的效果。文章依据藏语自身的语法规律和虚词功能的特殊性,首先构建了虚词知识库、虚词兼类库,以及其作为藏文连续文本中识别虚词的依据;其次,研制了标有词汇属性的分词词表和一定规模的训练语料库资源,以基于条件随机域(CRF)的方法进行词性标注,并结合虚词和词性赋码的资源制作了藏文自动分词赋码一体化处理的模型。  相似文献   

13.
藏文基本字符识别算法研究   总被引:11,自引:0,他引:11  
对藏文基本字符用投影法:垂直、水平、两对角线四个方向五个子特征进行研究,并给出了特征抽取、模式匹配、字符分类的算法.  相似文献   

14.
在考察、借鉴上百年来国内外对德、英、汉、蒙、藏等语种所作的文字计量研究,特别是各种汉文字词频度统计研究成果的基础上,论述了基于大型藏文语料库的藏文字符、部件、音节、词汇频度与通用度统计、分析的理论与方法及其实现过程 该项研究是一项基础性研究,首次实现了大规模藏文词汇频度与通用度统计,具有一定的创新性 其成果有助于藏族基础教育和扫盲教育的语言文字教学,对藏语语言学研究和藏文信息处理领域的许多方面具有重要应用价值  相似文献   

15.
粗网格在印刷体藏文特征提取中的应用   总被引:3,自引:0,他引:3  
运用粗网格理论,提出了一种基于改进的粗网格的藏文字符特征提取方法.用该方法提取的字符特征能有效地减少因图像中像素位置变化造成的识别率下降的影响.并在一定程度上克服了藏文字符过多而造成的误识别率过高的缺点.与方向线素法相比较,该方法对印刷体藏文字符特征提取具有比较高的识别率.  相似文献   

16.
目录学是一门具有鲜明时代特征的学科,其产生和发展与时代的需求息息相关.文章从信息时代藏文文献信息资源以及数字资源的组织、开发和利用等学术研究相对滞后的现状出发,在藏文古典目录学研究的深化、藏文数字目录学研究的兴起、藏文数字资源编目研究和数字书目控制等方面探讨了新环境下藏文目录学研究的发展趋势和方向.  相似文献   

17.
藏文编码字符集构件集   总被引:3,自引:1,他引:2  
本文论述了藏文信息结构和构件拆分的原理,采用统计方法,建立了藏文编码字符集构件集,用已编码的藏文字符表示未编码的藏文外字具体字型的结构和内容,说明厂构件集的选取与排序,论证了它的可行性,以期建立全藏文编码体系。  相似文献   

18.
文章根据国际藏文编码标准,分析基本集变长序列码与藏文音节的映射关系,描述以前导字符、组合字符及元音构成变长码序列的规则,从而提出藏文音节结构的拉丁文转写模型,实现了通用的转换组件.  相似文献   

19.
随着藏文信息技术的不断普及和发展,搜索引擎技术成为藏文信息处理一项新的研究课题.对搜集到的藏文网页文本或用户查询关键词进行理解、提取和组织等处理是搜索引擎的一项基础性工作,其中藏文分词的准确与否,直接影响到搜索引擎查询效果及查询结果列表的排序问题,因此分词成为藏文搜索引擎技术中需要解决的关键问题.文章针对藏文搜索引擎中基于字符串匹配的藏文分词技术进行研究并提出相应的解决算法.  相似文献   

20.
文章将信息论的方法引入藏文信息处理技术研究领域,利用统计的方法研究了以字符为单位和以音节字为单位的藏文信息熵。通过对275万多音节字的大规模藏语单语语料进行统计,给出了以字符为统计单位和以音节字为统计单位的现代藏文的熵,其值分别为4.17和8.21比特,并从信息论的角度证明了藏文具有拼音文字和音节字特征的双重属性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号