首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
统计与规则相结合的藏文句子自动断句方法   总被引:1,自引:0,他引:1  
 藏文句子断句是藏文信息处理领域的难点之一,也是藏汉机器翻译、藏文文本分类等工作的一项重要基础性研究.提出了一种统计与规则相结合的藏文句子自动断句方法以解决藏文标点符号功能的歧义问题,实验结果表明该方法具有比较好的效果,F1值达到98%以上.在规则中首先使用经验的方法,识别出不确定的藏文句子作为候选句子,然后采用基于关联词的复句分析方法进行分句合并形成二次候选句子;最后使用最大熵的方法对二次候选句子进行断句.经验方法和复句分析有效解决了最大熵算法无法触及的语料稀疏和分句问题.  相似文献   

2.
藏语句子边界识别是一项重要的基础性工作,它的准确率直接影响藏语句法分析、汉藏(或藏汉)平行语料库和藏汉(或汉藏)机器翻译等的研究工作。文章通过分析藏文文法知识,提出了一种比较简单而实用的词性规则法,其主要思想是:单垂符或双垂符的前后词性来判断句子是否结束。经测试,文章提出的藏语句子边界识别方法在文学类、诗歌类、医学类和新闻类等536句藏语语料中句子边界的识别准确率达到96.37%。  相似文献   

3.
藏文框架语义知识语义关系分析的关键就是建立句子中各词语之间的语义关联关系,实现各框架间知识的共享,获取更多的信息.文章引出了藏文框架语义知识、框架及框架元素并结合实例分析了以藏语句子为主,组成该句子的词语或短语间的语义关系及框架形式表示该句子的语义为结构化.  相似文献   

4.
传统藏文文法格在功能上真实地反映了藏文句法结构,藏文中的属格表示人或事物之间的限制或领属、修饰、复指、总别和依存关系等,可作前置定语.藏文中名词短语是指语法功能相当于名词的短语,一般可以在句子中充当主语、宾语、定语等.文章采用语料实证和结构分析的方法,从句法功能的角度对属格助词在藏文名词短语中的结构及功能进行分析研究,从句法结构上总结和归纳了其结构特征,为多语言句法结构树库和框架语义构建提供最基本的语法信息.  相似文献   

5.
上下文无关文法在计算机句法自动剖析中已经得到广泛的应用.文章利用这种上下文无关文法来分析和描写藏语句子结构,在句法分析过程中具体采纳预测和规约的分析方法,以举例验证的方式自动推导出藏语句子的句法结构规律;识别句子中的句法单位,以及各句法单位之间的关系,对藏文句法分析提供了较好的研究思路及探索价值.  相似文献   

6.
在藏文文档排版中,实现文章统一化排版的关键技术在于格式的调整.目前,在Word2010办公软件中进行藏文排版时出现左右边界无法对齐的现象,导致藏文文档板式不符合传统藏文行文规范,给办公编辑、古籍整理等工作带来一定的局限性.文章以Word软件为开发平台,采用Word VBA技术,结合VBA编程,实现了对藏文文档进行合理的排列调整并符合藏文版式的书写规范系统.对藏文文档排版的规范化有重要的意义.  相似文献   

7.
叶西切忠  安见才让 《科技信息》2011,(31):236-236,256
藏文分词是藏文信息处理领域的一项不可缺少的基础性工作,也是智能化藏文信息处理的关键所在。在藏文分词的研究过程中藏文分词的准确性,直接制约着藏文输入法研究、藏文电子词典建设、藏文词频统计、搜索引擎的设计和实现、机器翻译系统的开发、藏文语料库建设以及藏语语义分析研究等高层藏文信息处理技术的进一步发展。本文借鉴汉语的分词理论和方法,提出符合藏文特性的分词方法,以及歧义字段切分和未登录词识别等相关问题,并举例说明。  相似文献   

8.
藏文字符识别是中国的多文种信息处理系统的重要组成部分,本文论述了印刷体藏文识别系统的原理和预处理、识别、后处理过程,分析了文字识别的常用方法及其优缺点和印刷体藏文识别技术,着重分析了印刷体藏文识别中特征提取和分类器设计这两个关键技术,并对藏文识别研究领域今后的研究方向和发展前景提出了自己的看法.  相似文献   

9.
藏语动词分类很细,准确识别和判断藏文动词的词性是藏语自然语言处理中一个基础又关键的内容,及物与不及物动词的自动识别,可以在用计算机生成自然语言句子时能很好地阻止不合法句子的生成,也能从整体上减少句子生成量,从而提高效率.提出了一种在理想环境下,通过句子中的使格助词来自动判断动词及物性的方法,这种自动识别方法是一种理性主义的判断方法,所以不需要大规模语料的支持.因为是一种理想情况,所以自动识别效率高,准确率为100%.  相似文献   

10.
基于藏文La格(??????)例句的自动分类在藏语自然语言处理领域的重要性,根据藏文La格的用法和添接规则,在对藏文La格例句进行分类并定义分类概念的基础上,提出一种融合双通道音节特征的藏文La格例句自动分类模型.该模型首先使用word2vec和Glove构建双通道藏文音节嵌入,分别在每路卷积中融合双通道音节特征,丰富...  相似文献   

11.
通过藏文格助词的接续、结构以及上下文特征,提出基于规则、支持向量机、还原法等三层混合模式的藏文音节切分方法.藏文音节切分是藏文字频统计、分词、词性标注和机器翻译等研究领域的基础,其中藏文紧缩格歧义现象的正确识别、切分和还原是藏文音节切分的难点.经实验,混合模式藏文音节切分的F值为99.97%.  相似文献   

12.
语料中抽取句子是藏语自然语言处理领域中一项关键技术,在句型研究、句法分析、语义分析、语用分析、问答系统和机器翻译等很多领域都有广泛的应用前景.文章在分析藏语句尾词性和虚词特征的基础上,提出了一种基于虚词和句尾词特征的藏语句子抽取方法,即从文本串的单垂符或双垂符开始,通过逆向搜索虚词的位置节点和句尾词性抽取藏语句子.实验表明,该方法抽取藏语句子的准确率可达98.9%以上,抽取句子的数量明显提高.  相似文献   

13.
藏文拉丁转写是指不必理解藏语词、句语义的情况下,按照读音将藏文字符号影射为拉丁字母符号。用于表述藏文信息的方法.文章针对藏文文字和书写特点,借鉴国际藏学领域藏学专家通用的拉丁转写方法,以信息处理为研发目的,在Linux系统输入法机制下,定制藏文输入字符的选取原则、外码设计原则;基于rfinput输入法服务器确定藏文拉丁转写输入法实现模型、处理模块的分析设计及藏文特性处理等几个部分.[摘要]藏文拉丁转写是指不必理解藏语词、句语义的情况下,按照读音将藏文字符号影射为拉丁字母符号。用于表述藏文信息的方法.文章针对藏文文字和书写特点,借鉴国际藏学领域藏学专家通用的拉丁转写方法,以信息处理为研发目的,在Linux系统输入法机制下,定制藏文输入字符的选取原则、外码设计原则;基于rfinput输入法服务器确定藏文拉丁转写输入法实现模型、处理模块的分析设计及藏文特性处理等几个部分.  相似文献   

14.
藏文文本自动校对系统开发研究   总被引:2,自引:0,他引:2  
文本自动校对在自然语言处理领域中有着广阔的应用前景.文章通过比较分析国内外文本自动校对系统的发展现状,提出了设计现代藏文文本自动校对系统的两种方案,并就第二种方案研究了现代藏文文本自动校对系统的结构和功能设计.  相似文献   

15.
拼写错误分析是一项具有挑战性的研究课题,在文本编辑、字处理、拼写检查等诸多方面具有广阔的应用前景.藏文是一种拼音文字,其拼写错误类型包括非真字型、真字型和标点符号等.文章以藏文文法中的字、词构造规则和语义作为切入点,总结归纳了藏文文本拼写错误类型,为藏文文本拼写检查技术提供参考依据.  相似文献   

16.
在藏文信息处理中,实现藏文字符排序的关键在于准确地判断藏文音节,而藏文音节判定的关键是对音节构件的识别.文章在借鉴藏文传统语法理论的基础上,结合现代语言学、计算机理论和统计学等知识,介绍了藏文音节的组合形式与特征,规则等问题,以藏文国际标准编码体系为依据,根据音节组件的约束关系,分析了藏文音节七元组的组合规则与类型,有利于藏文音节字符构件的研究和七元组类型的分析、识别与处理.  相似文献   

17.
在藏文信息处理系统中,藏文拉丁转写是需要解决的重要课题。本文从藏文文本规范化、黏着语的分离与还原、基字的确定和藏文音节转写规则四个部分设计了藏文拉丁转写方案,最终实现藏文拉丁转写。该转写方案的设计在藏文信息处理领域具有非常重要的现实意义和应用价值。  相似文献   

18.
古藏文字符统计研究能够对机器翻译以及从海量文本中快速定位核心内容、情报收集工作等有着重要意义.目前,藏文字符统计研究主要依据现代藏文语料库.文章以敦煌藏文文献为主,构建了古藏文文献标注语料库.在此基础上,应用python语言设计出古藏文频率统计软件,对古藏文和现代藏文的元音、辅音、藏文数字频次等进行对比分析,归纳出古藏文字符的分布特征,以期为古藏文标注语料库的构建和研究提供参考.  相似文献   

19.
藏文信息处理是以计算机为主要工具,以藏语言文字为处理对象的高新技术。藏文信息处理技术近二十多年的发展过程中,国内外已经开发出一大批藏文操作系统和应用软件,并取得了不同程度的推广和应用。但到目前为止,还没有一部科学、系统和全面的关于藏文信息处理技术方面的专业教材,这使得对该领域有着浓厚兴趣的学生无法系统地掌握这门新学科。文章根据藏文信息处理技术研究领域的成果,就《藏文信息处理》教材建设提出了几点思考和建议。  相似文献   

20.
在文字识别领域中,手写体识别比印刷体识别更具挑战性.藏文手写体识别已经成为重要的研究课题之一.本文提出了一种基于卷积神经网络LeNet-5模型的藏文手写数字和字母识别方法.分别采集藏文数字手写体样本和字母手写体样本17768和77636例,并对其进行预处理;然后按8∶2划分成训练集和测试集,并在CNN(LeNet-5)模型上进行训练.经过测试,数字和字母识别准确率分别达到98.81%和97.89%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号