首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
在藏文文本理解中虚词发挥着重要的句法、语义桥接作用,其规则的有效性在藏文分词处理中扮演着特殊的角色。由于虚词本身及其角色的丰富性,在一定意义上可以说藏文分词处理是虚词识别的过程。因此,虚词识别的正确与否直接影响着藏文文本分词处理的效果。文章依据藏语自身的语法规律和虚词功能的特殊性,首先构建了虚词知识库、虚词兼类库,以及其作为藏文连续文本中识别虚词的依据;其次,研制了标有词汇属性的分词词表和一定规模的训练语料库资源,以基于条件随机域(CRF)的方法进行词性标注,并结合虚词和词性赋码的资源制作了藏文自动分词赋码一体化处理的模型。  相似文献   

2.
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,文章提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。  相似文献   

3.
叶西切忠  安见才让 《科技信息》2011,(31):236-236,256
藏文分词是藏文信息处理领域的一项不可缺少的基础性工作,也是智能化藏文信息处理的关键所在。在藏文分词的研究过程中藏文分词的准确性,直接制约着藏文输入法研究、藏文电子词典建设、藏文词频统计、搜索引擎的设计和实现、机器翻译系统的开发、藏文语料库建设以及藏语语义分析研究等高层藏文信息处理技术的进一步发展。本文借鉴汉语的分词理论和方法,提出符合藏文特性的分词方法,以及歧义字段切分和未登录词识别等相关问题,并举例说明。  相似文献   

4.
本论述采用藏语三级切分体系对藏文文本进行分词和词性标注,并借助手工建立的藏文情感分析用词表,与已有的特征选择方法相结合提取情感特征,用相似度分类算法进行藏文文本的情感分类,达到了较好的分类效果.  相似文献   

5.
随着藏文信息技术的不断普及和发展,搜索引擎技术成为藏文信息处理一项新的研究课题.对搜集到的藏文网页文本或用户查询关键词进行理解、提取和组织等处理是搜索引擎的一项基础性工作,其中藏文分词的准确与否,直接影响到搜索引擎查询效果及查询结果列表的排序问题,因此分词成为藏文搜索引擎技术中需要解决的关键问题.文章针对藏文搜索引擎中基于字符串匹配的藏文分词技术进行研究并提出相应的解决算法.  相似文献   

6.
文章针对传统藏文分词的切词难点及切分歧义现象,提出一种基于小字符集的藏文自动分词技术方案.其中包括分词预处理、多级Hash词典机制、藏文格助词紧缩格的判别及还原规则、逐字匹配算法和未登录词的处理等内容.  相似文献   

7.
藏文分词词典是藏文自动分词系统的的重要组成部分.词典的数据结构与检索速度直接影响到自动分词系统的质量.文章对几种常见的汉语分词词典机制及其效率进行了分析,并根据藏文基本集编码字符串的结构特征,提出了一种逐音节二分的藏文分词词典机制.  相似文献   

8.
词、格助词、藏文信息和分词单位等概念是藏文分词过程中必须提及的几个专业术语。文章依据《咨询用中文信息处理分词规范》、《中文信息处理分词之基本词表》、《信息处理用现代汉语分词规范》和《分词词表》等地区和国家标准,结合藏文传统语法典籍和汉语语义分类体系,对这几个概念进行了论述。  相似文献   

9.
通过藏文格助词的接续、结构以及上下文特征,提出基于规则、支持向量机、还原法等三层混合模式的藏文音节切分方法.藏文音节切分是藏文字频统计、分词、词性标注和机器翻译等研究领域的基础,其中藏文紧缩格歧义现象的正确识别、切分和还原是藏文音节切分的难点.经实验,混合模式藏文音节切分的F值为99.97%.  相似文献   

10.
随着数据信息的海量增长,人们迫切需要在海量的数据中精准获取有用信息,为了解决这个问题,问答系统应运而生.现今,英文问答系统及中文问答系统取得了显著成绩,但藏文问答系统却鲜有人问津.作为一个多民族的国家,伴随信息化的高速前行,藏文问答系统的研究势在必行.文章通过对现有藏文分词、信息检索等技术分析,借用中英文问答系统成熟的模式,结合藏语语法的特殊性质,对基于FAQ库的藏文问答系统的构建进行分析研究.  相似文献   

11.
现代藏文自动校对中,对音节字( )的校对是其基础。在藏文文本中音节字是用音节点进行间隔的,由于藏文二维的书写特征和音节字形成过程中与其构件之间严格的搭配规则等诸多问题,使得对它的校对又区别于任何一种文字。文章介绍了音节字的构件、结构和搭配规则等问题,列举了藏文音节字中的错误类型,并针对其特殊性给出了一个特有的音节字校对的流程和方法。  相似文献   

12.
针对目前中文分词技术主要依赖于常用词词典,而词典对未登录词识别率较低的问题,提出一种用双词典识别未登录词的方法,即构建一个常用词词典和一个单字词词典,二者相互结合进行分词,有效解决了对未登录词识别效率偏低的问题.实验表明,采用构建单字词表法对未登录词的识别准确率可达90%以上.  相似文献   

13.
To identify Song Ci style automatically, we put forward a novel stylistic text categorization approach based on words and their semantic in this paler. And a modified special word segmentation method, a new semantic relativity computing method based on HowNet along with the corresponding word sense disambiguation method are proposed to extract words and semantic features from Song Ci. Experiments are carried out and the results show that these methods are effective.  相似文献   

14.
在藏语单句的层面上,通过时长参数的统计分析,对韵律词和韵律短语两层韵律单元的时长特征进行了研究.研究结果确定了藏语韵律词和韵律短语的基本大小,韵律词为4±2个音节,韵律短语为6±3个音节;藏语韵律单元的总体时长分布差异较大,但不同韵律单元的时长伸缩幅度差异较小.藏语韵律单元的时长分布类型以尾长型为主;韵律单元边界处普遍具有边界前音节延长,边界后音节缩短现象的特征.  相似文献   

15.
否定词与程度词连用可形成两种语序:“否定词+程度词+V”(I式)与“程度词+否定词+V”(II式)。与普通话相比,湘方言中的I式和II式在句法形式、语义特征以及使用频率等方面都有一定差异,并形成了不同的不对称分布格局。  相似文献   

16.
文章描述藏文文本校对在国内外的发展现状,并借鉴国内外自动校对技术及算法研究的最新成果,提出基于词的藏文文本校对模型的研究方案。针对藏文文本的复杂特征和容易出现的错误状况,提出了统计与规则相结合的校对方案。  相似文献   

17.
针对汉语自动分词后词条的特征信息缺失的问题,提出以词串为分词单位的中文文本分词方法,将整个分词过程分解为三个子过程:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的语义信息更丰富,有助于文本特征选择效果的改善和文本分类性能的提高。  相似文献   

18.
词类与句法成分对应关系表现的是发生学关系,而不表现类型学关系。因为,词类与句法成分的对应关系的相同或相近,既可排除语序变化的因素:即使语序发生了改变,词类与句法成分的对应关系依然不变;也可排除形态变化的因素:即使形态出现增多或简化,词类与句法成分的对应关系依然不变。藏汉语词类与句法成分对应关系的同与异,将证明藏汉双语的同源与否。  相似文献   

19.
Finding out out-of-vocabulary words is an urgent and difficult task in Chinese words segmentation. To avoid the defect causing by offline training in the traditional method, the paper ptoposes an improved prediction by partical match (PPM) segmenting algorithm for Chinese words based on extracting local context information, which adds the context information of the testing text into the local PPM statistical model so as to guide the detection of new words. The algorithm focuses on the process of online segmentation and new word detection which achieves a good effect in the close or opening test, and outperforms some well-known Chinese segmentation system to a certain extent.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号