首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
藏文分词词典是藏文自动分词系统的的重要组成部分.词典的数据结构与检索速度直接影响到自动分词系统的质量.文章对几种常见的汉语分词词典机制及其效率进行了分析,并根据藏文基本集编码字符串的结构特征,提出了一种逐音节二分的藏文分词词典机制.  相似文献   

2.
随着藏文信息技术的不断普及和发展,搜索引擎技术成为藏文信息处理一项新的研究课题.对搜集到的藏文网页文本或用户查询关键词进行理解、提取和组织等处理是搜索引擎的一项基础性工作,其中藏文分词的准确与否,直接影响到搜索引擎查询效果及查询结果列表的排序问题,因此分词成为藏文搜索引擎技术中需要解决的关键问题.文章针对藏文搜索引擎中基于字符串匹配的藏文分词技术进行研究并提出相应的解决算法.  相似文献   

3.
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,文章提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。  相似文献   

4.
词、格助词、藏文信息和分词单位等概念是藏文分词过程中必须提及的几个专业术语。文章依据《咨询用中文信息处理分词规范》、《中文信息处理分词之基本词表》、《信息处理用现代汉语分词规范》和《分词词表》等地区和国家标准,结合藏文传统语法典籍和汉语语义分类体系,对这几个概念进行了论述。  相似文献   

5.
叶西切忠  安见才让 《科技信息》2011,(31):236-236,256
藏文分词是藏文信息处理领域的一项不可缺少的基础性工作,也是智能化藏文信息处理的关键所在。在藏文分词的研究过程中藏文分词的准确性,直接制约着藏文输入法研究、藏文电子词典建设、藏文词频统计、搜索引擎的设计和实现、机器翻译系统的开发、藏文语料库建设以及藏语语义分析研究等高层藏文信息处理技术的进一步发展。本文借鉴汉语的分词理论和方法,提出符合藏文特性的分词方法,以及歧义字段切分和未登录词识别等相关问题,并举例说明。  相似文献   

6.
在藏文文本理解中虚词发挥着重要的句法、语义桥接作用,其规则的有效性在藏文分词处理中扮演着特殊的角色。由于虚词本身及其角色的丰富性,在一定意义上可以说藏文分词处理是虚词识别的过程。因此,虚词识别的正确与否直接影响着藏文文本分词处理的效果。文章依据藏语自身的语法规律和虚词功能的特殊性,首先构建了虚词知识库、虚词兼类库,以及其作为藏文连续文本中识别虚词的依据;其次,研制了标有词汇属性的分词词表和一定规模的训练语料库资源,以基于条件随机域(CRF)的方法进行词性标注,并结合虚词和词性赋码的资源制作了藏文自动分词赋码一体化处理的模型。  相似文献   

7.
文章针对传统藏文分词的切词难点及切分歧义现象,提出一种基于小字符集的藏文自动分词技术方案.其中包括分词预处理、多级Hash词典机制、藏文格助词紧缩格的判别及还原规则、逐字匹配算法和未登录词的处理等内容.  相似文献   

8.
随着数据信息的海量增长,人们迫切需要在海量的数据中精准获取有用信息,为了解决这个问题,问答系统应运而生.现今,英文问答系统及中文问答系统取得了显著成绩,但藏文问答系统却鲜有人问津.作为一个多民族的国家,伴随信息化的高速前行,藏文问答系统的研究势在必行.文章通过对现有藏文分词、信息检索等技术分析,借用中英文问答系统成熟的模式,结合藏语语法的特殊性质,对基于FAQ库的藏文问答系统的构建进行分析研究.  相似文献   

9.
基于统计的无词典分词方法   总被引:17,自引:0,他引:17       下载免费PDF全文
通过分析词的结合模式,提出无词典分词模型,并对该模型进行实验测试。测试结果表明,无词典分词模型能够满足快速分词的要求。  相似文献   

10.
几种基于词典的中文分词算法评价   总被引:1,自引:0,他引:1  
基于词典的中文自动分词是中文信息处理的基础.按照使用计算机缓存的优化原则,分析了几种典型的分词词典机制,指出了其中的一些问题.改进了整词二分法,极大地提高了速度.结合哈希索引和PATRICIA tree搜索算法,提出了一个综合最优化的中文分词系统.  相似文献   

11.
虚词知识库的研究是语言知识库研究的基础部分.文章根据藏语虚词的传统功能、兼类、半语法化以及对真实语料中虚词用法规律的考虑,着力构建面向机器的虚词知识库,旨在为现代藏语虚词在机器翻译等句法分析领域提供参考依据.  相似文献   

12.
基于互信息改进算法的新词发现对中文分词系统改进   总被引:6,自引:0,他引:6  
提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法--PMIk算法与少量基本规则相结合, 从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度, 可以根据需要指定)。基于257 MB的百度贴吧语料实验, 当PMIk方法的参数为10时, 结果精度达到97.39%, 比PMI方法提高28.79%, 实验结果表明, 该新词发现方法能够有效地从大规模网络语料中发现新词。将新词发现结果编纂成用户词典, 加载到汉语词法分析系统ICTCLAS中, 基于10 KB的百度贴吧语料实验, 比加载用户词典前的分词结果准确率、召回率和F值分别提高7.93%, 3.73%和5.91%。实验表明, 通过进行新词发现能有效改善分词系统对网络文本的处理效果。  相似文献   

13.
在藏语单句的层面上,通过时长参数的统计分析,对韵律词和韵律短语两层韵律单元的时长特征进行了研究.研究结果确定了藏语韵律词和韵律短语的基本大小,韵律词为4±2个音节,韵律短语为6±3个音节;藏语韵律单元的总体时长分布差异较大,但不同韵律单元的时长伸缩幅度差异较小.藏语韵律单元的时长分布类型以尾长型为主;韵律单元边界处普遍具有边界前音节延长,边界后音节缩短现象的特征.  相似文献   

14.
该系统为学校及相关单位办公自动化提供了一个现代化的工具,尤其为藏族人民用计算机办公带来了很大的方便。文中给出该系统的设计过程以及各功能的实现方法。  相似文献   

15.
在自然语言处理中,词类划分属于基础研究,其重要性不可忽视。文章以明确藏语词类划分的标准入手,根据藏语自身的特点和规律性、系统性,从藏文信息处理的角度出发,提出了自己的见解和分类方法,致力于探索藏语词类的划分标准,为藏文信息处理各个层次的发展进行最基础的研究。  相似文献   

16.
基于藏语信息处理的词类体系研究   总被引:2,自引:0,他引:2  
在自然语言处理中,词类划分属于基础研究,其重要性不可忽视。文章以明确藏语词类划分的标准入手,根据藏语自身的特点和规律性、系统性,从藏文信息处理的角度出发,提出了自己的见解和分类方法,致力于探索藏语词类的划分标准,为藏文信息处理各个层次的发展进行最基础的研究。  相似文献   

17.
计算机藏文编码性能指标分析   总被引:1,自引:1,他引:1  
从规范性、兼容性、一致性、完备性四个方面分析了计算机藏文国家标准编码性能指标,论述了建立藏文编码体系的必要性和可行性  相似文献   

18.
汉语自动分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用。作者在研究几种分词词典机制的基础上提出了一种新的分词词典机制,其基本思想是:根据一字词和二字词出现频率高的特点,将词首字和次字组合成Hash索引表,其余字组成剩余结点数组。基于这种分词词典机制设计的组合Hash索引分词算法使得一字词和二字词查询只须在组合hash索引表中一步完成,从而显著提高查询速度。通过真实语料的对比实验,该算法在不降低精度的前提下,处理速度比整词二分平均提高了13.8倍,比TR IE索引树平均提高了2.7倍。结果表明:组合hash索引分词算法是实用有效的。  相似文献   

19.
介绍了一种集合了规则、串频统计和中文上下文关系分析的现代汉语分词系统.系统对原文进行三次扫描,首先将原文读入内存,利用规则将原文变成若干个串,构成语段十字链表;然后对每个串中的子串在上下文中重复出现的次数进行统计,把根据统计结果分析出的最有可能是词的子串作为临时词;最后利用中文语法的上下文关系并结合词典对原文进行分词处理.系统对未登录词的分词有很好的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号