首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 734 毫秒
1.
基于藏文音节规则的识别后处理方法,总结了音节规则的约束条件 试验表明该方法在藏文文本识别后处理中具有较高的自适应性 在《印刷藏文(汉英混排)文档识别系统》的测试中,50万字的藏文测试样本,识别率在97.3%的基础上提高了0.3%,显示出该方法具有良好的效果  相似文献   

2.
藏文字符分割是藏文印刷体识别技术中的关键技术之一,高精度的字符分割是图像文本识别的主要因素,分割的效果直接影响最终的识别.该文通过研究藏文字形结构和文本图像分割技术,提出了投影法和连通域分割法相结合的藏文音节分割方法.在不同的喜马拉雅字体文本图像上分割测试准确率达99.31%,在卷积网络模型上藏文音节识别准确率比字丁高2.7%,表明藏文音节分割方法的有效性.  相似文献   

3.
现有的藏文文本聚类算法均采用向量空间模型来进行文本建模.该模型存在向量维度过高和无法表示语义信息的问题.该文根据藏文的语法特性并借鉴主题模型的思想,提出了一种基于词向量的藏文文本建模方法.该方法首先采用最大熵模型进行藏文文本词性标注,选择名词和动词作为文本的特征,然后利用word2vec工具训练得到词语类别并计算其在各文本的概率分布,最终以词类别概率矩阵表示文本,从而实现文本建模.与基于VSM和基于LDA的文本建模方法相比,该方法文本聚类结果的F值分别提高了10.5%和2.4%,聚类效果提升明显.  相似文献   

4.
阐述了藏文Web不良信息的特点、类型、危害性,设计了倾向性藏文Web不良文本过滤系统结构.提出一种藏文Web不良文本检索算法.该算法从不良文本中提取倾向性关键词项,根据矩阵奇异值分解方法中的转移概率构造出倾向性关键词项的状态矩阵,提取平面坐标空间第一像限的奇异值向量作为复特征向量,利用向量间的余弦相似度作为文本检索的相似度度量.实验结果表明,该算法在检索准确率和运算效率上都优于传统的LSA算法.  相似文献   

5.
在藏文信息处理系统中,藏文拉丁转写是需要解决的重要课题。本文从藏文文本规范化、黏着语的分离与还原、基字的确定和藏文音节转写规则四个部分设计了藏文拉丁转写方案,最终实现藏文拉丁转写。该转写方案的设计在藏文信息处理领域具有非常重要的现实意义和应用价值。  相似文献   

6.
在藏文文档排版中,实现文章统一化排版的关键技术在于格式的调整.目前,在Word2010办公软件中进行藏文排版时出现左右边界无法对齐的现象,导致藏文文档板式不符合传统藏文行文规范,给办公编辑、古籍整理等工作带来一定的局限性.文章以Word软件为开发平台,采用Word VBA技术,结合VBA编程,实现了对藏文文档进行合理的排列调整并符合藏文版式的书写规范系统.对藏文文档排版的规范化有重要的意义.  相似文献   

7.
拉丁化的维吾尔语在使用过程中具有文本不规范的特点,这种不规范是造成歧义等现象的最主要原因,严重制约着与维吾尔语相关的自然语言处理应用.由此提出了一种无监督的基于子词信息的文本规范化方法,该方法在词向量构建过程中将词的内部信息考虑进去.这种方法可以对罕见词进行向量表示,也可以将词内部的形态信息融入词的表示,丰富词向量的表达,进而用于改进无监督学习中规范化词候选集生成质量的不足.实验表明,相比于传统词向量构建方法,该方法在文本规范化任务中可以提高规范化词的召回率.  相似文献   

8.
拼写错误分析是一项具有挑战性的研究课题,在文本编辑、字处理、拼写检查等诸多方面具有广阔的应用前景.藏文是一种拼音文字,其拼写错误类型包括非真字型、真字型和标点符号等.文章以藏文文法中的字、词构造规则和语义作为切入点,总结归纳了藏文文本拼写错误类型,为藏文文本拼写检查技术提供参考依据.  相似文献   

9.
目前众多文本分类方法已经得到了广泛的应用,然而针对不同的语言结构,各分类方法的泛化能力也有差异,因此本文利用机器学习算法中的GaussianNB模型对藏文新闻类文本语料进行分类,检验该分类模型在藏文语言结构中具有良好的分类性能.分类过程中首先以一码元为文本特征,采用特征频度统计方法,形成特征值向量,然后对特征向量进行降维处理,最后通过分类实验结果,验证了该模型对藏文文本具有良好的分类效果.  相似文献   

10.
文章就藏语TTS系统中必须的文本规范化技术进行讨论,对基于正则表达式的上下文规则进行文本块类型分析的算法,以及藏语非规范文本块的语义识别等方面进行了深入研究,并在研究藏语规范文本特点的基础上,对藏语TTS系统中的文本规范化模块进行了软件的实现.  相似文献   

11.
文章采用XML技术对藏文网页排版的版式规则进行描述,并通过脚本技术和样式表技术实现了对藏文网页文本的规范排版.  相似文献   

12.
藏文文本资源的收集对藏语信息处理研究有着至关重要的作用.文章在分析国内外藏文网页主要编码方式的基础上,提出了藏文网页的编码识别、自动获取与过滤,文本编码统一转换的算法.系统主要包括网页编码识别网页、自动获取、文本过滤、编码转换等几个模块.在windows平台下对系统的测试结果良好,为藏语电子文本的收集和整理提供了方便、快捷的平台.  相似文献   

13.
传统的分词器在微博文本上不能达到好的性能,主要归结于:(1)缺少标注语料;(2)存在大量的非规范化词.针对这两类问题,文中提出一个分词和文本规范化的联合模型,该模型在迁移分词基础上,通过扩充迁移行为来实现文本规范化,进而对规范的文本进行分词.在实验中,采用大量的规范标注文本及少量的微博标注文本进行训练,实验结果显示,该模型具有较好的域适应性,其分词错误率比传统的方法减少了10.35%.  相似文献   

14.
藏文作为常见的复杂文本语言(CTL)之一,既有横向拼写性,也有纵向拼写性的特点.计算机在处理藏文时,运用传统的TrueType字体技术几乎不可能在显现出规范的书写形式的同时,实现对Unicode标准编码的支持.本文介绍基于OpenType字体的藏文处理技术,研究探讨上述问题.  相似文献   

15.
统计与规则相结合的藏文句子自动断句方法   总被引:1,自引:0,他引:1  
 藏文句子断句是藏文信息处理领域的难点之一,也是藏汉机器翻译、藏文文本分类等工作的一项重要基础性研究.提出了一种统计与规则相结合的藏文句子自动断句方法以解决藏文标点符号功能的歧义问题,实验结果表明该方法具有比较好的效果,F1值达到98%以上.在规则中首先使用经验的方法,识别出不确定的藏文句子作为候选句子,然后采用基于关联词的复句分析方法进行分句合并形成二次候选句子;最后使用最大熵的方法对二次候选句子进行断句.经验方法和复句分析有效解决了最大熵算法无法触及的语料稀疏和分句问题.  相似文献   

16.
提出了一种基于统计与规则相结合的藏文人名自动识别方法.该方法充分挖掘了人名与上下文信息的关联程度,引入互信息对关联程度进行了定量的描述.根据大规模语料(30.2 M文本语料)的统计数据所建立的规则极大地提高了识别算法的准确率;在处理汉族音译人名情况时,采用姓氏驱动的方法,很好地解决了藏文文本中汉族人名的识别问题.实验结果表明,该方法具有较高的准确率和召回率.  相似文献   

17.
在少数民族语言信息处理领域,由于文本分类标注数据的稀缺,相关研究工作进展缓慢.为了充分利用有限的标注数据,更有效地挖掘出文本之间的关系,本文对藏文提出一种基于预训练模型和图卷积神经网络的长文本分类方法CINO-GCN.首先利用在实验数据集上经过微调的少数民族多语言预训练模型(Chinese Minority Pretrained Language Model, CINO)得到藏文长文本的初始文档向量和藏文音节向量.然后根据整个数据集范围的音节共现关系与音节和文档间的TF-IDF值来对藏文文本图进行建模.最后将文本图和结点特征一同输入至图卷积神经网络(graph convolutional networks, GCN)层,得到的文档表示经过Softmax得到分类结果.将该方法在公开的TNCC藏文新闻文本分类数据集上与当前几种主流的深度学习模型进行了多组对比实验,分类准确率达到73.51%,远优于其他基线模型;同时设计了消融实验验证模型各部分对分类结果的增益.实验结果表明,该文提出的模型能够结合预训练词向量和图神经网络的优势,显著提高藏文文本分类的准确率.  相似文献   

18.
确定实体之间的关系有助于更好的理解文本内容,通过实体关系模板可以从海量无结构的文本中获取大量的实体关系,并予以结构化.本文针对互联网藏文文本的特点,通过对藏文实体进行模板表示,采用基于word2vec的无监督词义相似度计算方法,构建近义词资源,实现了藏文词义相似度计算系统,最终构建一种基于相似度计算的实体关系模板获取模型.通过网络爬虫抓取青海湖藏文网的语料进行试验,实验结果表明本文提出的藏文实体关系模板抽取方法较为有效,达到了较好的实验效果.  相似文献   

19.
本论述采用藏语三级切分体系对藏文文本进行分词和词性标注,并借助手工建立的藏文情感分析用词表,与已有的特征选择方法相结合提取情感特征,用相似度分类算法进行藏文文本的情感分类,达到了较好的分类效果.  相似文献   

20.
藏文分词是藏文自然语言处理的基础。根据藏文虚词在藏文文本中的特殊作用以及虚词的兼类性、结合性、黏着变体性和还原特性,设计实现了一个基于藏语虚词切分的正向最大匹配的藏文分词系统,该系统对原始文本进行逐次扫描处理得到分词结果。实验表明,文章提出的藏文分词系统具有较高的切分精度和切分速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号