首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 484 毫秒
1.
在藏文信息处理中,实现藏文字符排序的关键在于准确地判断藏文音节,而藏文音节判定的关键是对音节构件的识别.文章在借鉴藏文传统语法理论的基础上,结合现代语言学、计算机理论和统计学等知识,介绍了藏文音节的组合形式与特征,规则等问题,以藏文国际标准编码体系为依据,根据音节组件的约束关系,分析了藏文音节七元组的组合规则与类型,有利于藏文音节字符构件的研究和七元组类型的分析、识别与处理.  相似文献   

2.
藏文基字是藏文字符的核心构件,能够在藏文音节结构中准确地识别基字,不仅有利于解析藏文字符的构件,对实现藏文排序算法也具有重要意义。文章依据藏文文法,严格遵循现代藏文音节字的结构特征,设计了现代藏文音节字的基字识别算法,并对不符合现代藏文构字规则的高频字进行了特殊处理,设计实现了现代藏文音节字的基字识别软件。该软件对18785个现代藏文音节字进行测试,识别率达到100%。  相似文献   

3.
藏文音节字的频次统计可以准确地掌握藏文音节字中表意字的使用频度。文章以1亿5千万藏文字符的藏文平衡语料库——大型藏文基础语料库为统计源,提出了非藏文字符和93个特殊藏文字符作为音节分隔符来识别藏文音节字的方法,设计实现了藏文音节字频次统计软件,并从不同的角度对统计结果和错误音节的类型进行了分析。  相似文献   

4.
为提高低清晰度车牌识别技术中字符分割和识别的准确率,提出了在HSV(色调,饱和度,亮度)颜色空间下使用最大类间方差(OTSU)算法来对车牌图像进行二值化,然后结合特殊间隔位置和投影法来精确分割字符,并在字符识别阶段引入了卷积神经网络.通过对真实场景中提取的低清晰度车牌进行实验可见:提出的分割算法能够准确分割字符,准确率可达96.5%,同时引入的卷积神经网络对车牌字符识别率为97.8%,能够有效解决低清晰度车牌字符的分割和识别问题.  相似文献   

5.
文本区域的字符存在着不同的颜色极性.为了能够正确地把文本区域的灰度图像转换成OCR识别软件可以识别的二值图像,提出了一种判断文本区域字符颜色极性的方法.首先计算文本区域的灰度-梯度共生矩阵,并根据目标函数快速地找到分割的灰度和梯度最佳阈值;然后在此基础上提取特征向量,送入神经网络进行分类;最后根据颜色极性判断的结果,分割出字符.实验结果表明,提出的方法在复杂度不同的背景下,正确地识别出了不同类别的字符颜色极性.  相似文献   

6.
根据小字符集编码特征和藏文正字法规则,并通过占位辅音和非占位辅音在组合字符中的规则来判定组合字符的构成.组合字符的结构确定后,再参照藏文正字法的知识,最终实现现代藏文音节结构的判定以及各部件的识别.  相似文献   

7.
在少数民族语言信息处理领域,由于文本分类标注数据的稀缺,相关研究工作进展缓慢.为了充分利用有限的标注数据,更有效地挖掘出文本之间的关系,本文对藏文提出一种基于预训练模型和图卷积神经网络的长文本分类方法CINO-GCN.首先利用在实验数据集上经过微调的少数民族多语言预训练模型(Chinese Minority Pretrained Language Model, CINO)得到藏文长文本的初始文档向量和藏文音节向量.然后根据整个数据集范围的音节共现关系与音节和文档间的TF-IDF值来对藏文文本图进行建模.最后将文本图和结点特征一同输入至图卷积神经网络(graph convolutional networks, GCN)层,得到的文档表示经过Softmax得到分类结果.将该方法在公开的TNCC藏文新闻文本分类数据集上与当前几种主流的深度学习模型进行了多组对比实验,分类准确率达到73.51%,远优于其他基线模型;同时设计了消融实验验证模型各部分对分类结果的增益.实验结果表明,该文提出的模型能够结合预训练词向量和图神经网络的优势,显著提高藏文文本分类的准确率.  相似文献   

8.
基于藏文音节规则的识别后处理方法,总结了音节规则的约束条件 试验表明该方法在藏文文本识别后处理中具有较高的自适应性 在《印刷藏文(汉英混排)文档识别系统》的测试中,50万字的藏文测试样本,识别率在97.3%的基础上提高了0.3%,显示出该方法具有良好的效果  相似文献   

9.
作为区分人机操作的一种有效方法,验证码图片被广泛使用.通过对验证码图片识别技术的研究,可以及时发现和改善验证码漏洞.识别混合字符型文本类型验证码的关键是提取验证码图像中的单个字符.介绍验证码识别的一般过程,给出基于颜色提取单个字符和基于支持向量机分割为单个字符的两种单个字符提取方法,通过实例给出了详细步骤.  相似文献   

10.
提出一种基于径向基网络的汽车车牌字符识别算法.在预处理阶段,采用灰度化、自适应阈值分割去除图像噪声并增强图像对比度;在字符分割阶段,采用极限元素位置确定法实现独立字符分割;在字符识别阶段,利用自行构建的字符子块图像库对径向基神经网络进行训练.选取基于反向传播(BP)神经网络的字符识别算法和基于支持向量机(SVM)的字符识别算法与文中方法进行比较.实验结果表明:文中方法在识别准确率上具有明显优势,更适用于汽车车牌的字符识别.  相似文献   

11.
为了获取铭牌图像中的基本参数信息,提出一种基于深度学习的端到端文本识别模型TDRN(Text Detection and Recognition Network)。模型避免了图像裁剪和字符分割,将文本看作一个序列,使用BLSTM(Bidirectional Long Short-term Memory)来获取上下文关系。同时,将文本检测和文本识别整合在同一个网络中共同训练,共享卷积层,以提高整体性能,在文本识别中还引入了注意力机制。模型在公共场景文本数据集SVT(Street View Text)上测试表现良好,F值为68. 69%,高于一般的端到端文本识别模型。与传统铭牌识别方法相比,TDRN准确率更高,鲁棒性更强,能适应复杂的电力场景变化。  相似文献   

12.
数字图像处理应用于车辆牌照识别的研究   总被引:13,自引:0,他引:13  
探讨了将数字图像处理技术应用于机车车辆牌照识别的基本方法.在图像预处理部分,选用灰度差倒数加权平均算法对源图像进行滤波处理;应用分段线性变换算法增强图像对比度.通过边缘检测算法对车辆牌照进行准确地定位及对文字进行分割,完成对车牌上的字符的识别是利用各个字符的图像和字体的特征值,对其中每个字符进行有效、准确的识别.  相似文献   

13.
车牌字符分割是车牌自动识别系统的一个重要环节,分割效果直接影响到后续的字符识别.提出了一种基于连续字符块长度特征的字符分割算法,通过预先设定阈值,判断字符是否需要分割.利用定位好的74个车牌图像在MATLAB环境下进行仿真实验,实验结果显示字符分割准确率高达91.9%,说明该方法具有简单、实用的特点.  相似文献   

14.
现代藏文字典序是按照传统藏文字的构造序而建立的排序方法,遵循严格的书面藏语构造规则.藏文编码中国国家标准正式发布实施后,藏文字符自身构造的复杂性、大量梵音藏文等他族语字符以及科技字符的存在,使得Microsoft office环境下藏文的序性问题一直未得到很好的解决.本文提出并实现了一种基于VBA的藏文音节在Word应用程序中的排序方法,方法简单、容易实现,解决了藏文音节在Microsoft office环境中排序的问题.  相似文献   

15.
文章将信息论的方法引入藏文信息处理技术研究领域,利用统计的方法研究了以字符为单位和以音节字为单位的藏文信息熵。通过对275万多音节字的大规模藏语单语语料进行统计,给出了以字符为统计单位和以音节字为统计单位的现代藏文的熵,其值分别为4.17和8.21比特,并从信息论的角度证明了藏文具有拼音文字和音节字特征的双重属性。  相似文献   

16.
通过藏文格助词的接续、结构以及上下文特征,提出基于规则、支持向量机、还原法等三层混合模式的藏文音节切分方法.藏文音节切分是藏文字频统计、分词、词性标注和机器翻译等研究领域的基础,其中藏文紧缩格歧义现象的正确识别、切分和还原是藏文音节切分的难点.经实验,混合模式藏文音节切分的F值为99.97%.  相似文献   

17.
藏文命名实体识别是藏语自然语言处理的基础任务,是完成机器翻译、网络舆情检测和知识图谱构建等任务的前提.传统的基于深度学习的藏文命名实体识别将藏文音节(字嵌入)作为模型输入的方法容易忽略藏文音节的局部特征.针对这一问题,本文提出了一种融合构成藏文音节部件特征和藏文音节特征的藏文命名实体识别神经网络模型SL-BiLSTM-CRF(syllable level long short-term memory conditional random field).其中,SL模块对构成音节的部件信息和藏文的单个音节进行特征编码,将两种不同模态的特征融合之后送入BiLSTM模型进行特征提取并预测实体标签,再通过CRF对BiLSTM模型的预测结果进行矫正,最终输出藏文实体识别结果.实验证明,该方法在藏文命名实体识别任务中相比基于单个藏文音节(字嵌入)的BiLSTM-CRF模型的F1值提高了1.58个百分点,验证了该方法在藏文命名实体识别任务中的有效性.  相似文献   

18.
薛倩 《河南科学》2014,(5):781-784
为了解决车牌图像倾斜、背景复杂、分割过程中出现的字符间粘连、断裂等问题,提出简便有效抗干扰强的基于字符块提取的车牌字符分割算法,以此提升车牌字符的识别效果.通过车牌图像二值化处理、倾斜矫正、去除干扰以及字符块提取一系列步骤,实现车牌识别前对车牌字符的准确有效分割.实验结果表明,该车牌字符分割方法可靠、准确度高,为后续车牌字符的正确识别奠定基础.  相似文献   

19.
数学公式识别在拍照搜题、自动阅卷和题库建设等智慧教育任务中有着广泛的应用.由于这些应用中数学公式大多以图片的形式存在,因此识别图片中的数学公式成为智慧教育领域的重要研究问题之一.数学公式结构复杂,从图片中识别数学公式远比一般的光学符号识别要复杂得多.将公式识别分为字符分割、符号识别和公式重组这3个步骤:首先,综合运用投影和连通域方法将字符从图片中分割出来;其次,基于单个字符的区域像素数占总像素比例提取字符特征,建立监督学习模型识别字符;最后,利用每个字符在公式中出现的位置对数学公式进行重组.真实数据集上的实验结果表明,本文提出的数学公式识别方法准确率高达98.0%.  相似文献   

20.
文章根据国际藏文编码标准,分析基本集变长序列码与藏文音节的映射关系,描述以前导字符、组合字符及元音构成变长码序列的规则,从而提出藏文音节结构的拉丁文转写模型,实现了通用的转换组件.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号