首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 110 毫秒
1.
基于融合特征和LS-SVM的脱机手写体汉字识别   总被引:3,自引:0,他引:3  
提出的脱机手写体汉字识别系统主要研究特征提取和分类识别两个模块.特征提取模块主要包括采用基于不变矩和弹性网格技术的串行特征融合方法,所得到的特征向量不仅充分反映了手写体汉字的全局和局部特征,而且具有很强的区分表达能力.分类识别模块将神经网络多类分类策略与最小二乘支持向量机相结合,所得到的分类器不仅识别率高、泛化能力强,而且有效地解决了多类分类问题.实验证明本文提出的识别系统能够取得很好的识别效果.  相似文献   

2.
将汉字的视觉心理尺度这一连续的、无法用物理量直接分析评价的问题进行离散化,利用模式识别的手法加以研究.根据形状知觉尤其是汉字知觉的心理法则,抽取与汉字视觉心理尺度相关的黑点数、一次心距、二次心距等量张成特征空间.调查事先经专家认定在视觉心理上分属于大、中、小三集团的汉字在该特征空间中分布情况.经实验可知该分布有良好的聚类,证实了该特征集对汉字视觉心理尺度分类的有效性.  相似文献   

3.
提出了一种车牌汉字识别方法.该方法基于统计特征中的投影特征将车牌汉字根据结构特征进行粗分类,对于粗分类结果建立不同的BP神经网络分类器,训练完毕后,以MATLAB为软件平台,利用网络参数对车牌汉字进行分类识别.结果表明,该方法对车牌汉字识别有效,识别率高.  相似文献   

4.
为解决汉语自然语言处理任务中未登录词问题,人们经常利用汉字的笔画、偏旁、拼音等细粒度特征提高模型的学习能力.为找出这类特征的最佳组合,通过统计方法研究了汉字的音节、起笔、偏旁、声调、词频、笔画数等特征,提出一种可融合多种汉字特征的跨象限助记符映射模型,即相码模型,该模型可自动实现中文字、词与字母编码间的可逆映射.在字符级模型的文本分类实验中,效果理想.此外,模型生成的编码长度适中,保留了可读特性,可用于特殊场合的文本标注,也能为中文文本提供等量的平行语料数据.可见,相码模型是自然语言处理中一个较好的辅助模型.  相似文献   

5.
特征选择是机器学习领域中的基本问题之一,在大规模数据处理中至关重要.目前大多数特征选择方法以单一值作为特征的分类能力评价标准,本文提出基于子类问题分类能力的特征选择方法,该方法用特征对各子类问题的分类能力及其加权平均值来度量特征的分类能力,既能保证总分类能力强的特征被选择,也能保证对子类问题分类能力强但总分类能力不强的特征被选择.将该方法与已有的3个特征选择方法在4个公开的基因表达数据集上进行比较,结果表明该方法是有效的,且可以提高分类预测准确率.  相似文献   

6.
文章研究了一种基于过程神经网络的脱机手写体汉字特征提取方法。采用描述汉字整体构架性和可拆分性的笔划类型、笔划位置、笔划顺序以及拓扑结构特征的融合,给出了一种脱机手写体汉字特征表征方法以及冗余容错表征形状。采用过程神经网络模型的横向时间累积和纵向空间加权求和方法,模拟手写体汉字从左到右和从上到下的书写过程,给出了提取脱机手写体汉字特征的算法与步骤。采用粒子群优化学习算法保证过程神经网络的全局学习能力和收敛能力,建立了手写体汉字特征知识数据结构表,对SCUT-IRAC中的手写体汉字特征提取进等了仿真实验,结果表明该方法具有良好的“认知”手写体汉字特征的能力。  相似文献   

7.
将分词看成是一个对汉字进行分类的过程,然后利用条件随机场(CRFs)模型对每个汉字进行标记,最后转换为相应的分词结果.在现有CRFs模型的基础上,从字的构词能力角度出发,探索了字位置概率特征,提出了基于字位置概率特征的条件随机场中文分词方法.实验表明,字位置概率特征的引入,使得结果F1值提高了3.5%,达到94.5%.  相似文献   

8.
特征选取和分类器设计是字符识别系统设计的.本文针对手写体汉字识别提出了依据不同的分类要求,分别选取不同的汉字特征,而后输入BP神经网络多分类器进行识别的设计方法.实验结果表明,该方法用于手写体汉字识别是行之有效的.  相似文献   

9.
二级印刷体汉字的识别   总被引:1,自引:0,他引:1  
本文提出了一种利用数学形态学提取汉字结构特征进行汉字识别的方法。该方法模仿人的认字过程,根据汉字构造的基本规律选取字的边框特征和局部特征,所取特征可适用于多体印刷体汉字的识别。用传真机输入的6763个二级汉字进行了实验,分类稳定,正确识别率为95.2%。  相似文献   

10.
文章为研究脱机手写体汉字识别问题,将汉字样本及其特征向量看作是一个信息系统,采用基于β近似依赖度的属性重要度定义作为启发式信息,设计出在变精度粗糙集模型下的特征属性近似约简算法,对手写体汉字信息系统中冗余特征属性进行约简,构建出脱机手写体汉字识别决策信息系统。识别过程中采用基于加权规则置信度的规则融合方法,进一步提高了脱机手写体汉字的可识别性和正确识别率。实验结果表明,该方法是有效可行的。  相似文献   

11.
基于BP网络的字符识别系统设计   总被引:1,自引:0,他引:1  
根据我国车辆牌照的特点,提出了基于BP神经网络识别算法。算法中将分类器分为汉字分类器,英文字母分类器,英文字母和数字混合分类器以及数字分类器四种,这种神经网络设计可以有效简化网络结构,提高识别精度和速度。由于标准BP算法具有收敛速度慢、易陷入局部极小点等缺点,对BP算法进行了改进。通过仿真实验,该字符识别系统具有较高的识别率,同时也具备了神经网络本身容错能力强,即鲁棒性好的特点。  相似文献   

12.
提出一种基于文字结构特征的神经网络手写汉字识别策略 ,根据所提取的文字笔画方向、基本轮廓和交叉点等特征 ,采用基于自组织神经网络的模式聚类该方法完成正规手写文字的识别 .该方法提取的笔画轮廓十分准确有效 ,对手写汉字的约束少 ,可识别的汉字数量大 ,在仿真实验中有效地识别了绝大多数手写汉字  相似文献   

13.
基于支持向量机的汉语问句分类   总被引:5,自引:0,他引:5  
目前汉语问句分类一般都依据疑问词及其相关词的组合规则,但由于规则的提取很深地依赖于语言知识,而且很难穷举出所有的特征规则,因此会影响分类的效果.支持向量机(SVM)是建立在统计理论基础上的机器学习方法,对于小样本分类问题有很好的识别效果.文中分析和定义了汉语问句的类型,建立了以SVM为基础的问句分类模型,详细描述了问句分类特征的选取过程,并在句法特征的基础上引入语义特征进行汉语问句分类实验,分类准确率达88.7%,表明结合句法和语义特征以SVM进行汉语问句分类具有很好的效果.  相似文献   

14.
商品评论是消费者针对某一个商品的主观议论。针对微博中商品的评论文本短小、结构多样等特征,在仅使用现有的微博级情感标注的条件下,提出了一种基于层叠条件随机场模型。以中文小句中枢说为理论基础,将商品评论的句子划分为若干小句,使用微博内小句序列的各种特征训练粗粒度的随机条件场情感分类模型,同时使用小句内汉字序列的各种特征来训练细粒度的随机条件场情感分类模型。实验结果表明,本文提出的方法优于传统的情感分类方法。  相似文献   

15.
基于镜像学习和复合二次距离的手写汉字识别   总被引:3,自引:0,他引:3  
为解决手写汉字识别中的相似字混淆问题,提出了一种基于镜像学习和复合二次距离的识别算法,提高现有的二次分类器对相似汉字的鉴别能力。该算法为识别置信度较低的训练样本生成镜像虚拟样本,通过迭代训练来调整易混淆字符类别间的分类界面,并对二次分类器给出的候选字使用复合二次距离进行两两鉴别,以减少识别错误。在HCL 2000样本库上的实验表明,该算法能有效提高手写汉字识别的性能,测试集上的误识率下降了20%。  相似文献   

16.
目的:研究中国蒙医整骨术的骨折分型两种判据及其因果关系.方法:基于中国蒙医整骨术对骨折类型的10种分类及其大量临床应用实践,用现代生物力学原理及方法分析验证骨折类型线性与力性分类的科学合理性及其因果关系.结果:中国蒙医整骨术的骨折分型线性判据与力性判据,二者互为因果、完美统一.结论:中国蒙医整骨术骨折分型两种判据是骨折及其类型诊断的根本依据.  相似文献   

17.
为解决图像像素表示汉字特征方法不能有效表示汉字本质特征、空间复杂度较高的问题,提出了一种汉字图特征提取方法。方法主要包含汉字图像二值化,汉字图像骨架提取,汉字图特征提取3个部分;二值化消除图像中的噪声,提高图特征提取的准确度;骨架提取保留图像中重要的像素点,剔除无关的像素点;图特征提取将汉字关键点与图数据结构结合来表示汉字形状特征。在3 908个常用汉字的5种字体上进行实验。结果表明,该方法能够正确提取笔画复杂汉字的图特征,有效表示汉字本质特征;不同字体汉字图特征相同的汉字数量最高为3 195个,方法表现较稳定;平均每个汉字可以用22.6个图节点、19.1个边表示,相较于用单通道图像表示汉字特征,可大幅降低空间复杂度。  相似文献   

18.
《说文解字》采用部首编排法系统地分析字形、说解字义、考究字源。语义场理论是西方语言学理论分析方法。文章对《说文解字》中《目部》的字义进行初步探析,具体分析《目部》语义场内涵及分类。  相似文献   

19.
贾运  田学东  左丽娜 《科学技术与工程》2020,20(29):12021-12027
古籍版面图像结构复杂,对其进行有效、准确的分析是实现古籍汉字识别与检索的前提和基础。对古籍汉字版面分析的关键问题展开研究,在对古籍版面特点进行分析与归纳的基础上,提出基于LOF和波动阈值的古籍版面分析方法。首先,采用基于LOF的分类算法对古籍版面图像投影分割后的区域进行分类,确定存在分割问题的候选混合区域;然后,利用波动阈值对候选混合区域中的文字与框线粘连部分进行分割;最后,确定古籍版面中的文字区域并输出。实验结果表明,该算法能够有效地分离古籍文字区域和框线区域,版面分类和分割准确率分别为87.02%和78.69%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号