首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
在对各种文本定位与提取方法分析比较的基础上,针对标志牌文本的具体特点,提出了一种基于连通区域的标志牌文本提取方法———在灰度图像中定位标志牌区域,二值图像中提取标志牌文本,并用VC 编程实现对采集的自然场景下的标志牌文本图像进行了实验,结果证明,该方法能够准确定位并提取自然场景下的标志牌文本,获得文本字符。  相似文献   

2.
基于提升树的自然场景中文文本定位算法研究   总被引:1,自引:0,他引:1  
提出了一种新的基于提升树算法的自然场景中文文本定位技术.首先利用边缘特征进行文本区域的检测,即对下采样后彩色图像首先进行边缘提取、二值化处理,然后通过形态学运算以及连通区域分析去除大量的非字符连通域,获得候选的文本区域,最后,提取候选文本区域的PHOG-Gabor特征,通过提升树算法进一步确认是否为字符连通域.通过实验验证,该算法具有很高的召回率和准确率,综合性能较高.  相似文献   

3.
作为区分人机操作的一种有效方法,验证码图片被广泛使用.通过对验证码图片识别技术的研究,可以及时发现和改善验证码漏洞.识别混合字符型文本类型验证码的关键是提取验证码图像中的单个字符.介绍验证码识别的一般过程,给出基于颜色提取单个字符和基于支持向量机分割为单个字符的两种单个字符提取方法,通过实例给出了详细步骤.  相似文献   

4.
针对自然场景文本识别过程中文本图像的透视变形问题,提出一种有效的基于消失点的场景文本透视变形校正方法。该方法首先利用由文本字符边缘端点拟合得到的文本基线检测消失点,然后利用消失点信息估计单应矩阵部分参数,使用单应矩阵实现图像校正,得到正视的文本图像。与其他方法相比,该方法受文本版式的限制更少。实验结果表明,该方法能有效校正文字行数较少的场景文本,明显提高字符识别率。  相似文献   

5.
近年来,场景文本识别技术得到了飞速发展.然而,由于不规则场景文本图像中经常存在诸如杂物遮挡、分布扭曲、光照不足等视觉障碍,使得现有方法不能对单词中某些字符进行准确识别,进而产生较多的错误识别.为了解决这一问题,本文提出了一种基于错误纠正(errorcorrection,EC)模块的场景文本识别算法.与现有算法中的纠错模块不同,所提出的EC模块是一个序列到序列的预测模型.在EC模块的编解码结构中增加了多单元注意力机制,能够更加关注特征图中的一些重要信息.EC模块可直接从纯文本中学习语义信息,用于纠正拼写错误的文本.此外,提出了一种基于场景文本识别的多特征(multi-feature,MF)提取器,该提取器由5个MF单元组成,可分别从Resnet-45后5个模块的输出中提取特征信息.与传统的方法相比,MF提取器可以从不同深度挖掘更加丰富的图像信息.在7个数据集上的对比实验结果表明,与当前先进方法相比,所提算法在性能上具有明显的优势.  相似文献   

6.
复杂自然场景中准确提取和检测文本信息是文本识别的基础和前提,它受到文本尺寸、摆放角度甚至是姿态的影响.针对传统算法中滑动窗口都是固定大小,一些自然场景图像中的文本检测难,图像边界呈现冗余,运算量增大,运算时间长等问题,通过改进滑动窗口区域生成网络(Region Proposal Network,RPN)策略,提出一种改进的RPN(Improved RPN)网络模型,运用共享的目标检测和回归检测算法提取其中的网络结构,最终得到一种改进的Faster R-CNN文本检测算法.在数据集中分别选取对比度高、对比度低和任意对比度进行不同算法的文本检测结果对比,实验结果表明,本文算法具有较好的检测效果.  相似文献   

7.
针对从背景复杂、视角多变、语言形式多样的场景图像中难以准确提取文本信息的问题,提出了一种基于最大稳定极值区域(MSER)和笔画宽度变换(SWT)场景文本提取方法。该方法结合MSER、SWT算法的优点,采用MSER算法的准确检测文字区域,建立文本候选区域,利用SWT算法计算文本候选区域笔画宽度得到候选文本区域的笔画宽度;根据笔画宽度图,利用连通域标记建立笔画宽度连通图,然后根据笔画宽度连通图,建立笔画连通图的启发性规则,删除非文本候选区域,并根据文本的几何特征分析及局部自适应窗口最大类间方差(Otsu)分割,有效提取出自然场景图像中的文本,文本提取的准确率、召回率及综合性能分别为0.74、0.64及0.68。仿真实验结果表明,在文本视角多变,字符大小、尺寸、字体各异的复杂条件下,所提方法具有较好的鲁棒性,适用于多语言和多字体混合的场景文本提取。  相似文献   

8.
自然场景的文本识别在深度学习的推动下发展迅速,但是大多数文本识别算法都无法在低分辨率条件下使用,为了解决这个困境,本研究将超分辨率重建技术作为预处理手段加入到文本识别中,并提出一种针对文本识别领域的超分辨率重建网络,利用像素级注意力机制使超分辨率重建网络专注文本相关信息,同时利用文本识别网络的先验信息构建感知损失,辅助超分辨率识别网络的训练,将低分辨率图片的识别率从66.38%提升到78.99%.  相似文献   

9.
为了获取铭牌图像中的基本参数信息,提出一种基于深度学习的端到端文本识别模型TDRN(Text Detection and Recognition Network)。模型避免了图像裁剪和字符分割,将文本看作一个序列,使用BLSTM(Bidirectional Long Short-term Memory)来获取上下文关系。同时,将文本检测和文本识别整合在同一个网络中共同训练,共享卷积层,以提高整体性能,在文本识别中还引入了注意力机制。模型在公共场景文本数据集SVT(Street View Text)上测试表现良好,F值为68. 69%,高于一般的端到端文本识别模型。与传统铭牌识别方法相比,TDRN准确率更高,鲁棒性更强,能适应复杂的电力场景变化。  相似文献   

10.
文本区域的字符存在着不同的颜色极性.为了能够正确地把文本区域的灰度图像转换成OCR识别软件可以识别的二值图像,提出了一种判断文本区域字符颜色极性的方法.首先计算文本区域的灰度-梯度共生矩阵,并根据目标函数快速地找到分割的灰度和梯度最佳阈值;然后在此基础上提取特征向量,送入神经网络进行分类;最后根据颜色极性判断的结果,分割出字符.实验结果表明,提出的方法在复杂度不同的背景下,正确地识别出了不同类别的字符颜色极性.  相似文献   

11.
场景文字识别的一个具有挑战性的方面是处理具有扭曲或不规则布局的文字.尤其是侧视文字和曲线文字在自然场景中较为常见,且难以识别.本文提出了一个带有灵活矫正功能的注意力增强网络,将其用于任意形状场景文字识别.此网络由基于卷积神经网络的文字矫正网络和基于注意力增强的识别网络两部分组成.矫正网络自适应地将输入图像中的文字进行矫正,降低识别难度,使基于注意力增强的序列识别网络直接根据矫正后的图像预测字符序列.整个模型可以进行端到端的训练,训练只需要图像和相应的文字真实标签.在各种公开数据集上进行了广泛的实验,包括SVT、ICDAR 2003和CUTE80等数据集,验证了此网络具有优异的性能.  相似文献   

12.
基于深度学习的场景文本检测普遍缺少特征级的精细化,导致原本设计良好的模型不能被充分利用,提出将特征融合和特征金字塔注意力模块应用到场景文本检测.将基本特征提取网络(PixelLink算法)得到的4个特征映射层以采样后加权叠加的方式进行特征融合,并将结果送给特征金字塔注意力模块.特征融合使各层级的特征信息相结合,从而增加...  相似文献   

13.
高效和准确的场景文本(efficient and accuracy scene text,EAST)检测算法速度快且结构简单,但是由于文本结构的特殊性,导致在检测中尺寸较小的文本会被遗漏,而较长的文本则完整性较差.针对EAST算法存在的问题提出一种新的自然场景文本检测模型.该方法利用自动架构搜索的特征金字塔网络(neural architecture search feature pyramid network,NAS-FPN)设计搜索空间,覆盖所有可能的跨尺度连接提取自然场景图像特征.针对输出层进行修改,一方面通过广义交并比(generalized intersection over union,GIOU)作为指标提升边界框的回归效果;另一方面通过对损失函数进行修改解决类别失衡问题.输出场景图像中任意方向的文本区域检测框.该方法在ICDAR2013和ICDAR2015数据集上都取得了较好的检测结果,与其他文本检测方法相比,检测效果也得到了明显提升.  相似文献   

14.
提出了基于残差网络和注意力机制的LRAM(LSTM with ResNet and attention model)模型,在模型中引入残差模块(ResNet),加快了网络的收敛速度,降低了网络训练难度;引入注意力机制(AM),实现了不同序列对当前文本识别的权重分配,提高文本识别的准确率.通过在Synth90K,Street View Text和ICDAR等数据集测试结果,与已存在的模型相比,LRAM性能超过现存其他网络模型.   相似文献   

15.
为了解决传统算法学习规则有效性低、无法保证学习性能、匹配模板不全面、容易出现误识别现象的问题,提出一种改进的反向传播(back propagation,BP)神经网络算法研究多源头网络用户访问信息自适应识别问题。对多源头网络用户访问信息进行数据清洗处理,用多源头网络用户访问矩阵对全部会话集合进行描述;在矩阵中引入网络用户位置信息,将得到的信息保存至数据库,构成信息集。将一段时间内用户访问日志构成用户访问路径数据,依据访问请求抵达顺序,将其保存至相应用户缓冲区。把多源头网络用户访问路径当成隐马尔科夫模型的状态转移序列,将网页中信息集当成状态输出符号集,通过离散隐马尔科夫模型对不同源头网络用户访问信息进行分析,提取其特征。将多源头网络用户访问不同种类信息的概率特征作为输入,建立改进BP神经网络算法,得到的输出结果即为多源头网络用户访问信息自适应识别结果。结果表明:采用的BP神经网络算法学习性能优;所提算法识别准确性高。可见所提算法识别结果可靠。  相似文献   

16.
基于改进Faster R-CNN的自然场景文字检测算法   总被引:1,自引:0,他引:1  
自然场景中的文字受光照、污迹、文字较小等方面的影响,其检测难度较大,且传统的检测方法效果不好。在研究目标检测方法Faster RCNN的基础上,提出一种针对自然场景文字的改进方法。改进的模型由卷积神经网络特征提取模块,嵌套LSTM(nested long short-term memory,NLSTM)模块和区域候选网络(region proposal network,RPN)模块3部分组成,改进点主要是卷积神经网络特征提取模块增加了不同卷积层的空间特征融合,能够提取多层次的特征;增加嵌套LSTM模块能够学习长序列文本的序列特征,便于检测不定长度的文本序列;RPN模块通过设置宽为8像素,高度不定的锚点(anchor),可以提取一系列可能存在的目标建议框,其对小目标文字效果较好?。在实验部分,通过对标准数据集(ICDAR 2013,Multilingual)的实验结果对比表明,所提出的改进算法在准确率和效率方面明显优于改进前的算法。通过实列测试,改进的模型对小目标文字检测效果也有所提升。  相似文献   

17.
付燕  马钰  叶鸥 《科学技术与工程》2021,21(14):5855-5861
为解决当前视频描述任务中,生成描述视频的文本整体质量不高的问题,提出一种融合深度网络和视觉文本的视频描述模型.首先在编码阶段,将注意力机制引入3D残差模块,通过一维通道注意力与二维空间注意力增强视频特征映射,降低无关目标与噪声的影响;其次,解码阶段利用双层长短期记忆(long short-term memory,LSTM)深度网络的时序性特征,输出表述视频高层语义的文本描述;最后,为有效利用视觉文本信息丰富视频生成的语义描述,利用基于神经网络的主题模型提取出视频中的主题作为视觉文本融合进模型中.实验结果表明,本文方法在不同性能指标方面具有较好的准确性,能够更加准确地利用自然语言描述视频高层语义信息.  相似文献   

18.
细粒度情感分析是自然语言处理的关键任务之一,针对现有的解决中文影评情感分析的主流方案一般使用Word2Vector等预训练模型生成静态词向量,不能很好地解决一词多义问题,并且采用CNN池化的方式提取文本特征可能造成文本信息损失造成学习不充分,同时未能利用文本中包含的长距离依赖信息和句子中的句法信息。因此,提出了一种新的情感分析模型RoBERTa-PWCN-GTRU。模型使用RoBERTa预训练模型生成动态文本词向量,解决一词多义问题。为充分提取利用文本信息,采用改进的网络DenseDPCNN捕获文本长距离依赖信息,并与Bi-LSTM获取到的全局语义信息以双通道的方式进行特征融合,再融入邻近加权卷积网络(PWCN)获取到的句子句法信息,并引入门控Tanh-Relu单元(GTRU)进行进一步的特征筛选。在构建的中文影评数据集上的实验结果表明,提出的情感分析模型较主流模型在性能上有明显提升,其在中文影评数据集上的准确率达89.67%,F1值达82.51%,通过消融实验进一步验证了模型性能的有效性。模型能够为制片方未来的电影制作和消费者的购票决策提供有用信息,具有一定的实用价值。  相似文献   

19.
基于人工的物业投诉文件分类处理方法已经无法满足社会需求,并且已有投诉相关的自动分类方法在物业投诉分类问题上的性能较不足。因此,本研究提出一个基于MacBERT和联合注意力增强网络的物业服务投诉分类方法JAE-BERT4Com。JAE-BERT4Com使用基于近义词替换与合成少数过采样技术结合的样本增强策略解决类不平衡的问题,以及基于MacBERT的分层注意力、Transformers的多头注意力和关键词注意力等多重注意力联合增强的网络进行文本特征学习和分类。实验结果表明,JAE-BERT4Com能够获得比现有模型更高的准确率、F1分数和召回率,比现有较先进模型的性能更优。  相似文献   

20.
基于迁移学习和AlexNet的驾驶员行为状态识别方法   总被引:1,自引:0,他引:1  
为了解决传统基于神经网络算法的驾驶员行为状态识别系统精度过于依赖大量训练样本的问题,本文提出将迁移学习理论和AlexNet引入到驾驶员行为状态的识别研究中。首先对驾驶员行为特征及状态进行深入分析,对驾驶员7种驾驶状态进行了定义,构建了驾驶员状态信息采集系统;然后对基于卷积神经网络的驾驶员状态识别方法研究,建立了驾驶员状态数据集,构建了基于AlexNet卷积神经网络的状态监测系统,通过迁移学习完成了卷积神经网络识别模型。最后通过实验验证了本文提出的驾驶员状态识别算法对7种驾驶员状态识别的有效性。实验表明:该系统准确率达到97.8%,且在实验设备中运行速度达到70帧/分钟,满足较高的准确率要求与实时性要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号