首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 265 毫秒
1.
基于改进Faster R-CNN的自然场景文字检测算法   总被引:1,自引:0,他引:1  
自然场景中的文字受光照、污迹、文字较小等方面的影响,其检测难度较大,且传统的检测方法效果不好。在研究目标检测方法Faster RCNN的基础上,提出一种针对自然场景文字的改进方法。改进的模型由卷积神经网络特征提取模块,嵌套LSTM(nested long short-term memory,NLSTM)模块和区域候选网络(region proposal network,RPN)模块3部分组成,改进点主要是卷积神经网络特征提取模块增加了不同卷积层的空间特征融合,能够提取多层次的特征;增加嵌套LSTM模块能够学习长序列文本的序列特征,便于检测不定长度的文本序列;RPN模块通过设置宽为8像素,高度不定的锚点(anchor),可以提取一系列可能存在的目标建议框,其对小目标文字效果较好?。在实验部分,通过对标准数据集(ICDAR 2013,Multilingual)的实验结果对比表明,所提出的改进算法在准确率和效率方面明显优于改进前的算法。通过实列测试,改进的模型对小目标文字检测效果也有所提升。  相似文献   

2.
针对自然场景下多方向、多语种文本区域提出了一种新的检测方法.该方法首先使用提出的边界提升最大稳定极值区域(MSER)算法,检测得到相比传统MSER算法更少的文本候选区域;然后依据设计的含有多个分类器的字符分拣树对候选区域进行层层分拣,剔除绝大部分非字符区域;接着使用提出的多层融合的聚合算法逐层对候选字符进行融合生成文本行;最后采用随机森林分类器对文本行进行验证.通过在ICDAR2003和MSRA-TD500数据集上的测试与比较,结果证明该方法在综合性能上要优于目前常用方法.  相似文献   

3.
近年来场景文本检测技术飞速发展,提出一种可适用于任意形状文本检测的新颖算法Mask Text Detector.该算法在Mask R-CNN的基础上,用anchor-free的方法替代了原本的RPN层生成建议框,减少了超参、模型参数和计算量.还提出LQCS(Localization Quality and Classification Score)joint regression,能够将坐标质量和类别分数关联到一起,消除预测阶段不一致的问题.为了让网络区分复杂样本,结合传统的边缘检测算法提出Socle-Mask分支生成分割掩码.该模块在水平和垂直方向上分区别提取纹理特征,并加入通道自注意力机制,让网络自主选择通道特征.我们在三个具有挑战性的数据集(Total-Text、CTW1500和ICDAR2015)中进行了广泛的实验,验证了该算法具有很好的文本检测性能.  相似文献   

4.
复杂自然场景中准确提取和检测文本信息是文本识别的基础和前提,它受到文本尺寸、摆放角度甚至是姿态的影响.针对传统算法中滑动窗口都是固定大小,一些自然场景图像中的文本检测难,图像边界呈现冗余,运算量增大,运算时间长等问题,通过改进滑动窗口区域生成网络(Region Proposal Network,RPN)策略,提出一种改进的RPN(Improved RPN)网络模型,运用共享的目标检测和回归检测算法提取其中的网络结构,最终得到一种改进的Faster R-CNN文本检测算法.在数据集中分别选取对比度高、对比度低和任意对比度进行不同算法的文本检测结果对比,实验结果表明,本文算法具有较好的检测效果.  相似文献   

5.
针对复杂背景中过多的边缘信息与噪声干扰引起笔画宽度检测不准确的问题,提出了一种结合纹理背景抑制的笔画宽度变换文本检测方法.采用Butterworth高通并结合文本纹理特征,实现了在抑制背景的同时有效保留文本区域的信息.通过结合利用加权引导滤波的图像增强技术降低噪声对边缘检测的干扰,使得文本图像的笔画宽度与边缘梯度信息的提取更为准确,从而有效提升了笔画宽度变换文本检测的性能.基于ICDAR数据库的实验结果也验证了该方法的有效性.  相似文献   

6.
针对现有文本检测与定位方法只能处理单一方向文本行的缺点,提出了一种基于语义分割方法的用于自然图像中文本检测的新方法。首先通过对现有检测方法以及目前语义分割方法在文本行检测中的局限性分析。然后对加入矩形卷积核的全卷积网络模型进行训练,获得文本行区域的分类图。最后,通过全连接条件随机场(conditional random field,CRF)的高精度分割能力将网络前端输出的文本行区域中的文字给区分出来。该框架用于处理任意方向、语言和字体中的文本。所提出的方法在MSRA-TD500和ICDAR2015两个文本检测数据集上获得良好的分割结果且性能优越。  相似文献   

7.
针对自然场景文本检测在复杂背景下虚警高的问题,提出利用小波变换(wavelet transform,WT)和方块编码算法(block truncation coding,BTC)相结合的方式(WT-BTC)表征文本纹理,并结合支持向量机(support vector machine,SVM)完成对候选文本区域的分类确认。算法首先利用边缘检测和启发式规则快速确定候选文本区域;然后对候选文本区域进行小波分解和BTC编码,提取水平、垂直、对角方向的WT-BTC纹理特征;使用三个SVM分类器分别对不同方向纹理特征学习训练,组合SVM模型实现候选文本区域的二次检测,确认文本区域。实验结果表明算法提高了文本区域检测鲁棒性,在复杂背景条件下对场景文本有较好的检测效果。  相似文献   

8.
针对绝缘子检测目标在航拍图像中尺寸变化剧烈的问题,提出一种改进Faster R-CNN的绝缘子检测算法.首先将FPN特征金字塔结构网络与Faster R-CNN算法进行结合,将不同尺度下的特征进行融合;然后,改进最大池化层,提升检测框的坐标精度;针对遮挡现象,采用Soft-NMS算法规避不同目标检测框因重叠而被误删的情况.经过对绝缘子航拍数据集的检测验证,对比原Faster R-CNN网络,本改进网络结构提高了平均准确率(MAP),且可以更有效地识别图像中更小比例的绝缘子目标.  相似文献   

9.
针对从背景复杂、视角多变、语言形式多样的场景图像中难以准确提取文本信息的问题,提出了一种基于最大稳定极值区域(MSER)和笔画宽度变换(SWT)场景文本提取方法。该方法结合MSER、SWT算法的优点,采用MSER算法的准确检测文字区域,建立文本候选区域,利用SWT算法计算文本候选区域笔画宽度得到候选文本区域的笔画宽度;根据笔画宽度图,利用连通域标记建立笔画宽度连通图,然后根据笔画宽度连通图,建立笔画连通图的启发性规则,删除非文本候选区域,并根据文本的几何特征分析及局部自适应窗口最大类间方差(Otsu)分割,有效提取出自然场景图像中的文本,文本提取的准确率、召回率及综合性能分别为0.74、0.64及0.68。仿真实验结果表明,在文本视角多变,字符大小、尺寸、字体各异的复杂条件下,所提方法具有较好的鲁棒性,适用于多语言和多字体混合的场景文本提取。  相似文献   

10.
针对合成孔径雷达图像目标检测困难以及深度学习中锚框机制所引起的计算冗余和应用场景受限问题,提出了一种基于无锚框机制的中心点、尺度和旋转角度预测网络,将目标检测转化为中心点估计问题,并直接预测相应边框的宽度、高度以及旋转角度等要素,实现多场景、多类型目标定向检测.该算法利用ResNet 101的U型结构和注意力模块提取图...  相似文献   

11.
基于深度学习的场景文本检测普遍缺少特征级的精细化,导致原本设计良好的模型不能被充分利用,提出将特征融合和特征金字塔注意力模块应用到场景文本检测.将基本特征提取网络(PixelLink算法)得到的4个特征映射层以采样后加权叠加的方式进行特征融合,并将结果送给特征金字塔注意力模块.特征融合使各层级的特征信息相结合,从而增加...  相似文献   

12.
为解决传统算法对文本区域检测查准率较低的问题, 从自然场景文本特性出发, 提出了一种基于视觉显 著性与边缘密集度的鲁棒性文本定位方法。 首先利用谱残差理论提取图像的显著性区域, 然后在提取的显著 性区域中寻找边缘密集度大的区域, 以此构建候选连通域, 利用少量的先验信息滤除其中的非文本区域。 在标 准数据集上的实验结果表明, 与单纯利用边缘特征进行文本区域检测的方法相比, 该方法可获得 70% 的综合 检测率。  相似文献   

13.
自然场景文本识别是计算机视觉领域一项极具挑战性的任务,为此提出一种适用于任意方向的自然场景文本识别算法.使用高分辨分割网络作为基础框架提取文本的空间信息,利用卷积长短时记忆网络提取文本的时空序列信息,同时通过设计字符注意机制使模型专注于字符上,并采用可微分二值化函数进一步加大网络对前景的注意力,削弱对背景区域的关注,网...  相似文献   

14.
场景文字识别的一个具有挑战性的方面是处理具有扭曲或不规则布局的文字.尤其是侧视文字和曲线文字在自然场景中较为常见,且难以识别.本文提出了一个带有灵活矫正功能的注意力增强网络,将其用于任意形状场景文字识别.此网络由基于卷积神经网络的文字矫正网络和基于注意力增强的识别网络两部分组成.矫正网络自适应地将输入图像中的文字进行矫正,降低识别难度,使基于注意力增强的序列识别网络直接根据矫正后的图像预测字符序列.整个模型可以进行端到端的训练,训练只需要图像和相应的文字真实标签.在各种公开数据集上进行了广泛的实验,包括SVT、ICDAR 2003和CUTE80等数据集,验证了此网络具有优异的性能.  相似文献   

15.
针对传统虚假新闻检测方法主要采用图像统计学和图像分布式表示特征导致没有深层次挖掘图像所表达的文字含义的问题,设计了在融合知识图谱和图像描述的深度学习下的多模态虚假新闻检测模型.该模型一方面抽取出在新闻文本中的3元组形式知识图谱,另一方面生成图像对应的描述文本,同时采用Bert框架将原文本、3元组、图像描述文本加以集成.在基准汉语虚假新闻语料库上的实验结果表明:该模型显著优于传统的代表性方法.  相似文献   

16.
为解决现有车道线检测方法在弯曲道路上识别准确率较差及Hough检测方法耗时较长的问题,提出一种基于动态搜索框及K-means聚类的三车道检测算法。首先,根据逆透视变换(IPM)将感兴趣区域内部转化成鸟瞰图的形式,利用大津法(OTSU)将单帧图像分成前景和背景两部分区域,然后,在图像底部规定区域内进行直方图分析,得到车道线基准点建立初始搜索框,并在其内部使用K-means算法聚类得到车道线候选点,根据建立的车道线直线模型迭代生成搜索框;最后,将得到的车道线候选点根据贝塞尔曲线对其进行拟合得到检测车道线。实验结果表明算法可以很好地检测车道线弯曲部分,算法单帧处理时间达到30 ms,在包含障碍干扰的路况下识别准确率为90. 1%。  相似文献   

17.
为解决算法生成纹理地图时时间耗费量大的问题,提出采用KD-tree算法对数据结构进行划分、减小KNN算法搜索复杂度、提高搜索速度的方法.针对基于纹理基元的分类算法无法准确检测室外某些纹理相似性较高的自然场景,提出加入颜色特征、设置相应权值构建混合模型的方法.实验结果表明,基于KD-tree的KNN算法可缩短分类时间、满足实时性的要求,基于纹理基元与颜色的分类算法在室外自然场景中能够获得较高的分类精确度.  相似文献   

18.
随着互联网的发展,网络数据呈现出异质数据多、文本标签化、数据不均衡等特点,这使得传统的基于长文本在线式网络事件的方法逐渐失效。采用改进的Single Pass方法进行在线式异质媒体网络事件发现:首先,通过分析网络数据中的不均衡性,重新设计相似度计算公式;其次,设计滑动时间窗口来提高Single Pass的算法效率;最后在Flickr的SED2014数据集上开展实验。实验结果表明,提出的算法具有有效性和实用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号