首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 411 毫秒
1.
当前电气铭牌识别效果差,无法进行工程应用.为解决电气铭牌信息识别,提出1种基于工程方法和深度学习相结合的铭牌文本信息识别ResNet50_k模型.将电气铭牌识别分为2部分:不可变区域识别和可变信息区域.针对电气铭牌可变区域的文本提取和信息识别.首先,使用变动区域位置信息对变动区域经进行获取;其次,使用K-menas聚类算法和投影法对铭牌可变区域进行分割;最后,利用Keras深度学习框架搭建残差网络模型.模型经过对3 823类符的识别训练,验证准确率高达97.6%.与Tesseract OCR识别方法相比,ResNet50_k效果更好.在对自然场景下拍摄电气铭牌识别中,模型表现良好,能够适应复杂的电力场环境.  相似文献   

2.
针对现有的文本区域检测网络对图像特征提取不充分,导致文本行间距过小或字间距过大的电气铭牌文本区域检测准确率低、误检率高,提出一种融合ResNet的改进CTPN算法用于电气铭牌文本区域检测.该模型在卷积神经网络模块中引入残差连接和并行卷积核操作,提升模型对铭牌图像提取特征的能力.在长短期记忆网络模块采用双向门控单元,降低模型训练难度.经实验验证,改进后的CTPN模型F值(F-measure)明显提升,对铭牌文本区域误检率显著降低.  相似文献   

3.
数据到文本的生成是指从结构化数据生成连贯文本的一种自然语言处理方法。近年来,由于端到端训练的深度神经网络的应用,数据到文本生成的方法显示出了巨大潜力。该方法能够处理大量数据自动生成连贯性文本,常用于新闻写作、报告生成等场景。然而,已有研究中对于数据中具体数值、时间等数据信息的推理存在较大缺陷,无法充分利用数据间的结构信息给出合理的生成指引,并且生成过程容易出现语义与句法分离训练的问题。因此,文中提出一种结合Transformer模型与深度神经网络的数据到文本生成方法,并提出一个用于内容规划的Transformer Text Planning(TTP)算法,有效地解决上述问题。在Rotowire公开数据集上进行方法验证,实验结果表明,文中方法性能优于已有数据到文本生成模型,可直接应用于结构化数据到连贯性文本的生成任务中,具有一定的实际应用价值。  相似文献   

4.
场景文字识别的一个具有挑战性的方面是处理具有扭曲或不规则布局的文字.尤其是侧视文字和曲线文字在自然场景中较为常见,且难以识别.本文提出了一个带有灵活矫正功能的注意力增强网络,将其用于任意形状场景文字识别.此网络由基于卷积神经网络的文字矫正网络和基于注意力增强的识别网络两部分组成.矫正网络自适应地将输入图像中的文字进行矫正,降低识别难度,使基于注意力增强的序列识别网络直接根据矫正后的图像预测字符序列.整个模型可以进行端到端的训练,训练只需要图像和相应的文字真实标签.在各种公开数据集上进行了广泛的实验,包括SVT、ICDAR 2003和CUTE80等数据集,验证了此网络具有优异的性能.  相似文献   

5.
根据素材文件格式的不同,课件素材大致有文本(Text)、图像(Image)、声音(Sound)、视频(Video)、动画(Movie)等几种形式,课件制作中素材的获取途径与处理要运用多个软件、多种形式。  相似文献   

6.
近年来,在各种图像分类和处理中,卷积神经网络(convolutional neural networks, CNN)取得了明显的优势。通过CNN中的全连通顶层和中间层等,可有效获取具有全局语义信息的深度特征以及包含局部语义信息的卷积特征,以此来提升图像识别的效果。为了进一步改进变电站巡检机器人对自身所处环境的理解能力,特别是在依赖于道路场景中整体和细节图像相结合来进行特征识别的条件下,文章提出了一种基于局部监督深度混合模型的识别网络对变电站巡检机器人道路场景进行识别,以实现对卷积特征的有效应用。首先该识别网络可以有效地避免卷积特征捕获到的局部对象在高度压缩的全连接层表示中被明显消除的问题;其次在局部卷积监督层的辅助下,通过直接将标签信息传播到卷积层,实现对图像的局部结构进行增强以补充场景图像中无序的中层语义信息;同时添加空间卷积操作来处理由于遮挡所造成的信息丢失。实验结果表明,局部监督深度混合模型网络在明显提高推理速度的同时,能够保持较高的识别精度,并在实际变电站场景的识别中表现出优秀的性能。  相似文献   

7.
目前基于图像的场景识别的方法都依赖于对图像特征的选取及特征数目的精简.提出了一种基于部分连接演化神经网络模型来进行图像场景识别的新方法:不对图像进行特征提取,而是将待识别图像的每个像素都作为神经网络的输入.为了克服新方法由于大量神经元引起的模型训练时间过长问题,将基于C语言计算架构的演化神经网络模型创造性地移植到基于图形处理器(GPU)的通用并行计算构架(CUDA),神经网络的演化训练速度提高200倍以上.在实验中,尽管输入的图像大小达到300×400像素(120 000个输入神经元),但CUDA的部分连接演化神经网络对场景图像有较强的识别能力,对亮度、缩放、旋转等变化也有较好的鲁棒性.  相似文献   

8.
近年来,场景文本识别技术得到了飞速发展.然而,由于不规则场景文本图像中经常存在诸如杂物遮挡、分布扭曲、光照不足等视觉障碍,使得现有方法不能对单词中某些字符进行准确识别,进而产生较多的错误识别.为了解决这一问题,本文提出了一种基于错误纠正(errorcorrection,EC)模块的场景文本识别算法.与现有算法中的纠错模块不同,所提出的EC模块是一个序列到序列的预测模型.在EC模块的编解码结构中增加了多单元注意力机制,能够更加关注特征图中的一些重要信息.EC模块可直接从纯文本中学习语义信息,用于纠正拼写错误的文本.此外,提出了一种基于场景文本识别的多特征(multi-feature,MF)提取器,该提取器由5个MF单元组成,可分别从Resnet-45后5个模块的输出中提取特征信息.与传统的方法相比,MF提取器可以从不同深度挖掘更加丰富的图像信息.在7个数据集上的对比实验结果表明,与当前先进方法相比,所提算法在性能上具有明显的优势.  相似文献   

9.
从自然场景图像中抽取文本信息有利于场景图像的内容分析.文中根据图像中文本通常在局部区域具有显著性的特点,提出多尺度包围盒视觉显著性模型,并利用该模型设计一种可以融合边缘和纹理信息的候选文本检测方法.首先在Lab颜色空间构造基于边缘和纹理信息的图像同质性,并利用它将图像映射到同质性空间;然后根据多尺度包围盒视觉显著性模型求Lab颜色空间的同质性均值图像;最后求同质映射图像与同质性均值图像的加权欧氏距离,将其作为显著性度量,以提取文本区域.自然场景图像的实验表明:与单纯利用边缘检测或同质性映射进行文本检测的方法相比,文中提出的方法能够更好地抑制背景的干扰,这有利于进一步将文本区域与背景剥离,进行更精确的文本定位.  相似文献   

10.
虚假评论识别在电子商务、社交媒体等领域具有重要的应用价值。尽管现有虚假评论识别模型融合了文本的情感信息,但在预训练过程中忽视了对情感信息的提取,导致准确率不高。针对此问题,本文提出一种基于情感信息预处理和双向门控循环单元(Bidirectional Gated Recurrent Unit, Bi-GRU)的虚假评论识别模型(FR-SG),用于提高虚假评论识别的准确率。首先,通过Albert模型获取文本的语义向量;然后,使用词频-逆文本频率(Term Frequency-Inverse Document Frequency, TF-IDF)和K-均值(K-means++)聚类的方法从评论中挖掘情感种子词,基于种子词对文本中的属性词和情感词进行掩码(mask);接着,使用面向情感的目标优化函数,将情感信息嵌入到语义表示中,生成情感向量;最后,将这两组向量的拼接结果输入虚假评论识别网络中,得到文本的分类结果。实验结果表明,相较于Bi-GRU+Attention模型,FR-SG提高了虚假评论识别的准确率。  相似文献   

11.
复杂自然场景中准确提取和检测文本信息是文本识别的基础和前提,它受到文本尺寸、摆放角度甚至是姿态的影响.针对传统算法中滑动窗口都是固定大小,一些自然场景图像中的文本检测难,图像边界呈现冗余,运算量增大,运算时间长等问题,通过改进滑动窗口区域生成网络(Region Proposal Network,RPN)策略,提出一种改进的RPN(Improved RPN)网络模型,运用共享的目标检测和回归检测算法提取其中的网络结构,最终得到一种改进的Faster R-CNN文本检测算法.在数据集中分别选取对比度高、对比度低和任意对比度进行不同算法的文本检测结果对比,实验结果表明,本文算法具有较好的检测效果.  相似文献   

12.
端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进行了改进,通过引入动态调整参数对CTC模型和基于注意力机制模型进行线性插值,从而实现混合架构的端到端语音识别.将改进后的方法应用在中文普通话语音识别中,选择带投影层的双向长短时记忆网络(Bidirectional long short-term memory projection, BLSTMP)作为编码器网络模型,声学特征选取80维的梅尔尺度滤波器组系数和基频共83维特征.实验结果表明,与传统的端到端语音识别方法比较,文中方法在普通话语音识别上能够降低3.8%的词错误率.  相似文献   

13.
提出了基于残差网络和注意力机制的LRAM(LSTM with ResNet and attention model)模型,在模型中引入残差模块(ResNet),加快了网络的收敛速度,降低了网络训练难度;引入注意力机制(AM),实现了不同序列对当前文本识别的权重分配,提高文本识别的准确率.通过在Synth90K,Street View Text和ICDAR等数据集测试结果,与已存在的模型相比,LRAM性能超过现存其他网络模型.   相似文献   

14.
为解决多标签线性判别分析(MLDA)方法在非线性维数约简方面的局限性,提出了一种多标签核判别分析(MKDA)方法,并将其用于人脸的身份与性别识别中.该方法的基本思想是通过非线性映射将训练样本从输入空间映射到高维核特征空间中,并在该特征空间中进行基于MLDA的数据降维.在身份和性别识别中,首先采用MKDA方法对人脸图像特征向量进行降维,获取判别特征矢量集;其次,为每幅人脸图像赋予一个表征身份和性别的多标签类别矢量;最后,采用减秩回归模型(RRR)描述判别特征矢量与多标签类别矢量之间的回归关系,并利用该模型进行未知人脸的身份和性别识别.AR人脸数据库上的实验结果表明:在人脸身份和性别识别中,MKDA方法的识别率高于传统核判别分析(KDA)方法.  相似文献   

15.
针对SAR图像中舰船目标的检测问题,单纯基于深度学习的图像处理技术难以达到检测准确性和实时性要求.SAR图像中目标尺寸较小,且易受噪声、光斑干扰,传统方法难以提取精细特征并克服复杂条件下的背景干扰.针对以上问题,设计基于YOLOv3检测框架的端到端检测模型,借鉴了残差模块结构来避免网络退化问题.同时结合深层与浅层的不同尺寸特征图检测,使用目标基础特征提取网络参数来避免重复训练初始化过程.针对SAR图像中海上舰船成像小目标的特点改进优化了神经网络结构,实现SAR海面广域舰船目标识别分类算法,并对检测模型进行轻量化压缩处理.构建SAR图像舰船目标数据集并进行了多次目标检测识别分类实验,体现了提出的检测方法在复杂场景下有可靠的抗干扰能力和准确的目标检测识别性能.  相似文献   

16.
抽取式摘要可读性、准确性较差,生成式摘要存在连贯性、逻辑性的不足,此外2种摘要方法的传统模型对文本的向量表示往往不够充分、准确。针对以上问题,该文提出了一种基于BERT-SUMOPN模型的抽取-生成式摘要方法。模型通过BERT预训练语言模型获取文本向量,然后利用抽取式结构化摘要模型抽取文本中的关键句子,最后将得到的关键句子输入到生成式指针生成网络中,通过EAC损失函数对模型进行端到端训练,结合coverage机制减少生成重复,获取摘要结果。实验结果表明,BERT-SUMOPN模型在BIGPATENT专利数据集上取得了很好的效果,ROUGE-1和ROUGE-2指标分别提升了3.3%和2.5%。  相似文献   

17.
为了提升变电站巡检机器人对自身所处环境的理解能力,将深度学习技术应用于变电站巡检机器人对道路场景的识别中,提出了一种全卷积道路场景识别网络(road scene recognition net,RSRNet)。该网络主要由相对浅层的编码网络和镜像结构与跳层融合结构相结合的解码网络组成,通过编码网络提取图像特征后由解码网络识别出图像目标信息。通过实验表明,本文提出的网络在同类型网络中识别精度及效率更高,同时在实际变电站场景中也表现出了优良的场景识别性能。  相似文献   

18.
自然场景文本区域定位是场景图像内容分析的重要步骤,文本区域定位能够为后续的文本识别提供便利.从场景文本特性出发,提出了一种基于最大极值稳定区域(maximally stable extremal regions,MSER)、颜色聚类和视觉显著性的鲁棒性文本定位方法.为了尽可能多地提取出潜在的文本区域,分别在灰度图像和彩色图像上采用最大极值稳定区域和颜色聚类来进行连通域的分析.对于得到的候选连通域,利用自然场景文本的显著性特征和少量的先验信息来滤除其中的非文本区域.将保留的文本区域用数学形态学水平膨胀的方法连成文本行输出.显著性评估的引入使得该方法能够减少大量参数的设定.标准数据集上的实验结果表明,在没有额外的训练数据和少量先验信息的情况下,该方法可以获得较好的正确率和召回率.  相似文献   

19.
对疏散场景中的人员数量进行准确估计,能为疏散路径的实时优化和应急资源的调度提供决策支持。为了获取疏散通道上不同区域的人员数量,该文在对已有方法分析和总结的基础上,通过设置分类情况和人员密度层级相联,建立了基于级联卷积神经网络(CNN)的人员数量估计模型,可有效避免卷积过程中部分图像信息丢失及过拟合的产生。通过学习图像中人员数量、位置随着图像特征变化的关系,可估计疏散通道上实时监控画面中人员数量。基于PyTorch深度学习平台开发,模型最终在验证集(612张图像)和测试集(182张图像)上的识别准确度分别为84.2%和83.6%,说明该模型可以比较准确地估计监控画面中的疏散人员数量。  相似文献   

20.
高效和准确的场景文本(efficient and accuracy scene text,EAST)检测算法速度快且结构简单,但是由于文本结构的特殊性,导致在检测中尺寸较小的文本会被遗漏,而较长的文本则完整性较差.针对EAST算法存在的问题提出一种新的自然场景文本检测模型.该方法利用自动架构搜索的特征金字塔网络(neural architecture search feature pyramid network,NAS-FPN)设计搜索空间,覆盖所有可能的跨尺度连接提取自然场景图像特征.针对输出层进行修改,一方面通过广义交并比(generalized intersection over union,GIOU)作为指标提升边界框的回归效果;另一方面通过对损失函数进行修改解决类别失衡问题.输出场景图像中任意方向的文本区域检测框.该方法在ICDAR2013和ICDAR2015数据集上都取得了较好的检测结果,与其他文本检测方法相比,检测效果也得到了明显提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号