首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
场景文字识别的一个具有挑战性的方面是处理具有扭曲或不规则布局的文字.尤其是侧视文字和曲线文字在自然场景中较为常见,且难以识别.本文提出了一个带有灵活矫正功能的注意力增强网络,将其用于任意形状场景文字识别.此网络由基于卷积神经网络的文字矫正网络和基于注意力增强的识别网络两部分组成.矫正网络自适应地将输入图像中的文字进行矫正,降低识别难度,使基于注意力增强的序列识别网络直接根据矫正后的图像预测字符序列.整个模型可以进行端到端的训练,训练只需要图像和相应的文字真实标签.在各种公开数据集上进行了广泛的实验,包括SVT、ICDAR 2003和CUTE80等数据集,验证了此网络具有优异的性能.  相似文献   

2.
近年来,得益于人工智能技术(Artificial Intelligence, AI)的快速发展,关于自动求解数学应用题(Math Word Problem, MWP)的研究越来越趋向成熟。在自动求解数学应用题任务中,对问题文本进行建模至关重要。针对这一问题,文章提出了一个基于循环神经网络(Recursive Neural Network, RNN)和Transformer编码网络的双路文本编码器(Dual Channel Text Encoder, DCTE):首先,使用循环神经网络对文本进行初步的编码;然后,利用基于自注意力(Self-attention)机制的Transformer编码网络来获得词语的远距离上下文语义信息,以增强词语和文本的语义表征。结合DCTE和GTS(Goal-Driven Tree-structured MWP Solver)解码器,得到了数学应用题求解器(DCTE-GTS模型),并在Math23k数据集上,将该模型与Graph2Tree、HMS等模型进行了对比实验;同时,为探讨编码器配置方法对模型效果的影响,进行了消融实验。对比实验结果表明:DCTE-GTS...  相似文献   

3.
由于真实世界中的复杂数据经常能够被表示成李群结构,文章设计了一个以李群特征作为输入的深度网络架构,以此利用深度学习强大的特征表示能力来进行模式识别等任务。在构建李群深度神经网络的过程中,为了保证在优化时李群特征能够被限定在微分流形的结构上,提出了适用于李群特征的深度学习算法。算法在特征学习的过程中不仅能够保证不损失数据流形结构的信息,同时也限定了参数优化的假设空间。基于李群特征的深度学习算法在CIFAR-BW和MNIST数据集上,通过为静态图像设计辐条模型的李群特征,实验结果表明算法在较少次数的迭代下就能够收敛到较为理想的结果。  相似文献   

4.
尽管深度神经网络算法在标签自动标注领域已取得一定的成果,但对于包含大量噪声标签的真实音乐数据集仍存在自动标注效果差的问题.为此,文中通过对音乐标签进行表示学习,挖掘音乐标签与音频特征之间的潜在关系,提出了基于标签深度分析的音乐自动标注算法.该算法先通过多层级卷积网络提取音频特征,再通过音乐标签向量的表示学习来降低噪声数据对音乐自动标注网络的不良影响.在真实音乐标注数据集上的实验结果表明,该算法能取得更高的平均受试者特征曲线下面积,标注效果优于其他自动标注算法.  相似文献   

5.
6.
在多标签分类的相关研究中,由于现有的基于网络表示学习算法的相关方法只利用了网络中节点之间的邻接领域信息,而没有考虑到节点之间的结构相似性,从而导致分类准确性较低,因此,本文提出一种基于深度自动编码器的多标签分类模型。该方法首先利用轨迹计算算法(Orca)计算不同规模下网络中节点的结构相似性,作为深度自动编码器的输入来改进隐藏层中的向量表示,保留网络的全局结构;然后利用节点的邻接领域信息在模型中进行联合优化,从而能有效地捕捉到网络的高度非线性结构;最后根据隐藏层得到节点的向量表示,利用支持向量机对节点进行多标签分类。验证实验采用3个公开的网络数据集,实验结果表明,与基准方法相比,本文方法在多标签分类任务中能取得更好的效果。  相似文献   

7.
在人脸识别系统中,深度学习由于强大的表征能力被广泛应用,但模型推理的高计算复杂度和特征表示的高维度分别降低了特征提取和特征检索的效率,阻碍了人脸识别系统的实际部署.为了克服这两个问题,本文提出一种基于深度特征蒸馏的人脸识别方法,该方法通过多任务学习实现大深度模型知识与领域相关数据信息的蒸馏,从而统一地压缩深度网络参数及特征维度.联合特征回归与人脸分类,以预训练的大网络为教师网络,指导小网络训练,将知识迁移得到轻量级的学生网络,实现了高效的特征提取.在LFW人脸识别数据集上进行了实验,学生模型在识别精度相比教师模型下降3.7%的情况下,模型参数压缩到约2×107、特征维度降到128维,相比教师模型分别获得了7.1倍的参数约减、32倍的特征降维及95.1%的推理复杂度下降,表明了方法的有效性和高效性.  相似文献   

8.
解题所需知识库的构建对自动解题尤为重要。在利用本体知识库解答地理试题时,希望尽量减少本体构建中的人工参与成分。为此,首先对地理试题文本进行分词,并利用TF-IDF算法实现试题文本中的概念实体抽取;然后设计基本术语层次关系表,实现试题文本中的概念实体关系构建;最后利用Jena推理机将概念实体关系进一步规则化为OWL本体,并利用protégé工具对其进行调整和优化。在所收集地理试题集上的实验结果表明,本文所提出的本体构建方法对各类试题的知识库构建有明显的效果。  相似文献   

9.
解题所需知识库的构建对自动解题尤为重要.在利用本体知识库解答地理试题时,希望尽量减少本体构建中的人工参与成分.为此,首先对地理试题文本进行分词,并利用TF-IDF算法实现试题文本中的概念实体抽取;然后设计基本术语层次关系表,实现试题文本中的概念实体关系构建;最后利用Jena推理机将概念实体关系进一步规则化为OWL本体,并利用protégé工具对其进行调整和优化.在所收集地理试题集上的实验结果表明,所提出的本体构建方法对各类试题的知识库构建有明显的效果.  相似文献   

10.
为了提高文本语义相似性度量的准确性,该文从深度学习的角度出发提出了一种新的文本语义相似性度量框架,充分利用深度神经网络实现词级别、句子级别、文本级别的表示学习,使得学习到的表示向量能提供融合上下文信息的丰富语义信息,在此基础上,设计了相似性度量层,采用简单的三层网络实现任意两个文本向量的相似性值计算.在两个基准数据集上...  相似文献   

11.
提出一种基于深度学习与一致性表示空间学习的方法,针对图像与文本2种模态,分别采用卷积神经网络模型和潜在狄利克雷分布算法学习图像的深度特征和文档的主题概率分布;通过一个概率模型将两个高度异构的向量空间非线性映射到一个一致性表示空间;采用中心相关性算法计算不同模态信息在此空间的距离.在Wikipedia Dataset上的实验结果表明:在单模态输入检索中,文中方法的平均准确率为38.43%,相比于其他方法有明显提高.  相似文献   

12.
考虑到传统方法在补全面部缺失图像时存在补全比例低的问题,提出了基于深度学习的面部缺失图像自动补全方法研究。利用面部缺失图像的尺度空间,计算了面部缺失图像在时间梯度上的均值。利用深度学习算法学习面部缺失图像的类别,得到面部缺失图像的像素值。通过确定面部缺失图像的像素类别,利用深度学习算法增强处理了面部缺失图像的细节分量,完成面部缺失图像的识别。通过修复面部缺失图像的遮挡部分,优化面部图像的真实性,将相似性损失计算结果作为深度学习算法的算子,提取出面部缺失图像的特征。结合面部缺失图像自动补全算法设计,实现了面部缺失图像的自动补全。试验结果表明,在不同的缺失比例下,基于深度学习的面部缺失图像自动补全方法可以提高面部缺失图像的补全比例,具有更好的补全效果。  相似文献   

13.
为了更为精确和全面地对网页篡改攻击进行远程检测,基于语料库建设和深度学习方法改进了检测过程。大规模获取了可能被篡改攻击的网页,并基于语料库建设方法,人工建立了网页篡改数据库。基于深度神经网络,提出了融合文本特征、结构特征和网络特征的自动检测算法。该文提出的方法可以判断网页是否被篡改和被篡改的类型。经过实验,该文提出的方法在测试数据集上的精确率、召回率和F值分别为为95.6%、96.7%和96.1%,显著超过基准方法。  相似文献   

14.
基于深度学习的离心泵空化状态识别   总被引:1,自引:0,他引:1  
空化状态识别是离心泵状态监测的难点之一,为了提高空化状态识别的效果,提出了一种基于深度学习的离心泵空化状态识别方法。首先,采集了在3种工况下泵壳的振动信号,分别构建了振动信号的改进倍频带特征矩阵和时频特征矩阵;然后,基于自动编码器构建了深度学习网络,通过无监督训练自动学习输入数据的特征,利用监督训练对网络的参数进行了调整;最后,运用深度学习网络,对离心泵的4类空化状态进行了分类识别。研究表明,无论是基于改进倍频带特征矩阵还是基于时频特征矩阵,深度学习网络对4类空化状态都有很好的识别效果,尤其是对于弱空化状态,深度学习网络比BP神经网络更有效。  相似文献   

15.
提出一种结合深度特征与美学特征的图像增强方法.首先,结合多种图像特征重构智能体评估网络,该网络通过拼接图像语义特征、图像色彩特征及历史动作信息输出当前策略.其次,感知奖励模型通过预训练分类模型激活层网络提取深层特征,使用余弦距离获得图像间的深度感知距离;利用美学模型获得图像间的概率距离.最后,结合两方面的距离表示并将其用于奖励模型构造中.在MIT-Adobe FiveK数据集上的实验结果表明,本色彩增强方法在结构相似度和平均均方误差上优于其他基线算法,模型场景适用性强.生成图像在保留更多的细节信息的同时,可以有效增强图像色彩.  相似文献   

16.
深度学习是挖掘数据关键特征的重要技术手段,为准确分析通信网络数据特征,并保障质量,提出基于深度学习的通信网络数据关键特征挖掘方法。选取接入率、可用性以及覆盖率等七个指标作为通信网络质量核心性能指标,将卷积神经网络与径向基神经网络相结合,构建深度学习网络结构,将该性能指标作为标签参数,将所得到的标签参数的聚类与求和结果作为深度网络的标签数据,通过前向传播将标签数据输入卷积神经网络的输入层内,经过不同隐层的变换与映射至输出层位置,并采用量子粒子群算法求解深度学习网络最优参数,输出通信网络数据关键特征挖掘结果。经实验结果表明,所提方法的通信网络数据关键特征挖掘率在95%以上,能够准确预测未来短时间段内的通信网络质量。  相似文献   

17.
把音频文件转化为自然语言序列后,使用mLSTM模型+softmax回归的深度学习网络对贝多芬钢琴奏鸣曲的创作时期进行分类,10折交叉验证的平均准确率可达到90%.这一工作说明创作于不同时期的贝多芬钢琴奏鸣曲的确呈现出不同的艺术特征,这一模型也可为其他的音乐分类问题提供新的思路.  相似文献   

18.
提出一种基于深度玻尔兹曼机与典型相关分析的自动图像标注算法(DBM-CCA)。该算法利用深度玻尔兹曼机实现图像与文本的低层次特征向稀疏高层次抽象概念的转变,并通过典型相关分析建立子空间映射关系以实现标注词汇的生成。首先在深度玻尔兹曼机提取图像与文本高层特征过程中,选用伯努利分布和高斯分布分别拟合标注词汇和图像特征,然后在图像与标注词汇高层特征形成的典型变量空间内计算待标注图像与训练集图像的马氏距离并据此加权计算得到高层标注词汇特征,最后由平均场估计生成图像标注词汇。实验结果表明,所提算法对图像的标注准确率改善较好,与经典的基于监督的多类标签方法和多重伯努利相关模型相比,在Corel5K实验中平均查准率和查全查准均率分别提高了10%和5%。  相似文献   

19.
基于藏文La格(??????)例句的自动分类在藏语自然语言处理领域的重要性,根据藏文La格的用法和添接规则,在对藏文La格例句进行分类并定义分类概念的基础上,提出一种融合双通道音节特征的藏文La格例句自动分类模型.该模型首先使用word2vec和Glove构建双通道藏文音节嵌入,分别在每路卷积中融合双通道音节特征,丰富...  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号