首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
场景识别一直是图像处理领域的重要问题之一,对研究移动机器人定位、计算机视觉等方面具有重要意义.然而,室内场景的复杂性与无序性使室内场景识别研究面临许多挑战.传统的手工提取特征无法充分描述室内场景的信息,而卷积神经网络提取的特征能够包含丰富的场景语义和结构信息,且对于平移、比例缩放、倾斜等形式的变形具有高度不变性,因此提出了应用基于卷积神经网络的GoogLeNet网络模型来完成识别任务的方法.该网络模型在深度学习框架Caffe上对MIT_Indoor数据集的识别准确率为59.7%,高于使用传统手工提取特征的算法的准确率,对比结果说明了深度卷积神经网络在室内场景识别问题上的有效性.  相似文献   

2.
提出了一种全新的基于视觉显著度和上下文稀疏分解的图像超分辨率算法。利用人眼视觉感知显著的区域往往趋向于高度结构化的特性,字典学习和稀疏分解过程中可以捕获更多细节特征。在字典学习部分,视觉显著区域提取出的图像样本用来训练显著字典。在先验模型的部分,由于视觉显著区域通常趋于高度结构化,基于上下文的稀疏分解被用来进一步探索相邻图像块之间的联系。实验结果表明,所提出的方法在性能上优于其他最新的方法,峰值信噪比(PSNR)增益最大。主观结果也显示,所提出的方法可以有效减少假影现象,并保持更多细节。  相似文献   

3.
视频特征的提取是行为识别方法中一个关键步骤,当视频场景中存在无关行人或者背景干扰时,提取的特征往往会包含较多的干扰信息,这将严重影响分类器的分类效果,进而影响行为识别准确率。针对这类问题,提出了一种基于显著性区域的红外行为识别方法。该方法对视频序列提取光流运动历史图(optical flow motion history image, OF-MHI)特征,获取视频序列的运动信息,此步骤旨在消除图像背景及静止目标干扰。利用类别激活映射(class activation map, CAM)方法进一步消除运动目标干扰,获得兴趣目标显著性区域,进而获得显著性区域特征图。输入卷积神经网络(convolutional neural network, CNN)提取最终特征,并采用支持向量机(support vector machine, SVM)获得识别结果。与传统方法相比,实验结果表明,该方法有效地提升了识别准确率。  相似文献   

4.
为了能够在复杂的室内电磁环境下精确地对室内的无线发射机基站进行部署规划,本文软件仿真分析模块采用室内优势路径传播模型,该模型可以对仿真区域的电磁覆盖以及发射机和接收机之间的多径传播进行仿真。仿真结束后软件将仿真结果即室内仿真区域内各点的接收功率、电场强度以及各基站的载干比等以二维三维可视化的方式显示。结果表明,在复杂的室内环境下,室内优势路径传播模型比传统的射线追踪模型运算更加精确、仿真运行时间更短。  相似文献   

5.
基于稀疏表示的步态识别   总被引:1,自引:0,他引:1  
提出一种基于稀疏表示的方法,采用CASIA-B和CUSD步态数据库进行步态识别.首先对步态序列中心化及归一化处理,之后提取了步态的主动能量图像(AEI),AEI很好地表达了步态中的动态信息,以此作为步态的特征图像,并对特征AEI采用两种方式稀疏表示:一是采用基于重构误差的方法建立字典、更新字典及分解系数;二是采用基于区分辨别字典的方式建立字典、更新字典及分解系数.系数分解采用的是正交匹配追踪算法.实验证明提出的方法识别准确性高,识别速度快,适合实时性要求高的场合.  相似文献   

6.
7.
针对嘈杂背景、混叠、间断或多源的复杂音频,传统音频识别存在一定的局限性。文章提出了一种基于声谱图显著性检测的音频识别方法,将音频可视化转化为二维声谱图图像,利用图像的显著性检测有效获得声谱图中的主声源区域,并去除声谱图中与主声源无关的信息;然后针对主声源区域提取特征,以减少干扰并降低冗余度;采用改进的卷积神经网络(convolutional neural network,CNN)实现音频识别。实验结果表明,该方法可以有效解决复杂音频的识别问题。  相似文献   

8.
采用多个Kinect从不同角度同时捕获场景,将它们的深度图和彩色图结合在一起,通过数据预处理、顶点构建、点云注册和表面重建等步骤得到场景三维模型.整个流程均在GPU上实现以加速运算,实现了基于GPU的迭代最近点算法、基于GPU的八叉树构建、基于有向距离函数的表面重建等关键算法.试验中,整个算法运行帧率达到8.74f/s;重建分辨率达到约5.9 mm.试验表明,算法基本满足实时动态场景重建的要求,重建模型的精度满足非精确计算类应用的需求.  相似文献   

9.
从自然场景图像中抽取文本信息有利于场景图像的内容分析.文中根据图像中文本通常在局部区域具有显著性的特点,提出多尺度包围盒视觉显著性模型,并利用该模型设计一种可以融合边缘和纹理信息的候选文本检测方法.首先在Lab颜色空间构造基于边缘和纹理信息的图像同质性,并利用它将图像映射到同质性空间;然后根据多尺度包围盒视觉显著性模型求Lab颜色空间的同质性均值图像;最后求同质映射图像与同质性均值图像的加权欧氏距离,将其作为显著性度量,以提取文本区域.自然场景图像的实验表明:与单纯利用边缘检测或同质性映射进行文本检测的方法相比,文中提出的方法能够更好地抑制背景的干扰,这有利于进一步将文本区域与背景剥离,进行更精确的文本定位.  相似文献   

10.
自然场景文本识别是计算机视觉领域一项极具挑战性的任务,为此提出一种适用于任意方向的自然场景文本识别算法.使用高分辨分割网络作为基础框架提取文本的空间信息,利用卷积长短时记忆网络提取文本的时空序列信息,同时通过设计字符注意机制使模型专注于字符上,并采用可微分二值化函数进一步加大网络对前景的注意力,削弱对背景区域的关注,网...  相似文献   

11.
12.
基于生成对抗网络的协同过滤算法(CFGAN)是生成对抗网络在个性化推荐领域上的重大突破,但CFGAN存在缺乏对用户可能交互物品的关注以及面对稀疏数据场景特征提取能力较弱的问题。另外,结合负采样技术提出的优化CFGAN方案存在无法结合用户属性抽取负样本的缺陷。为此,本文提出一种改进的CFGAN模型,通过引入增强的置换注意力机制强化面向稀疏数据集的特征聚焦能力,同时考虑用户可能交互物品对推荐结果的影响;此外,采用协同用户社交网络从用户反馈中提取的语义好友特征嵌入CFGAN,以实现负样本的个性化抽取,进一步提升模型面向稀疏数据场景的推荐效果。  相似文献   

13.
涉及骑车人的典型交通危险场景   总被引:2,自引:0,他引:2  
对上海地区真实交通中的自然行驶工况进行视频采集、筛选和分类,得到152例涉及骑车人(自行车、摩托车、电动助力车)的危险工况.通过聚类分析和卡方检验得到了7类典型的危险场景.最后用PreScan软件对这7类危险场景进行虚拟建模,得到了涉及骑车人的典型危险工况场景库.  相似文献   

14.
典型场景下EKF-SLAM估计一致性分析   总被引:1,自引:1,他引:1  
张海强  窦丽华  陈杰  方浩 《北京理工大学学报》2011,31(10):1194-1197,1202
分析了典型场景下基于扩展卡尔曼滤波的同步定位和地图创建(EKF-SLAM)算法的估计一致性.通过理论分析证明了在移动机器人保持静止并持续对一个路标进行观测的场景下,如果机器人的初始位姿协方差矩阵为对角阵,则机器人位置估计的均值和协方差保持不变,而朝向估计将逐步失去一致性.此外,通过蒙特卡罗仿真给出了机器人朝向和路标估计下界的分布情况.结果表明,两者均服从正态分布,因此EKF-SLAM算法在概率意义下给出SLAM系统状态向量的无偏估计.  相似文献   

15.
室内动态场景下的同步定位与地图构建(simultaneous localization and mapping, SLAM)系统容易受到运动障碍物的影响,从而导致其位姿估计精度和视觉里程计的稳定性降低。本文提出一种基于YOLOv4目标检测网络的视觉SLAM算法,获取语义信息,并利用LK光流法判断动态特征,在传统的ORB-SLAM2系统上将动态特征点剔除,只使用静态特征点来估计相机的位姿;建立稠密点云地图,并转化成节约内存空间的八叉树地图。在TUM公开数据集上对该方法进行测试和评估,实验结果表明:在动态环境下,该系统与ORB-SLAM2相比,相机位姿估计精度提高83%,且减少了生成的环境地图的存储空间,为后续实现机器人导航具有重要意义。  相似文献   

16.
针对基于视觉的室内场景三维重建过程中存在三维点云匹配不准确、过程耗时和深度信息部分缺失的问题,提出一种带有深度约束和局部近邻约束的基于RGB-D的室内场景实时三维重建算法.该算法首先利用RGB-D相机采集到的RGB图像做哈里斯角点检测,再用SURF特征点描述方法对检测到的特征点生成64维特征描述子.接着利用特征点集合的深度信息和局部近邻特征点信息作为约束,初步筛选出相邻帧间正确的匹配点对,再结合随机抽样一致性(RANSAC)算法去除外点,以此得到相机的姿态估计.最后利用RGB-D的深度图像,在图优化方法(g2o)的基础上生成三维点云,实现室内场景的三维重建.实验中,RGB-D摄像头装载在自主移动导航的小车上,实时重构的三维场景验证了所提算法的可行性和准确性.  相似文献   

17.
目前基于图像的场景识别的方法都依赖于对图像特征的选取及特征数目的精简.提出了一种基于部分连接演化神经网络模型来进行图像场景识别的新方法:不对图像进行特征提取,而是将待识别图像的每个像素都作为神经网络的输入.为了克服新方法由于大量神经元引起的模型训练时间过长问题,将基于C语言计算架构的演化神经网络模型创造性地移植到基于图形处理器(GPU)的通用并行计算构架(CUDA),神经网络的演化训练速度提高200倍以上.在实验中,尽管输入的图像大小达到300×400像素(120 000个输入神经元),但CUDA的部分连接演化神经网络对场景图像有较强的识别能力,对亮度、缩放、旋转等变化也有较好的鲁棒性.  相似文献   

18.
郑文宾  何蔚 《科学技术与工程》2023,23(17):7444-7449
随着人工智能和大数据的发展,各种场景中对异常声音识别的需求日益增长,基于人工智能的声音识别技术正在兴起并被高度重视。现行主流的异常声音识别算法多为浅层机器学习模型结构,对异常声音的识别率较低,且识别的声音类型单一。为了有效识别异常声音,提出一种基于梅尔频率倒谱系数(Mel-frequency cepstral coefficient, MFCC)和卷积神经网络(convolution neural network, CNN)的环境声音识别算法,对各类异常声音进行采集和有效识别,并及时反馈声音状态,为各类声识别应用场景提供精细化管理技术手段。结果表明:提出的算法对5类场景下环境异常声音的识别率得到极大提高,适用于更广泛的声学场景,具有明显的优势。  相似文献   

19.
提出一种基于空间金字塔匹配的集成化视觉词典(SPM-IBOVW)模型的自然场景识别方法.对各个类别的特征集合分别聚类形成各类别视觉词包,并连接成为集成化视觉词包(IVV);采用一种新的5层空间金字塔划分方法,相比经典划分方法在降低算法复杂度的同时,提高了场景识别率,并通过15类通用复杂场景的识别实验验证其有效性.结果表明,所提出的方法对复杂场景的识别率达到83.17%.  相似文献   

20.
提出了基于残差网络和注意力机制的LRAM(LSTM with ResNet and attention model)模型,在模型中引入残差模块(ResNet),加快了网络的收敛速度,降低了网络训练难度;引入注意力机制(AM),实现了不同序列对当前文本识别的权重分配,提高文本识别的准确率.通过在Synth90K,Street View Text和ICDAR等数据集测试结果,与已存在的模型相比,LRAM性能超过现存其他网络模型.   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号