首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 90 毫秒
1.
当前无监督单目深度估计取得了很大的进展,但仍然存在着大梯度区域估计不准确的问题,主要是因为深度估计网络没有探索出有效的空间特征和语义信息,导致物体边界等大梯度区域存在着较大误差。针对这一问题,提出全方位探索特征信息的深度估计网络架构,整个框架利用全尺度的跳跃连接进行特征的整合,最后通过有效的通道注意力特征融合模块来进行特征融合,这两个巧妙的设计共同提升了单目深度估计模型的精度。在KITTI数据集上的实验结果表明,能够提升无监督单目深度估计的准确性以及生成更加锐利的物体边界。  相似文献   

2.
为了取得精确的图像分类效果,一方面需要提取大量的图像特征数据进行样本分析,另一方面大量的数据又造成了维数灾难.因此,为了解决信息全面与维数灾难的矛盾,引入了深度学习.深度学习利用分层结构处理复杂的高维数据,可以完成复杂函数的逼近,是一类具有多层非线性映射的学习算法,但深度学习模型优化困难且对隐层参数敏感.针对上述问题,将无监督算法引入深度学习,这种学习方法无须人工设计特征提取数据,训练过程中样本标签是未知的.实验表明,该算法在不影响图像分类效果的前提下,可以大大降低计算复杂度,具有一定的时效性.  相似文献   

3.
城市地下管道是城市的血脉经络,但随着排水管道的大量投入运营和使用年限增加,引发了一系列的管道病害安全隐患,如管道整体结构变形、内表面破裂和管中异物插入等问题,传统的病害图像视频采集、检测和后期病害分类甄选都是从二维视角出发,欠缺对三维空间信息(深度)的考虑。针对上述3种病害从生成深度图、由二维深度图重建三维管道病害这两方面进行研究,提出了一种基于boosting-monodepth的双重深度估计方法以提升深度图效果,最终生成画面连续一致、轮廓清晰的深度图。性能评估方面采用Abs-Rel、RMSE、SqRel、ORD和D3R等通用指标,与传统算法对比,结果显示boosting-monodepth的RMSE值降低了30%,精确度指标δ<1.25时,模型深度信息预测精确度提高了18%,此后以得到的深度图为基础重建管道病害三维点云,并在CloudCompare软件上三维可视化,最后采用随机采样一致算法测算病害深度并和实测数据对比证明其有效性和准确性。  相似文献   

4.
针对单张RGB-D图像进行六自由度目标位姿估计难以充分利用颜色信息与深度信息的问题,提出了一种基于多种网络(金字塔池化网络和PointNet++网络结合特征融合网络)构成的深度学习网络框架.方法用于估计在高度杂乱场景下一组已知对象的六自由度位姿.首先对RGB图像进行语义识别,将每一个已知类别的对象掩膜应用到深度图中,按...  相似文献   

5.
针对轴承故障样本少导致识别精度低的问题,提出一种基于无监督迁移成分分析(unsupervised transfer component analysis,UTCA)和深度信念网络(deep belief network,DBN)的故障诊断方法。首先利用UTCA的核函数将不同工况样本特征映射到一个共享再生核Hilbert空间中,使得源域和目标域样本集更加相似,并通过最大均值偏差嵌入法(maximum mean discrepancy embedding,MMDE)判断能够迁移的源域数据,将源域样本迁移到目标域中,为深度学习提供充足的训练样本,解决了实际故障样本较少的问题;然后采用DBN模型对源域样本进行训练,再对映射后无标记的目标域样本进行故障诊断分析。利用不同工况下的滚动轴承实验数据进行算法验证,结果表明,与普通DBN、SVM、BPNN以及传统机器学习-UTCA融合方法相比,本文方法对滚动轴承故障的诊断精度更高。  相似文献   

6.
为了在未知物体三维模型的情况下使用深度学习进行平面位姿估计,采用编码器-解码器网络,从单个RGB图像中检测平面实例分割及法线信息,并利用这些信息进行位姿解算,获得每个平面的实时位姿。实验结果显示,平面召回率为0.625,平面法线召回率为0.414,实时性为18.5 f/s,验证了算法的可行性。  相似文献   

7.
针对无GPS或弱GPS信号下的室外环境中的车辆无法定位问题,提出了一种利用激光地图辅助视觉定位方法。首先利用双目相机的视差图的深度与三维激光雷达地图进行匹配,然后通过最小化深度残差来估计六自由度相机位姿,接着利用视觉跟踪产生的良好的初始估计和提出的深度残差方法可有效地估计相机的位姿,最终通过估计相机的位姿完成定位。通过对比多个公开数据集,验证所提方法的准确性和有效性,最后利用实验小车采集校园数据,仿真和实验结果都证明利用此方法的有效性和在室外环境下的视觉定位的准确性。  相似文献   

8.
基于人眼立体视觉的裸眼3D显示技术通过虚拟视点快速渲染可以获得具有密集视点的3D内容,让用户不需要任何辅助设备就可以身临其境地感受三维场景.针对传统获取方法因渲染速度慢、重建质量不高、视差受限等问题,提出基于无监督神经网络的虚拟视点重建方法,基于单目立体深度估计和傅里叶切片理论将2D图像直接生成任意视角虚拟视点.试验结果表明,本文算法比传统方法对任意视角视点的理论渲染速度大幅提升,空洞区域修复更自然.  相似文献   

9.
针对人头部位姿势估计问题,提出一种基于随机森林的头部位姿估计算法.对现有算法只能以高质量人脸深度图像为输入和对面部数据缺失敏感的缺陷,在随机森林分支节点分裂机制中,加入分类测度解决头部区域的分割,以及改进回归测度来估计头部位姿,提出结合两种测度的优化方法,同时在原有几何特征通道基础上加入纹理信息以优化识别率,完成构造基于随机森林的头部位姿估计模型.结合该算法搭建基于Xtion PRO的实时头部位姿估计软件系统进行实验,结果表明,提出的两种测度模型能够较好地解决头部分割和位姿估计问题,该系统能够实时准确的估计头部位姿,并对部分头部遮挡具有鲁棒性.  相似文献   

10.
提出了一种针对交通场景的基于深度学习的障碍物检测与深度估计方法。该方法对现有的YOLOv3模型进行改进,使用DenseNet网络代替原网络尺度较小的传输层,得到一种新的障碍物检测模型Dense-YOLO。然后采用立体匹配模型PSMNet得到双目图像的视差图,根据双目测距原理对被测目标深度进行估计。在KITTI数据集和实际交通场景中的实验结果表明,与YOLOv3模型相比,Dense-YOLO模型有效地提高了交通场景中障碍物检测的可靠性和正确率,对轿车、行人、骑行者和卡车这4类障碍物检测的平均精确率(average precision, AP)提高了3%~5%,平均精确率均值(mean average precision, mAP)提高了约4%。障碍物深度估计结果与真实值的平均相对误差约为3%。  相似文献   

11.
基于转换的无指导词义标注方法   总被引:5,自引:0,他引:5  
词义标注是自然语言处理的难题之一。该文提出用于文本词义标注的转换规则自动获取算法及相应的词义排歧算法。该算法用可能的句法关系对语境进行限制,减少了训练数据中的噪音; 为提高学习算法的速度,提出利用预排序方法减少规则搜索次数,以及只调整变化部分数据的计算方法; 并给了改善召回率的词义排歧算法。在近5 万词的语料库上对本算法进行了实验,开放测试的词义排歧正确率为743% 。  相似文献   

12.
在目前基于深度学习的单目图像深度估计方法中,由于网络提取特征不够充分、边缘信息丢失从而导致深度图整体精度不足。因此提出了一种基于多尺度特征提取的单目图像深度估计方法。该方法首先使用Res2Net101作为编码器,通过在单个残差块中进行通道分组,使用阶梯型卷积方式来提取更细粒度的多尺度特征,加强特征提取能力;其次使用高通滤波器提取图像中的物体边缘来保留边缘信息;最后引入结构相似性损失函数,使得网络在训练过程中更加关注图像局部区域,提高网络的特征提取能力。在NYU Depth V2室内场景深度数据集上对本文方法进行验证,实验结果表明所提方法是有效的,提升了深度图的整体精度,其均方根误差(RMSE)达到0.508,并且在阈值为1.25时的准确率达到0.875。  相似文献   

13.
针对光场深度估计网络结构中运算时间较长的问题,设计了一种能够被重参数化的多分支串联残差块结构(Res-DBLB),加快了网络运算速度,同时引入复合卷积块(RepConv)和卷积注意力模块(CBAM),优化网络性能.对于复杂的遮挡场景,利用深度图生成遮挡掩码,计算遮挡感知成本的构造函数,消除遮挡的负面影响.实验结果表明:与传统方法相比,该算法的均方误差和坏像素率更低,推理速度更快,同时在复杂遮挡场景中表现出较高的稳健性.  相似文献   

14.
针对聚焦型显微光场相机在内部光学参数未知的情况下,进行了基于虚拟深度的深度测量标定。首先基于高斯光学建立光场成像模型,推导出虚拟深度与实际深度间的函数关系。然后选择单一角点的标定板,在不同深度位置进行拍摄;该角点在多个宏像素中重复成像,相邻重复像点的间距随深度位置改变而变化;利用图像匹配的方法计算相邻重复像点的距离和虚拟深度值,并与实际深度一一对应进行曲线拟合。根据拟合结果,分析了不同深度位置下,该光场成像系统的深度测量分辨率。最后,通过拍摄已知倾角的倾斜棋盘格标定板,进行深度测量并分析测量误差,在主镜头工作距离靠近镜头方向2 mm(10倍景深)范围内,测量误差小于5.35%。  相似文献   

15.
针对实际工业运行中带标签的轴承故障数据难以获取,导致有监督学习故障诊断效果不佳的问题,提出一种基于无监督迁移学习(transfer learning, TL)的核范数最大化轴承故障诊断方法。该方法通过结构优化深度卷积神经网络(structure optimized deep convolutional neural networks, SOCNN)进行故障特征提取,利用最大均值差异(maximum mean discrepancy, MMD)提升源域和目标域的分布相似度,并结合快速批量核范数最大化(fast batch nuclear-norm maximization, FBNM)来提升目标域批量输出矩阵的可分辨性和多样性。实验结果表明:所提方法在不同噪声环境中都具有较高的诊断精度,能准确识别出轴承的故障类型和故障危害等级,为轴承故障诊断提供有效技术支撑。  相似文献   

16.
提出了一种基于马尔科夫随机场(MRF)模型与多尺度纹理特征的单幅图像深度信息估计方法,该方法采用了Laws滤波器分别对图像的边缘、梯度、点进行滤波,捕捉二维场景图像中不同尺度的纹理能量以获得深度信息的特征.并根据纹理特征在不同尺度范围的不同值,计算出纹理线索与场景深度间的概率关系,在此基础上,构建MRF概率模型.MRF模型通过分析邻域系统和设计迭代准则很好地描述了纹理特征与场景深度之间的关系,最后通过迭代算法获得二维场景图像的深度信息.实验结果表明,该方法对场景深度信息的提取具有较好的效果,对于二维场景图像的场景结构、空间布局的约束较少,算法鲁棒性好.  相似文献   

17.
In recent years, unsupervised person reidentification technology has made great strides. The technology retrieves images of interested persons under different cameras from massive repositories of unlabeled images. However, in the current research, there are some existing problems, such as the influence of pedestrians appearing across cameras and pseudo-label noise. To solve these problems, we conduct research in two ways: removing the camera bias and dynamically updating the memory model. In removing the camera bias, based on a learnable channel attention module, the features that are only related to cameras can be extracted from the feature map, thereby removing the camera bias in the global features and obtaining the features that can represent the pedestrians. In regards to dynamically updating the memory model, since the instance features do not necessarily belong to the identity represented by the pseudo-label, we adopt a method to update the memory dynamically according to the distance between the instance features and the category features so that the category features tend to be true. We combine the removal of the camera bias and the dynamic updating of the memory model to better solve problems in this field. Extensive experimentation demonstrates the superiority of our method over the state-of-the-art approaches on fully unsupervised Re-ID tasks.  相似文献   

18.
在经典的核心密度估计模型中,基于像素亮度的估计能够将同一目标更好地连通显示,具有集中的像素分布规律.利用这一规律,可将经典核密度模型的计算维度扩展到二维,用其分割像素对应的光流场,并称该方法为基于光流场核密度估计的动态目标分割模型.实验证明,该方法能够从运动背景中很好地检测出较完整的运动目标.  相似文献   

19.
YOLO-Pose作为人体姿态估计算法模型,在精度和速度上有着不错的表现,但其在复杂和有遮挡的场景下存在误检率较大的问题,并且模型的复杂度仍然有优化的空间. 针对这几个问题,通过选取Slim-neck模块和Res2Net模块,重新设计其特征融合层,减少其计算量和参数量,提高特征提取能力,在提升精度的同时,使模型轻量化;引入EIoU损失函数,加快边框检测的收敛速度,并提高定位的准确性. 在压缩的OC_Human数据集上进行测试,改进后的模型与YOLO-Pose相比,P值、mAP@0.5和mAP@.5:95分别提高了10.6,3.1和2.9个百分点. 此外,参数量和计算量也分别减少了16.7%和19.3%,在精度和轻量化方面均有所提升,为其应用在资源有限的边缘计算设备提供了可能性.  相似文献   

20.
基于分数阶Fourier变换的瞬时频率估计方法   总被引:2,自引:0,他引:2  
通过分析分数阶Fourier变换功率谱与信号相位微分的关系,提出了根据信号密度分布和分数阶Fourier谱估计信号瞬时频率的方法。并对含噪声和不含噪声的两种信号进行了计算机仿真,仿真结果表明了该方法的有效性,实验表明该方法适用于信噪比大于3dB的信号。采用非递归算法,不需要进行时频平面上的投影和峰值搜索,运算量低。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号