摘 要: | 目的 估计获取拍摄物体到相机之间距离的深度信息是单目视觉 SLAM 中获取深度信息的方法,针对无监督
单目深度估计算法出现精度不足以及误差较大的问题,提出基于多尺度特征融合的混合注意力机制的连续帧深度
估计网络。 方法 通过深度估计和位姿估计的两种编码器解码器结构分别得到深度信息和 6 自由度的位姿信息,深
度信息和位姿信息进行图像重建与原图损失计算输出深度信息,深度估计解码器编码器结构构成 U 型网络,位姿
估计网络和深度估计网络使用同一个编码器,通过位姿估计解码器输出位姿信息;在编码器中使用混合注意力机
制 CBAM 网络结合 ResNet 网络提取四个不同尺度的特征图,为了提升估计的深度信息轮廓细节在提取的每个不
同尺度的特征中再进行分配可学习权重系数提取局部和全局特征再和原始特征进行融合。 结果 在 KITTI 数据集
上进行训练同时进行误差以及精度评估,最后还进行了测试,与经典的 monodepth2 单目方法相比误差评估指标相
对误差、均方根误差和对数均方根误差分别降低 0. 034、0. 129 和 0. 002,自制测试图片证明了网络的泛化性。 结论
使用混合注意力机制结合的 ResNet 网络提取多尺度特征,同时在提取的特征上进行多尺度特征融合提升了深度
估计效果,改善了轮廓细节。
|