首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 500 毫秒
1.
针对采用深度强化学习算法实现机器人路径规划任务中,训练前期随机性高导致奖励难获取问题,提出内在好奇心驱动的深度确定性策略梯度算法对连续型动作输出的端到端机器人路径规划进行研究。将环境获取的感知信息作为输入状态,输出机器人动作(线速度、角速度)的连续型控制量,在Gazebo仿真平台进行训练并验证。实验结果表明,基于内在好奇心驱动的深度确定性策略梯度路径规划算法可以较好地实现端到端的机器人路径规划,并且有利于解决训练前期奖励难获取问题,与离散型动作输出的深度Q学习网络模型进行了对比分析,结果表明本文算法决策控制效果更优越。在真实环境中进行了验证,在静态障碍和动态障碍的场景下,所提出算法可成功到达目标点。  相似文献   

2.
当训练数据和测试数据来自不同的领域或任务以至于训练数据和测试数据的分布不相同时,需要进行知识的迁移.本文提出一种基于实例KMM匹配的参数迁移学习方法.利用KMM算法估计每个源领域实例的权重,再利用得到的权重,把这些实例应用到基于参数的迁移学习方法中.把该迁移学习算法应用到无线网络定位问题中时,该方法的定位准确度要高于单...  相似文献   

3.
基于情感和认知的学习与决策模型是一个新的强化学习算法,该模型将来自情感的内在奖励和来自认知的外部奖励作为学习和决策的动机.将该模型引入到基于行为的机器人控制体系中,构造了一个新的移动机器人导航控制系统.通过基于在线的情感认知学习,形成合理的行为协调机制,从而使机器人实现自主导航任务.仿真实验结果表明:将情感系统引入到机器人系统中能提高学习速度,所提出的控制策略能有效地改善机器人在未知的环境中自主导航的能力.  相似文献   

4.
目前,大部分机器人通过在线编程的方式来完成预先设定的功能,但是智能化水平相对有限,无法主动学习新的任务和应对新的环境.设计一个基于语音交互和神经网络的机器人自主学习系统,一方面系统根据任务需求,利用Kinect深度传感器采集目标的颜色和深度信息进行目标的检测和特征提取,通过语音识别自动生成神经网络模型的训练样本,用于训练和更新神经网络模型;另一方面基于神经网络模型识别目标,通过自然的语音交互方式控制机器人的运动.通过仿真和真实机器人实验验证了自动训练未知事物模型的机器人学习系统的可行性,其中还对机械臂进行了坐标校正和轨迹规划,这样无论是在笛卡尔空间还是在关节空间内,机械臂都能平滑稳定地运动,保证了路径的平滑和工作的安全性.实验结果表明,基于本文设计的自主学习系统可以快速学习和完成新的任务,具有很好的扩展性,适用于不同的任务需求的应用场景.  相似文献   

5.
迁移度量学习旨在从强大且可靠的距离度量中迁移知识来改善目标度量的效果,这些度量往往来自于学习目标相关的任务.现有的迁移度量学习算法仅关注于如何迁移知识,而这些知识容易过拟合到源域中.首先研究如何在源域中训练一个适合于迁移的源域度量,然后设计了一种通用的深度异质迁移算法来进行高效的迁移学习.值得注意的是,将源域度量以联合对抗学习的方式进行训练,再以深度神经网络的方式将其参数化表示并对其进行迁移.迁移中通过表征模仿的方式来学习源域度量中的知识,这种方式允许源域和目标域中的知识来自于异质域.此外,严格限制目标度量网络的大小,使得目标网络更够进行高效的推理计算.在人脸识别数据集上的实验展现了本方法的有效性.  相似文献   

6.
针对大数据集上学习的深度人脸模型在实践中的相关问题,提出一种通过迁移一个预训练的深度人脸模型到特定的任务来解决该问题的方案:将深度人脸模型学习的分层表示作为源模型,然后在一个小训练集上学习高层表示以得到一个特定于任务的目标模型;在公共的小数据集及采集的真实人脸数据集上的实验表明,所采用的迁移学习方法有效且高效;经验性地探索了一个重要的开放问题——深度模型不同层特征的特点及其可迁移能力,认为越底层的特征越局部、越通用,而越高层的特征则越全局、越特定,具有更好的类内不变性和类间区分性;无监督的特征可视化与有监督的人脸识别实验结果都能较好地支持上述观点.  相似文献   

7.
基于深度学习的方法,运用Faster R-CNN目标检测架构和ResNet50卷积神经网络,针对配电线路维护机器人系统作业目标的特点对网络进行了训练.在此基础上结合双目视觉测距原理测得作业目标在相机坐标系中的坐标,通过手眼标定将该坐标转换到机器人基座坐标系中,从而完成作业目标的空间定位.实验结果表明:该方法能很好地适应作业场景背景复杂、光照变化以及目标部分遮挡等情况,所提出的手眼标定算法能够满足配电线路维护机器人对目标空间测量定位的要求.  相似文献   

8.
基于强化学习的机器人路径规划算法   总被引:1,自引:0,他引:1  
提出了一种基于强化学习的机器人路径规划算法,该算法将激光雷达所获取的移动机器人周围障碍物信息与目标点所在方位信息离散成有限个状态,进而合理地设计环境模型与状态空间数目;设计了一种连续的报酬函数,使得机器人采取的每一个动作都能获得相应的报酬,提高了算法训练效率.最后在Gazebo中建立仿真环境,对该智能体进行学习训练,训练结果验证了算法的有效性;同时在实际机器人上进行导航实验,实验结果表明该算法在实际环境中也能够完成导航任务.  相似文献   

9.
为了提高未知环境下移动机器人的探索能力,基于深度强化学习训练提出一种基于最小深度信息有选择的训练模式,通过运动学方程约束,优化了状态空间的搜索与采集,提高了训练速率.在仿真未知环境中通过将RGB-D传感器的深度图像作为机器人的状态输入,学习模型将直接输出机器人的速度与角度并进行运动决策,验证了机器人路径规划控制策略.研究结果表明:在相同的训练时间下,所提出的训练模式对未知环境有更好的探索能力.  相似文献   

10.
为了解决车辆队列控制中的车辆连续精确控制问题和行驶过程中车辆队列纵向稳定性问题,提出了一种在中等速度环境下基于深度强化学习(deep reinforcement learning, DRL)的车辆队列纵向控制策略。该策略充分考虑了影响队列安全的车辆距离、车辆速度和车辆加速度3个关键影响因素,并将车辆动力学和舒适性作为策略学习过程中的约束条件。首先,建立基于强化学习的车辆队列纵向控制模型。其次,提出一个深度强化学习过程来进行队列纵向控制策略的迭代,最终目标为获得车辆的最优控制策略;并且设计了一个多目标的奖励函数,该函数综合了距离误差、速度误差和加速度约束对应的奖励。最后,采用深度确定性策略梯度(deep deterministic policy gradient, DDPG)求解队列纵向控制问题,该算法将动作-评价(actor-critic, AC)网络的优点与深度Q网络(deep Q-network, DQN)的优点相结合,有效解决连续状态空间和连续动作空间上的车辆队列控制问题;并设计和训练了基于DDPG的队列控制模型用于队列纵向控制,验证该控制策略的有效性。结果表明:提出的基于强化学习的队列控制方法具有和分布式模型预测控制算法相当的控制精度,并能在"前车-领航车跟随"通信拓扑下实现队列的串稳定性。  相似文献   

11.
为了实现水下机器人在跟踪复杂轨迹时具有出较高的精度和稳定性,提出了利用深度强化学习实现水下机器人最优轨迹控制的方法:首先,建立基于2个深度神经网络(Actor网络和Critic网络)的水下机器人控制模型,其中Actor网络用来选择动作,Critic网络用来评估Actor网络的训练结果;其次,构造合适的奖励信号使得深度强化学习算法适用于水下机器人的动力学模型;最后,提出了基于奖励信号标准差的网络训练成功评判条件,使得水下机器人在确保精度的同时保证稳定性. 仿真实验结果表明:在解决一定精度内的水下机器人复杂轨迹跟踪问题时,该算法与传统PID控制算法相比具有更优的性能.  相似文献   

12.
在合成孔径雷达图像舰船目标检测中,由于背景复杂多变,传统的基于人工特征的目标检测方法效果较差.基于深度学习中的单阶段目标检测算法RetinaNet,结合合成孔径雷达图像本身特征信息较少的特点,采用了多特征层融合的思想,改进了网络特征提取能力,提出了相适应的损失函数的计算方法.采用SAR图像舰船目标检测数据集(SSDD)对网络进行训练,并通过样本增强和迁移学习的方法提升算法的鲁棒性和收敛速度.通过实验与其他基于深度学习的目标检测算法所得结果进行比较,结果表明本算法具有更高的检测精度.  相似文献   

13.
张明宇  王琦  于洋 《科学技术与工程》2023,23(11):4654-4659
针对热应力下绝缘栅双极型晶体管(insulated gate bipolar transistor, IGBT)的性能随时间逐步退化的特性,将深度学习中的时间序列预测算法应用到IGBT故障预测中,提出了基于门控循环单元(gated recurrent unit, GRU)与主成分分析-迁移学习(principal components analysis-transfer learning, PCA-TL)的故障预测新方法。该方法以电参数集电极-发射极电压VCE作为衰退参数,采用GRU模型构建衰退参数与故障时间的映射关系;利用PCA技术综合相异分布特征的IGBT故障指标,引入TL方法,通过微调GRU预测模型的参数完成从源域到目标域的迁移,实现目标域样本的故障预测。实验结果表明,基于GRU的故障预测模型具有较高的预测精度,与长短期记忆(long short-term memory, LSTM)算法相比,训练速度更快;PCA-TL方法可实现同类器件不同工况下的故障监测任务。验证了所提方法的可行性和正确性。  相似文献   

14.
针对未知环境下侦察机器人的自主导航问题,提出了一种基于视觉目标跟踪的侦察机器人导航方法.首先利用二进制鲁棒独立元素特征(BRIEF)提取方法来检测和描述待跟踪视觉目标的局部不变特征点,在快速的特征匹配计算基础上提出由粗到精的目标定位两步法实现机器人导航过程中视觉目标的实时准确跟踪.其次对基于视觉目标跟踪的自主导航任务进行行为分解和实现,在行为中集成视觉目标跟踪算法.最后利用基于宏行为的机器人事务执行机制实现移向视觉目标的自主导航控制.实验结果表明,提出的方法能够使侦察机器人实时准确地跟踪视觉引导目标,在复杂障碍物环境下可靠地完成移向目标的自主导航任务.  相似文献   

15.
为了研究仿人、能量高效的双足机器人步行,研制了由MACCEPA(mechanically adjustable compliance and controllable equilibrium position actuator)柔性驱动器驱动的半被动双足机器人,并实现了其动力学仿真系统.提出一种基于再励学习的步行控制方法.该方法首先采用Q-学习方法学习机器人在理想环境中的稳定步行步态及其控制策略,然后将此步态和控制策略作为模糊优胜学习方法的参考步态和参考控制策略并在线学习模糊网络的优胜值参数.仿真结果表明: 利用学习训练的结果控制柔性驱动器在步行相转换时的动作,机器人可以实现稳定动态步行.  相似文献   

16.
为了解决计算机深度学习时标注数据工作量大、准确度不高、耗时耗力等问题,需要将预先训练好的模型中的数据进行跨领域跨任务迁移学习。基于对不同数据集的迁移效果的研究,试验时将视觉领域中表现良好的ImageNet预训练模型迁移到音频分类任务,通过剔除无声部分、统一音频长度、数据转换和正则化处理这4个步骤,采用经典图像增强和样本混淆两种数据增强方法,以5种不同的方式训练数据集,实验证明:ImageNET目标训练模型的跨领域迁移学习效果显著,但源领域的模型效果和目标领域的最终效果并没有必然联系,且使用同领域相似数据分布的数据集的预训练效果比ImageNet上的预训练效果更差。  相似文献   

17.
抓取是机器人的基本操作任务,通过待抓取物体的位姿变化对机器人关节数据自适应调整,提高机器人物体抓取成功率.本文基于EM算法的混合正态分布模型建立待抓取物体位姿观测变量和机器人关节变量之间的映射关系,并采用UR3机器人进行抓取试验.结果表明,采用该方法进行抓取控制只是在样本训练集的边缘抓取失败,抓取成功率为95.5%.基于EM算法的混合正态分布模型可以有效地对工业机器人抓取进行控制,具有比较高的抓取成功率.  相似文献   

18.
针对传统的软件缺陷预测方法难以在单独的项目中利用小规模训练数据的问题,提出了一种基于迁移学习的软件缺陷预测技术,利用已有的项目辅助新项目的预测.该方法在源项目和目标项目之间寻找一个公共特征空间,使得在公共特征空间上2个项目的数据分布距离最小.在这个公共空间进行模型训练,以达到迁移分类的效果.实验结果显示该方法相对传统的缺陷预测算法有更好的预测性能,并且充分利用了原始训练数据,可以更高效地运用于各种软件缺陷预测任务.  相似文献   

19.
针对使用域名生成算法(DGA)僵尸网络隐蔽性强,传统检测算法特征提取复杂的问题,提出一种无需提取具体特征的深度学习模型DGA域名检测方法.首先基于word-hashing将所有域名转用二元语法字符串表示,利用词袋模型把域名映射到高维向量空间.然后利用5层深度神经网络对转换为高维向量的域名进行训练分类检测.通过深度模型,能够从训练数据中发现不同层次抽象的隐藏模式和特征,而这些模式和特征使用传统的统计方法大多是无法发现的.实验中使用了10万条DGA域名和10万条合法域名作为样本,与基于自然语言特征分类算法进行对比实验.实验结果表明该深度模型对DGA域名检测准确率达到97.23%,比基于自然语言特征分类算法得到的检测准确率高3.7%.  相似文献   

20.
传统机器学习方法假设训练数据和测试数据分布一致,但在许多实际应用中这个假设并不能得到满足.针对该情况,文中提出了一种非参数化的迁移学习算法--多步桥接精化算法.首先构造一系列中间模型来建立不同领域之间的桥梁,然后在近邻的模型间进行标签传播,实现从源领域到目标领域的判别信息迁移.实验结果表明,分布相近的模型使迁移变得平滑...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号