首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
针对主动配电网电压优化控制中模型不确定性和通信代价大的问题,提出了一种基于灵敏度矩阵安全的多智能体深度强化学习(SMS-MADRL)算法。该算法利用安全深度强化学习,应对主动配电网的固有不确定性,并采用多智能体结构实现通信代价较小的分布式控制。首先,将电压优化控制问题描述为受约束的马尔可夫博弈(CMG);然后,对无功功率进行适当修改,通过分析节点电压的变化得到灵敏度矩阵,进而与主动配电网环境进行交互,训练出若干可以独立给出最优无功功率指令的智能体。与现有多智能体深度强化学习算法相比,该算法的优点在于给智能体的动作网络增添了基于灵敏度矩阵的安全层,在智能体的训练和执行阶段保证了主动配电网的电压安全性。在IEEE 33节点系统上的仿真结果表明:所提出的算法不仅能够满足电压约束,而且相较于多智能体深度确定性策略梯度(MADDPG)算法,网络损耗减少了4.18%,控制代价减少了70.5%。该研究可为主动配电网的电压优化控制提供理论基础。  相似文献   

2.
针对采用深度强化学习算法实现机器人路径规划任务中,训练前期随机性高导致奖励难获取问题,提出内在好奇心驱动的深度确定性策略梯度算法对连续型动作输出的端到端机器人路径规划进行研究。将环境获取的感知信息作为输入状态,输出机器人动作(线速度、角速度)的连续型控制量,在Gazebo仿真平台进行训练并验证。实验结果表明,基于内在好奇心驱动的深度确定性策略梯度路径规划算法可以较好地实现端到端的机器人路径规划,并且有利于解决训练前期奖励难获取问题,与离散型动作输出的深度Q学习网络模型进行了对比分析,结果表明本文算法决策控制效果更优越。在真实环境中进行了验证,在静态障碍和动态障碍的场景下,所提出算法可成功到达目标点。  相似文献   

3.
针对蛇形机器人执行路径规划任务时,面对复杂环境传统强化学习算法出现的训练速度慢、容易陷入死区导致收敛速度慢等问题,提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法。首先,在策略-价值(actor-critic)网络中引入多层长短期记忆(long short-term memory, LSTM)神经网络模型,使其控制经验池中信息的记忆和遗忘程度;其次,通过最优化特征参数将CPG(central pattern generators)网络融入强化学习模型,并设计新型网络状态空间和奖励函数;最后,将改进算法与传统算法分别部署在Webots环境中进行仿真实验。结果表明,相比于传统算法,改进算法整体训练时间平均降低了15%,到达目标点迭代次数平均降低了22%,减少了行驶过程中陷入死区的次数,收敛速度也有明显的提升。因此所提算法可以有效地引导蛇形机器人躲避障碍物,为其在复杂环境下执行路径规划任务提供了新的思路。  相似文献   

4.
深度强化学习(DRL)在连续控制问题中具有优异的性能,被广泛用于路径规划等领域.为了实现移动机器人在未知环境中的智能路径规划,提出了一个路径规划的模型,基于深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)的自主路径规划模型.针对DDPG算法前期对环境没有先验知识,收敛速度慢和移动时会出现局部最优情况,提出了一种改进的DDPG算法.通过在DDPG算法中添加人工势场的引力场和斥力场,以加快收敛速度和移动机器人到达目标点的时间.对奖赏函数进行改进,增加直走奖励,以提高规划路径的稳定性.  相似文献   

5.
多智能体路径规划旨在解决多个智能体在同一工作空间内生成无碰撞路径的问题,是智能体无人化工作的关键支撑技术。基于回溯思想和自适应局部避障策略,提出了一种双阶段多智能体路径规划算法。在全局路径规划阶段,基于回溯思想改进的RRT~*(rapidly-exploring random trees star)算法(back tracking rapidly-exploring random trees star, BT-RRT~*),减少无效父节点,并确保各智能体生成优化的无碰撞路径。在协作避障阶段,智能体依据自身的任务优先级制定局部避障策略,避开动态障碍物和其他智能体。实验结果表明,该算法可成功寻找较优路径,还可降低避障时间。  相似文献   

6.
为解决深度强化学习训练时间长、收敛慢的问题,该文针对未知环境下的机器人路径规划,基于深度确定性策略梯度(DDPG)算法,结合人工势场法设计了回报函数。为了符合机器人运动学模型,设计连续的状态和动作空间。采用Python语言,在不同地图下分别使用人工势场法、原始DDPG和该文改进的DDPG算法进行仿真对比实验。改进的DDPG算法通过结合人工势场法,在训练中能够给予模型一定的指引,减少训练的盲目性和随机性,从而大大缩短训练时间,更早得到优化模型。训练1000回合后,原始DDPG算法的成功率为70%,改进DDPG算法的成功率为92%。  相似文献   

7.
针对现有空间众包中的任务分配大多只考虑单边、 短期利益和单一场景的问题, 提出一种基于多智能体深度强化学习的空间众包任务分配算法. 首先定义一种新的空间众包场景, 其中工人可以自由选择是否与他人合作; 然后设计基于注意力机制和A2C(advantage actor-critic)方法的多智能体深度强化学习模型进行新场景下的任务分配; 最后进行仿真实验, 并将该算法与其他最新的任务分配算法进行性能对比. 仿真实验结果表明, 该算法能同时实现最高的任务完成率和工人收益率, 证明了该算法的有效性和鲁棒性.  相似文献   

8.
为有效规划巡回牧师(CR)策略下的海上补给过程,首先,根据CR策略下的海上补给特点,分析海上补给流程,介绍了汇合点的概念、计算方法以及出入库排队情况,并阐明了平时、战时不同环境下的补给规划目标;然后,分别建立海上补给整数非线性规划模型和多智能体仿真模型,设定典型的海上补给案例,分析数据并带入模型,通过LINGO和Anylogic仿真平台分别对模型进行求解,将两个模型的求解结果进行比较分析.结果表明,整数规划模型与多智能体仿真模型能够有效实现问题求解,对于优化CR策略下的海上补给过程均具有较好的适用性,其中多智能体仿真模型优化效率更高.  相似文献   

9.
针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法.新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,通过拟合策略函数与状态动作值函数,生成最优策略网络.仿真实验表明,在随机初始位置/姿态条件下,与采用纯追踪法的无人机对抗,该方法训练的智能无人机胜率超过93%;与传统的TD3、深度确定性策略梯度(DDPG)算法相比,该方法收敛性更快、稳定性更高.  相似文献   

10.
为解决未知环境中移动机器人的自主路径规划问题,提出了一种基于深度确定性策略梯度(DDPG)的改进算法。该算法通过激光雷达数据、机器人位姿以及速度信息建立策略映射,在连续动作域中输出线、角速度直接控制机器人底盘运动。设计了新的连续奖惩函数,缓解了奖励稀疏问题;融合了优先经验回放机制、人工演示数据机制以及多控制器引导机制,提高了算法训练效率。通过ROS+Gazebo平台进行模型训练,训练结果表明,改进算法仅需原始算法训练步数的47%,就获得了相同水平的奖励;设计对比实验,结果表明,相较于原始算法和传统的局部路径规划动态窗口法,改进算法在无碰撞的基础上运动轨迹更加平滑且耗时更短,验证了改进算法的有效性。最后搭建轮式差速机器人平台,设计未知环境导航实验,证明了算法的实用性。  相似文献   

11.
为解决双臂冗余机器人的非操作臂因不在规划范围内所导致的非操作臂占据操作空间的问题,提出了基于任务空间关节距离离线数据集的深度确定性策略梯度(D-DDPG)主动自避碰策略.通过构建关节间距离的描述数据集,结合DDPG深度强化学习生成主动避碰模型,利用经验模型主动驱动非操作臂运动到非任务空间,在避免操作臂路径规划中避障运算的同时,为操作臂提前避让出一定的操作空间.实验表明:D-DDPG策略在连续路径避障测试中可将最小关节距离提升到初始位置的2.38倍.  相似文献   

12.
匝道合流区是公路、快速路、隧道等快速道路的交通瓶颈.为缓解匝道合流区的交通拥堵,基于强化学习理论中的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,提出了以匝道调节率和信号周期共同作为动作向量输入的匝道信号控制模型,该模型通过增设不定周期这一控制动作,拓展动作空间,使交通状态被模型更充分感知和学习,增加了模型的求解空间和优化能力,克服了只以固定周期为前提的动作输入致使输出方案并非最优解的问题.通过在SUMO中搭建仿真场景,测试所提出算法的有效性,并与其他算法进行了控制效果对比.结果表明,本文提出的模型C&R-DDPG可以显著提升效率和安全水平,对比无控制、ALINEA控制和只以匝道调节率为动作的控制,平均行程时间分别减少52.3%、31.6%、15.5%;平均延误分别下降66.3%、36.1%、11.5%;匝道平均排队长度分别减少30.2%、23.1%、9.1%;平均加速度平方和分别降低87.5%、77.7%、66.9%.  相似文献   

13.
以机器人足球比赛(RoboCup)为背景,基于主智能体和辅助智能体概念,提出了基于主智能体群体强化学习算法(GLBMA),该算法通过主智能体和辅智能体的角色切换来实现整个团队的学习,改进了传统的群体强化学习算法。RoboCup仿真比赛试验表明,传统群体强化学习算法中的行为学习状态空间过大,连续状态空间的行为选择及多智能体合作求解等问题得到了解决.  相似文献   

14.
针对SNN-HRL等传统Skill discovery类算法存在的探索困难问题,本文基于SNN-HRL算法提出了融合多种探索策略的分层强化学习算法MES-HRL,改进传统分层结构,算法包括探索轨迹、学习轨迹、路径规划三层.在探索轨迹层,训练智能体尽可能多地探索未知环境,为后续的训练过程提供足够的环境状态信息.在学习轨迹层,将探索轨迹层的训练结果作为“先验知识”用于该层训练,提高训练效率.在路径规划层,利用智能体之前获得的skill来完成路径规划任务.通过仿真对比MES-HRL与SNN-HRL算法在不同环境下的性能表现,仿真结果显示,MES-HRL算法解决了传统算法的探索问题,具有更出色的路径规划能力.  相似文献   

15.
机器人足球策略的研究   总被引:5,自引:4,他引:1  
RoboCup是研究动态不可预测环境中的多智能体系统的典型平台.在RoboCup仿真比赛中,机器人整体团队协作和局部对抗规划都是比赛成功的关键.对于团队协作,应用面向对象的方法分析了机器人足球队员的角色特点,部署了不同队员的踢球策略.在射门对抗规划中,分析了球员射门时几个关键性的影响因素,并参考这些因素设计和应用一个关键性的射门函数.实践证明了在实时比赛环境中,整体结构和局部策略的有效性.  相似文献   

16.
针对基本蚁群算法的缺点,提出用多策略的蚁群算法求解机器人路径规划问题.采用栅格法建立机器人全局路径规划工作空间模型,进行两次凸化改进处理.提出惩罚策略,并配合使用保健算子策略、治病算子策略,同时引入遗传算子策略、精英蚂蚁策略和最大最小蚂蚁策略.介绍在Matlab环境下编程实现的方法及步骤,求解100个栅格点的路径规划问题,得到最优距离为15.070.仿真结果表明,即使在复杂的地形环境中用本算法也可迅速规划出令人满意的最优路径.  相似文献   

17.
针对产品动态到达的柔性装配作业车间调度问题,以最小化总拖期为目标,构建了基于事件点的数学规划模型,该模型包含加工机器分配、加工工序排序、装配站分配和装配工序排序四个决策序列,并提出了一种基于多智能体的深度强化学习算法进行求解.首先,所提出的算法包含四个智能体分别对应四个决策序列,智能体之间采用价值分解网络(VDN)协作策略;然后,构建基于拖期的复合回报函数,提取生产系统指标作为全局特征,完善各智能体的调度动作;最后,设计了精英经验库,充分挖掘高回报样本的价值.案例结果表明所提出的方法在不同场景下都优于现有经典调度规则和元启发式算法挖掘的调度规则.  相似文献   

18.
基于遗传算法的水下机器人大范围路径规划   总被引:1,自引:0,他引:1  
彭艳  顾国昌 《应用科技》2003,30(2):18-21
智能水下机器人(AUV)研究领域中的一个重要问题是全局路径规划,它的目标是在已知障碍物的环境中寻找一条从起始状态到达目标状态的无碰路径。提出一种分层遗传算法来解决大范围海洋环境下AUV的路径规划问题。详细介绍了算法的实现,并进行了仿真实验,仿真结果证明了该算法的有效性。  相似文献   

19.
基于平滑A~*算法的移动机器人路径规划   总被引:5,自引:0,他引:5  
栅格环境下A*算法规划出的移动机器人路径存在折线多、转折次数多、累计转折角度大等问题.为获得较优路径,提出平滑A*算法.在A*算法规划的路径基础上,遍历路径中的所有节点,当某一节点前后节点连线上无障碍物时,将延长线路的这一中间节点删除,建立平滑A*模型.仿真结果表明,平滑A*算法优于Ant(蚁群),Anyti me D*算法.平滑A*算法路径长度降低约5%,累计转折次数降低约50%,累计转折角度减少30%~60%.平滑A*算法能处理不同栅格规模下、障碍物随机分布的复杂环境下移动机器人路径规划问题.  相似文献   

20.
由于静态路径规划(static path planning,SPP)和滚动路径规划(rolling path planning,RPP)思想无法求解全局最优路径,提出了一种计及路网权值时变特性的全局最优路径规划方法(global optimal path planning,GOPP)。利用Vissim软件对重庆大学城某区域路网进行建模与仿真,采用改进的前向关联边数据结构存储路网拓扑关键要素及行程时间仿真数据,以此作为路径规划数据库。在此基础上,推导跨时段路段的实际权值,提出一种基于Dijkstra算法的GOPP方法。最后基于路径规划数据库,在证明经典Dijkstra算法相比智能启发式算法具有全局最优求解能力的基础上,分别采用SPP、RPP和GOPP方法在MATLAB环境下仿真得到3条规划路径,结果表明GOPP累计行程时间为1 158.7 s,相比SPP和RPP分别减少了212.7 s和57.6 s,有效验证了GOPP在缩短交通出行时间的优越性,对今后智能交通系统的发展具有一定的理论指导意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号