首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
现实中空间众包任务可能会遭到任务执行者的拒绝,为解决该问题提出动态可拒绝的空间众包处理方法。首先,为降低被拒绝的概率,运用主成分分析法(principal components analysis, PCA)计算任务执行者对任务的兴趣度;然后针对任务动态分配问题采用批处理模式解决,提出基于MaxFlow的排序算法(sequence algorithm base on MaxFlow, SMF)和基于KM算法(Kuhn-Munkres, KM)的不重复构造交替树算法(non-repetitive construction of alternating tree algorithm based on KM,NR-KM)寻找全局最大匹配下最高兴趣度分配方案;最后将贪心算法(greedy algroithm)、KM算法和SMF算法作为对照算法,与NR-KM算法在CPU时间成本、任务分配数量和任务分配兴趣度3个方面进行比较。结果表明NR-KM算法相对于KM算法、SMF算法在分配效率上分别提高11%和9%。可见,NR-KM算法能高效解决可拒绝情况下空间众包任务的分配,对解决空间众包任务涉及执行者意愿的分配问题具有参考价值。  相似文献   

2.
针对主动配电网电压优化控制中模型不确定性和通信代价大的问题,提出了一种基于灵敏度矩阵安全的多智能体深度强化学习(SMS-MADRL)算法。该算法利用安全深度强化学习,应对主动配电网的固有不确定性,并采用多智能体结构实现通信代价较小的分布式控制。首先,将电压优化控制问题描述为受约束的马尔可夫博弈(CMG);然后,对无功功率进行适当修改,通过分析节点电压的变化得到灵敏度矩阵,进而与主动配电网环境进行交互,训练出若干可以独立给出最优无功功率指令的智能体。与现有多智能体深度强化学习算法相比,该算法的优点在于给智能体的动作网络增添了基于灵敏度矩阵的安全层,在智能体的训练和执行阶段保证了主动配电网的电压安全性。在IEEE 33节点系统上的仿真结果表明:所提出的算法不仅能够满足电压约束,而且相较于多智能体深度确定性策略梯度(MADDPG)算法,网络损耗减少了4.18%,控制代价减少了70.5%。该研究可为主动配电网的电压优化控制提供理论基础。  相似文献   

3.
复杂环境中的多智能体强化学习   总被引:3,自引:0,他引:3  
提出在机器人足球这样的复杂、动态的环境中使用强化学习的方式与问题 ,阐述了强化学习的实现及如何处理机器学习中的常见问题 ,即延迟奖赏、探索与利用、不完整信息等 ,同时探讨了减少复杂性的若干措施 .  相似文献   

4.
通过在piFogBedII中引入移动众包资源,解决了雾计算实验平台用户层设备多样性和移动性问题,但也带来移动众包任务分配的问题,而现有移动众包任务分配机制不适合该平台。基于双向拍卖机制,设计了基于最大匹配的任务(MTM)分配算法,考虑移动用户的偏好,以最大化任务匹配数为目标,并满足诚实性、个体理性和预算平衡性。实验表明,该算法在任务匹配数上有很大提高,同时,具有计算高效性。  相似文献   

5.
面向高速公路多路段可变限速协同控制需求,针对高维参数空间高效训练寻优难题,提出了应用多智能体深度确定性策略梯度(MADDPG)算法的高速公路可变限速协同控制方法。区别于既有研究的单个智能体深度确定性策略梯度(DDPG)算法,MADDPG将每个管控单元抽象为具备Actor-Critic强化学习架构的智能体,在算法训练过程中共享各智能体的状态、动作信息,使得各智能体具备推测其余智能体控制策略的能力,进而实现多路段协同控制。基于开源仿真软件SUMO,在高速公路典型拥堵场景对提出的控制方法开展管控效果验证。实验结果表明,提出的MADDPG算法降低了拥堵持续时间和路段运行速度标准差,分别减少69.23 %、47.96 %,可显著提高交通效率与安全。对比单智能体DDPG算法,MADDPG可节约50 %的训练时间并提高7.44 %的累计回报值,多智能体算法可提升协同控制策略的优化效率。进一步,为验证智能体间共享信息的必要性,将MADDPG与独立多智能体DDPG(IDDPG)算法进行对比:相较于IDDPG,MADDPG可使拥堵持续时间、速度标准差均值的改善提升11.65 %、19.00 %。  相似文献   

6.
7.
针对智能移动终端设备的资源有限性和未来网络架构需要云边协同能力等问题,提出了一种基于多智能体强化学习的任务卸载策略,通过部署Cybertwin智能体为用户设备所需卸载的任务合理分配资源,在保证终端设备的服务质量(QoS)要求的同时,最小化整个计算网络的总成本。首先联合设计Cybertwin智能服务代理、计算任务分配以及网络通信与算力等多维异构资源配置构建随机对策的马尔可夫博弈过程(MGP),使执行总延迟和总能耗之和最小。其次考虑到需要处理随机时变网络与动态资源请求的高维连续动作空间,采用了一种基于多智能体双延迟深度确定策略梯度(MATD3)的深度强化学习协同框架求解。仿真实验结果表明:与常见的单智能体学习算法和启发式方案相比,本文提出的MATD3方法具有较好的性能,在平均执行成本方面分别降低了25.61%和35.79%,在任务卸载率上分别提高了39.13%和77.76%。  相似文献   

8.
研究了一类带有输入受限的领导者-追随者多智能体系统的同步最优控制问题。该问题可以看作是一个图博弈问题。基于图博弈理论,首先为每个智能体定义了一个带有非二次型能量函数的性能指标,该性能指标同时依赖于智能体自身及其邻居的信息。然后,利用所定义的性能指标建立耦合的哈密顿-雅克比-贝尔曼(HJB)方程。通过求解HJB方程得到最优控制策略,使得每个追随者同步于领导者且最小化给定的性能指标。由于HJB方程的解析解难于获得,因此借助于强化学习方法利用Actor-Critic(A-C)神经网络在线学习得到近似最优解。通过稳定性分析可以证明所得近似最优控制策略使得闭环系统所有状态一致最终有界,并且收敛到交互纳什均衡。最后,通过仿真实验验证所提同步最优控制算法的有效性。  相似文献   

9.
以机器人足球比赛(RoboCup)为背景,基于主智能体和辅助智能体概念,提出了基于主智能体群体强化学习算法(GLBMA),该算法通过主智能体和辅智能体的角色切换来实现整个团队的学习,改进了传统的群体强化学习算法。RoboCup仿真比赛试验表明,传统群体强化学习算法中的行为学习状态空间过大,连续状态空间的行为选择及多智能体合作求解等问题得到了解决.  相似文献   

10.
多智能体路径发现(MAPF)是一个具有挑战性和有意义的问题,其中要求所有智能体在不相互碰撞和避免障碍的情况下有效地达到其目标地点。在多智能体路径发现中,有效地提取和表达智能体的观察结果、有效地利用历史信息以及与相邻智能体之间的有效通信是完成多智能体协作任务所面临的挑战。为了解决这些问题,本文提出了一个精心设计的模型,利用附近智能体的局部状态,并为每个智能体输出一个最优的执行动作。我们通过使用残差注意力卷积神经网络(residual attention CNN)来提取局部观测构建局部观测编码器,并使用Transformer架构来构建交互层来组合智能体的局部观测。为了提高该模型的成功率。我们还引入了一种新的指标,即额外时间比率(ETR)。实验结果表明,我们提出的模型在成功率和ETR方面优于以前的大多数模型。此外,我们还完成了对模型的消融研究,并证明了模型各组成部分的有效性。  相似文献   

11.
基于智能体 (Agent)系统强化学习原理和基于动态规划的Q -学习算法的基础上 ,提出了一种新的Agent强化学习算法 .该算法在Agent学习过程中不断调整Agent知识库的加权值 ,在强化学习的每个阶段 ,通过选取合适的信度分配函数来修正Agent强化学习动作的选取策略 .与标准的Q -学习方法相比 ,具有更加合理的物理结构 ,并且能保证算法收敛 .仿真实验说明该方法加快了标准Q -学习算法的收敛速度 ,具有较好的学习性能  相似文献   

12.
研究多agent系统的学习行为对于智能系统的适应性是至关重要的.针对一类追求系统得益最大化的协作团队的学习问题,基于马尔可夫博弈的思想,提出了一种新的多agent协同强化学习算法.协作团队中的每个agent通过观察协作相识者的历史行为,依照马尔可夫博弈模型预测其行为策略,采用适合的行为探索策略,进而得出最优的联合行为策略.实验对该算法进行了验证,结果表明该算法是有效的.  相似文献   

13.
在数字化快速发展的商业环境下,为了在激烈的市场竞争中保持竞争力,实体零售商亟需采用高效的方法来优化其库存管理。本研究依托于深度强化学习理论,应用优势演员-评论家算法,为实体零售商优化库存管理提供科学指导。具体地,本研究利用真实历史销售数据构建模拟训练环境,并采用深度神经网络学习并优化针对多品类商品在有限容量约束下的库存管理策略。本研究具有重要的理论意义和实际应用价值,为实体零售商在竞争激烈的市场环境中实现高效库存管理提供了新的思路和方法。  相似文献   

14.
多agent协同强化学习算法SE-MACOL及其应用   总被引:4,自引:4,他引:0  
针对多agent团队中各成员之间是协作关系且自主决策的学习模型,在此对Q学习算法进行了适当扩充,提出了适合于多agent团队的一种共享经验元组的多agent协同强化学习算法。其中采用新的状态行为的知识表示方法,采用相似性变换和经验元组的共享,能够提高多agent团队协同工作的效率。最后将该算法应用于猎人捕物问题域,实验结果表明该算法能够明显加快多个猎人合作抓捕猎物的进程。  相似文献   

15.
自动驾驶车辆决策系统直接影响车辆综合行驶性能,是实现自动驾驶技术需要解决的关键难题之一。基于深度强化学习算法DDPG(deep deterministic policy gradient),针对此问题提出了一种端到端驾驶行为决策模型。首先,结合驾驶员模型选取自车、道路、干扰车辆等共64维度状态空间信息作为输入数据集对决策模型进行训练,决策模型输出合理的驾驶行为以及控制量,为解决训练测试中的奖励和控制量突变问题,本文改进了DDPG决策模型对决策控制效果进行优化,并在TORCS(the open racing car simulator)平台进行仿真实验验证。结果表明本文提出的决策模型可以根据车辆和环境实时状态信息输出合理的驾驶行为以及控制量,与DDPG模型相比,改进的模型具有更好的控制精度,且车辆横向速度显著减小,车辆舒适性以及车辆稳定性明显改善。  相似文献   

16.
基于神经网络增强学习算法的工艺任务分配方法   总被引:1,自引:0,他引:1  
在任务分配问题中,如果Markov决策过程模型的状态-动作空间很大就会出现"维数灾难".针对这一问题,提出一种基于BP神经网络的增强学习策略.利用BP神经网络良好的泛化能力,存储和逼近增强学习中状态-动作对的Q值,设计了基于Q学习的最优行为选择策略和Q学习的BP神经网络模型与算法.将所提方法应用于工艺任务分配问题,经过Matlab软件仿真实验,结果证实了该方法具有良好的性能和行为逼近能力.该方法进一步提高了增强学习理论在任务分配问题中的应用价值.  相似文献   

17.
针对采用深度强化学习算法实现机器人路径规划任务中,训练前期随机性高导致奖励难获取问题,提出内在好奇心驱动的深度确定性策略梯度算法对连续型动作输出的端到端机器人路径规划进行研究。将环境获取的感知信息作为输入状态,输出机器人动作(线速度、角速度)的连续型控制量,在Gazebo仿真平台进行训练并验证。实验结果表明,基于内在好奇心驱动的深度确定性策略梯度路径规划算法可以较好地实现端到端的机器人路径规划,并且有利于解决训练前期奖励难获取问题,与离散型动作输出的深度Q学习网络模型进行了对比分析,结果表明本文算法决策控制效果更优越。在真实环境中进行了验证,在静态障碍和动态障碍的场景下,所提出算法可成功到达目标点。  相似文献   

18.
提出一种多智能体增强式学习方法,每个智能体在学习过程中将其他智能体和环境区分开来,并且通过维持其他智能体的替代传导径迹来预测它们的行为,从而也确定了自身的行为。该算法不需要知道其他智能体的Q函数结构和奖赏函数结构,适用条件宽松。仿真结果证明了所提出学习算法的有效性,而且相对于集中式Q学习效率有很大的提高。  相似文献   

19.
针对集群无人机背景下定向天线网络拓扑设计的NP-hard特点,基于网络高抗毁、低功耗、高稳定性等要求,以抗毁性(3-连通)、链路量、链路功耗和稳定性为奖励,提出了一种具有精英策略的深度强化学习通信网络拓扑生成算法,验证了精英经验池加速训练效果。与传统DQN相比,引入精英经验池能够有效加速模型收敛,训练时间减少3倍以上。与遗传算法相比,算法分离了训练与使用过程,当网络训练完成后,能够根据场景需要实时计算通信网络拓扑。实验阶段设计了随机给定空间位置的6节点、10节点、24节点和36节点的3-连通通信网络拓扑。实验结果表明:所提算法具有强的实时性和适用性,对于不大于36节点的网络,可在183 ms内实现网络拓扑的更新计算,达到了实际应用的实时性要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号