首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 390 毫秒
1.
RoboCup中基于效果操作的动态行为规划模型   总被引:2,自引:1,他引:2  
如何提高agent的学习能力、对手建模能力以及多agent团队运作能力是目前RoboCup研究所面临的3项挑战,在上述的挑战中,行为规划起了非常重要的作用。agent如何能够在动态实时的复杂环境中根据场景变化来动态规划自己的行为是RoboCup目前急需解决的问题。提出一种面向效果操作方法的动态行为规划模型,使队员能够在场景分析的基础上,根据经验动态选择和执行行为策略,且具有持续学习的能力,采用贝叶斯信念网络和基于示例推理相结合的方法来实现。实验结果表明,该方法有效提高了队员适应环境的能力。  相似文献   

2.
将个性行为绑定到信息Agent上,提出了一种基于个性的协同强化学习算法,让不同个性的Agent充当合适的角色.基于共同的目标和相同的信息,Agent可能产生共同的意图,规划出共同的行为,使得MAS可以适用于动态、实时、有干扰、对抗的环境中.  相似文献   

3.
研究多agent系统的学习行为对于智能系统的适应性是至关重要的.针对一类追求系统得益最大化的协作团队的学习问题,基于马尔可夫博弈的思想,提出了一种新的多agent协同强化学习算法.协作团队中的每个agent通过观察协作相识者的历史行为,依照马尔可夫博弈模型预测其行为策略,采用适合的行为探索策略,进而得出最优的联合行为策略.实验对该算法进行了验证,结果表明该算法是有效的.  相似文献   

4.
针对多agent团队中各成员之间是协作关系且自主决策的学习模型,在此对Q学习算法进行了适当扩充,提出了适合于多agent团队的一种共享经验元组的多agent协同强化学习算法。其中采用新的状态行为的知识表示方法,采用相似性变换和经验元组的共享,能够提高多agent团队协同工作的效率。最后将该算法应用于猎人捕物问题域,实验结果表明该算法能够明显加快多个猎人合作抓捕猎物的进程。  相似文献   

5.
将个性行为绑定到信息Agent上,提出了一种基于个性的协同强化学习算法,让不同个性的Agent充当合适的角色.基于共同的目标和相同的信息,Agent可能产生共同的意图,规划出共同的行为,使得MAS可以适用于动态、实时、有干扰、对抗的环境中.  相似文献   

6.
针对机器人团队协作检测与跟踪动态目标的需要,提出1种基于有限状态自动机(DFA)的复合式Agent模型。通过结合有限状态自动机的行为状态模型,对复合式Agent模型进行改进,在固定路线的动态目标跟踪实验中,对改进前后的Agent模型实际实验数据进行比较,并将该模型应用于基于区域的多机器人多目标跟踪实验中。结果表明:改进后的Agent模型通过有限状态自动机中的状态抽象,不仅从目标检测与跟踪的角度提高了Agent个体性能,还从社会的角度,提高了群体团队的协作性能;提出的模型通过行为状态模型将动作、决策等与环境信息进行了有效的分离,从而具有较好的可移植性和高扩展性;改进后的Agent模型跟踪偏差期望值与样本方差均降为改进前的一半,为实时的目标协作检测与跟踪提供了有效途径。  相似文献   

7.
针对类似于P2P文件共享系统的大规模分布式系统中的动态信任评估问题,提出了一种基于遗传算法的自适应的动态信任评估模型.该模型中节点间的信任关系随历史行为及其它相关信任评估信息的动态变化而变化,模型能自主地随着网络环境的变化动态生成信任评估规则,并不断地更新这些规则.实验结果表明,在网络环境发生动态变化时,文中模型比其它信任评估模型具有更强的动态自适应能力.  相似文献   

8.
基于行为的多机器人对手意图识别二次估计方法   总被引:1,自引:0,他引:1  
在动态对抗性环境下竞争的多机器人系统,对于对手的意图进行有效而准确的识别,从而有针对性地提出对策,是获得优势的必要条件。该文针对多机器人系统的对手意图识别提出了基于行为的行为序列估计和行为规则拟合的二次估计方法,引入环境约束、危险评价和行为概率作为判据对多个意图进行排序,避免单一行为结果的推断,实时准确地为决策提供支持。通过机器人足球这一典型的对抗性多机器人系统平台进行了验证,证明该方法在实时性和准确性上均比现有方法有很大提高。  相似文献   

9.
为了解决高速公路网多救援点出救,多种类、多数量救援车辆处置多起交通事故问题,应用agent方法建立了救援车辆动态派遣模型.模型将事故作为任务agent,救援车辆作为资源a-gent,将任务延时损失最小和派遣资源成本最少作为系统性能指标.针对多agent协作性特点及多起事故救援的不确定性,设计了招投标过程,并在积累救援信息、寻求多目标最优解过程中,制定了agent启发式学习过程,获得动态最优解.南京市周边高速公路网救援实例表明,基于agent的救援车辆派遣方法可以动态地获得全局优化的派遣决策方案,验证了方法的可行性和有效性.  相似文献   

10.
多Agent的协同设计模型研究   总被引:3,自引:0,他引:3  
针对制造领域环境动态变化的特点,提出了一种基于意图追踪的多Agent协同关系模型,该模型通过跟踪熟人意图来选择合作对象组成团队,把全局的协作问题分解为若干个局部协作问题,从而有效降低了系统资源的消耗.  相似文献   

11.
智能化指挥控制的核心问题是智能决策问题,智能决策的基础是作战计划的推演和行动计划的优化。演化博弈强化学习模型通过引入演化博弈,使模型能够充分考虑对手的博弈意志和指挥艺术,并且在求解过程中可以使用现有的强化学习算法进一步提升模型的效率。针对离散和连续两种不同场景,分别推导出对应的复因子动力学方程,并给出了非对称博弈问题的一般性求解策略,摆脱了“理性人”这一假设的演化博弈强化模型。相较于现有模型,表征精度更好,刻画博弈对抗更精确,更符合军事对抗实际,有助于智能蓝军的精准化建设,相关结论在多智能体建模平台NetLogo上进行了验证。  相似文献   

12.
一种改进的辩论协商模型及其算法   总被引:2,自引:0,他引:2  
为了解决现有辩论协商模型过于抽象的问题,提出了一种改进的辩论协商架构.在构架中定义了辩论协商模型的对手、自身和环境等模型,其中对手模型是以协商伙伴为对手,自身模型的内容包括信念、愿望、意图、信任和偏爱,环境模型主要由Agent通讯语言和内容语言、协商协议和信息库组成.同时,提出了相应的算法,它通过合理地组合模型,调整论证评估器的位置,建立协议推理、论证评估、论证产生和论证选取等过程,使得协商信息充分交互,协商过程更为有效.实验结果表明,所提模型和算法是有效、可行的,算法的复杂度与协商对话的轮回有关,若轮回数为n,则复杂度为O(n).  相似文献   

13.
为了对复杂场景中的多视角旋转人脸进行精确跟踪,提出了一种基于子空间特征模型的多视角人脸跟踪算法.该算法根据不同的人脸姿态建立多个离线人脸模型并自动进行在线学习,同时,针对人脸跟踪提出了新的自适应粒子滤波框架,确定人脸状态.实验结果表明,该算法能够准确跟踪多视角变尺度人脸,并实时分辨人脸姿态,对人脸的旋转、尺度变化以及环境影响不敏感,具有很强的鲁棒性和精确性.  相似文献   

14.
王伟  吴昊  刘鸿勋  杨溢 《科学技术与工程》2023,23(34):14888-14895
为了能让四旋翼无人机的姿态控制器具有强大的目标值追踪与抗外部干扰的能力,本文提出了一种基于参考模型的深度确定性策略梯度的四旋翼无人机姿态控制器设计,该方法通过神经网络,将四旋翼无人机的状态直接映射到输出,文中用到的强化学习算法是结合深度确定性策略(DDPG)和深度神经网络所设计的。在DDPG算法结构中,进一步加入参考模型,规避控制量太大造成的系统超调,增强了系统的稳定性以及鲁棒性。同时,修改了强化学习中奖励的构成,成功消除了系统的稳态误差。经过研究实验表明,该控制方法对目标值的追踪以及抗外部干扰都有着很强的鲁棒性,可见该控制器相比于传统的控制器,提高了其目标值追踪能力以及抗干扰能力。  相似文献   

15.
电液位置伺服系统的再励学习控制研究   总被引:17,自引:3,他引:14  
针对非线性电液位置伺服系统的不确定性控制问题,提出了一种带有小脑模型(CMAC)神经网络的再励学习控制方法。将CMAC神经网络融入再励学习控制结构中,并进行了撞化与改进杯仅使再励学习控制器具备了泛化能力,而且提高了其学习速度,因此竽电液位置伺 服系统的快速跟踪控制。仿真结果表明,控制器不仅具有良好的处理非线性能力而且对时变外扰支具有明显的抑制作用。  相似文献   

16.
利用反演设计,提出一种强化学习自适应神经网络轮式移动机器人(WMR)轨迹跟踪控制方法.首先在极坐标下建立WMR的轨迹跟踪误差模型,并基于此设计运动学控制器.然后,针对WMR动力学系统,设计自适应神经网络控制器.结合强化学习机制,同时对系统未知侧滑、打滑和模型不确定性进行优化补偿,并引入鲁棒控制项来消除补偿误差的影响,进一步提高了控制效果.所提控制方法使得闭环系统稳定,且最终一致有界收敛,其有效性通过数值仿真结果得到了验证.  相似文献   

17.
为了实现水下机器人在跟踪复杂轨迹时具有出较高的精度和稳定性,提出了利用深度强化学习实现水下机器人最优轨迹控制的方法:首先,建立基于2个深度神经网络(Actor网络和Critic网络)的水下机器人控制模型,其中Actor网络用来选择动作,Critic网络用来评估Actor网络的训练结果;其次,构造合适的奖励信号使得深度强化学习算法适用于水下机器人的动力学模型;最后,提出了基于奖励信号标准差的网络训练成功评判条件,使得水下机器人在确保精度的同时保证稳定性. 仿真实验结果表明:在解决一定精度内的水下机器人复杂轨迹跟踪问题时,该算法与传统PID控制算法相比具有更优的性能.  相似文献   

18.
In multiagent reinforcement learning, with different assumptions of the opponents' policies, an agent adopts quite different learning rules, and gets different learning performances. We prove that, in multiagent domains, convergence of the Q values is guaranteed only when an agent behaves optimally and its opponents' strategies satisfy certain conditions, and an agent can get best learning performances when it adopts the same learning algorithm as that of its opponents.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号