首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
借助于组织学思想,将自适应系统中的自主运行单元抽象为Agent,把复杂自适应系统视为多Agent组织,从时间和状态角度,对复杂动态系统的行为进行描述。提出了基于时序活动逻辑的多Agent动态协作任务求解自适应机制和构造模型;详细分析了任务求解BDI Agent的信念、愿望、意图的产生过程和实现方法;深入讨论了协商推理的语义规则和行为规则;给出了协作群组的选择算法,包括从群组的建立、选择任务Agent、分解和分配子任务;从任务求解Agent的心智变化角度,详细描述了动态协作任务求解模型实现的6个阶段:任务动态分配、协作意愿产生、协作群体生成、共同计划制定、协作群体行动和结果评估。通过在MAGE等平台上的实验和仿真测试,验证了方法的可行性和有效性。  相似文献   

2.
动态环境下的多智能体机器人协作模型   总被引:2,自引:0,他引:2  
提出了在动态环境中,多Agent的一种协作模型,适用于环境信息不完备的复杂情况.将Agent的独立强化学习与BDI模型结合起来,使多Agent系统不但拥有强化学习的高度反应性和自适应性,而且拥有BDI的推理能力,使只使用数值分析而忽略推理环节的强化学习结合了逻辑推理方法.使用了Borlzman选取随机动作,并且采用了新的奖励函数和表示方法,减少了学习空间,提高了学习速度.仿真结果表明所提方法可行,能够满足多Agent系统的要求.  相似文献   

3.
基于智能体 (Agent)系统强化学习原理和基于动态规划的Q -学习算法的基础上 ,提出了一种新的Agent强化学习算法 .该算法在Agent学习过程中不断调整Agent知识库的加权值 ,在强化学习的每个阶段 ,通过选取合适的信度分配函数来修正Agent强化学习动作的选取策略 .与标准的Q -学习方法相比 ,具有更加合理的物理结构 ,并且能保证算法收敛 .仿真实验说明该方法加快了标准Q -学习算法的收敛速度 ,具有较好的学习性能  相似文献   

4.
一种自适应概率规划规则抽取算法   总被引:3,自引:0,他引:3  
在已知状态迁移条件下,利用传统概率规划技术能够获得确定的规划规则,而强化学习技术能够在未知环境条件下,利用试错和奖赏函数在线学习动态环境的策略知识。因此一种自适应的概率规划规则抽取算法被提出。该算法首先在强化学习获得的最优状态-动作对值函数基础上,通过迭代得到有折扣无奖赏的值函数和无折扣无奖赏的值函数。然后通过子规划剪枝将大于指定规划步数的子规划去除,并得到子规划剪枝后的状态-动作对值函数。最后通过Beam search算法从值函数中抽取满足概率规划条件的规划知识,从而在规划模型变化的条件下。也可以获得确定的概率规划规则。实验证明,这种自适应概率规划规则抽取算法是有效的。  相似文献   

5.
将预测分析技术和强化学习技术有机结合,使多Agent系统中的各Agent,不仅具有了高度反应自适应性,而且拥有了高效而准确的预测分析能力;使Agent的行为更具有针对性,尽可能地减少错误,保证学习的正确方向,提高Agent间进行信息共享,融合单个Agent的Q值表.相当于相同情况下增加了学习次数,不仅尽可能地消除策略中的冗余动作,以高效的方式实现最终目标,而且提高多Agent系统执行效率和收敛速度及性能.本文提出了一种改进的多Agent间协作学习方法,适用于环境不完备的复杂情况.以追捕问题作为仿真实验.结果表明所提方法能够有效地促进多智能体系统中各Agent间协作学习能力.  相似文献   

6.
一种多移动机器人协作围捕策略   总被引:8,自引:0,他引:8  
提出一种在连续未知环境中实现多移动机器人协作围捕移动目标的整体方案.围捕包括包围目标和靠近目标,包围目标行为由强化学习算法实现.用状态聚类减小状态空间,利用Q学习算法获得Q值表,根据学习后的Q值表选择动作.对各种行为的输出进行加权求和获得综合行为,实现对移动目标的围捕.仿真实验获得了在不同条件下的围捕结果.结果表明,环境、hunter与prey的速度关系以及prey的逃跑策略对围捕效果都有影响.  相似文献   

7.
为了实现SCADA系统的并行化、智能化,提出了一种基于多Agent技术的实现方法。该方法通过对SCADA功能模块的封装,形成了具有学习能力、推理能力、交互能力的任务Agent模型。利用系统Agent的管理功能,实现了多Agent共同协作,完成较为复杂的操作。最后,利用开操作票为例说明多Agent的协作机制。  相似文献   

8.
 机器学习中值函数需要反复更新直至其收敛是造成强化学习速度慢的根本原因.提出一种可实现批量更新值函数的学习方法,从加快值函数收敛的角度来加速强化学习.通过在训练情节中记录下从初始状态到达当前状态的状态转换序列,从中求出其它状态到达当前状态的最短状态路径,使当前状态更新的值函数可沿该最短状态路径逆序向前传播,从而实现值函数的批量更新.从在栅格环境中求最短路径的仿真试验结果看,该方法可显著提高值函数的更新频率,缩短学习时间.  相似文献   

9.
为试验和比较各种先进的群体Agent合作求解智能算法,给群体Agent合作策略提供一个比较与测试的平台,该文针对传统的测试平台过分强调具体动作实施细节,忽略合作策略重要性的问题,给出了一种基于信念愿望意图(BDI)逻辑推理的群体Agent合作求解仿真系统--MAS-Soccer. 在设计过程中简化Agent具体行为的执行细节,突出整体合作策略以及BDI逻辑推理在比赛中的重要性,并以此作为测试平台,以机器人足球赛任意球战术配合为实验内容,验证和比较了基于特征向量提取的再励学习算法与传统的再励学习算法在学习效果以及学习时间上的优劣.实验在验证算法的先进性的同时,也表明MAS-Soccer测试床能够准确和方便地进行合作策略的验证与比较.  相似文献   

10.
基于Q-学习的动态单机调度   总被引:1,自引:0,他引:1  
针对当前基于Q-学习的Agent生产调度优化研究甚少的现状,利用Q-学习对动态单机调度问题在3种不同系统目标下的调度规则动态选择问题进行了研究.在建立Q-学习与动态单机调度问题映射机制的基础上,通过MATLAB实验仿真,对算法性能进行了评价.仿真结果表明,对于不同的系统调度目标,Q-学习能提高Agent的适应能力,达到单一调度规则无法达到的性能,适合基于Agent的动态生产调度环境.  相似文献   

11.
AODE中基于强化学习的Agent协商模型   总被引:10,自引:2,他引:8  
AODE是我们研制的一个面向Agent的智能系统开发环境。AODE中基于强化学习的Agent协商模型采用Markov决策过程和连续过程分别描述系统状态变化和特定系统状态的Agent协商过程,并将强化学习技术应用于Agnet协商过程。该协商模型能够描述动态环境下的多Agent协商,模型中所有Agent都采用元对策Q-学习算法时,系统能获得动态协商环境下的最优协商解。  相似文献   

12.
交叉口是城市交通的核心和枢纽,要想有效地提升城市交通体系的通行效率,对交叉口信号配时的优化显得尤为必要。由于城市路网中大范围的信号配时方法决策属于模糊决策问题,而且路网中的车辆具有实时性,强化学习的方法可以适用于交通信号配时领域。本文把主流的Q-强化学习方法应用于干道交叉口信号配时,在每个路口以状态空间、信号周期、每个相位绿灯时间为参数建立模型,设置奖惩函数,并以车辆延误为指标,即Q函数,在相邻路口Agent的信息交换之后得出每个路口该时段的最优动作,降低了由于交叉口数量增多造成的各交叉口Agent间信息交互的次数,避免了独立强化学习可能出现的维数灾难、无法长期学习等问题。实验结果表明:基于Q-强化学习的城市干道交叉口信号配时方法相比于固定配时和传统的Q-强化学习策略,能降低车辆延误,提升收敛速度,提高系统效率。  相似文献   

13.
针对强化学习算法的状态值泛化和随机探索策略在确定性MDP系统控制中存在着学习效率低的问题,本文提出基于模型的层次化强化学习算法.该算法采用两层结构,底层利用系统模型,采用贪婪策略选择探索动作,完成强化学习任务.而高层通过对状态区域的分析,指导底层的学习,纠正底层错误的动作.高层对底层的学习的指导作用主要包括:在泛化过程中,对泛化区域中正确与错误的状态判断值分别采用不同的学习因子,减小泛化对算法收敛性的影响;建立状态区域的推理规则,用规则指导未知状态区域的学习,加快学习速度;利用系统模型和推理规则,将探索过程集中于系统的可控区域,克服采用随机探索策略需要系统全状态空间内搜索的问题.本文提出的算法能在较短的时间内实现系统的初步控制,其有效性在二级倒立摆的控制中得到验证.  相似文献   

14.
针对机器人团队协作检测与跟踪动态目标的需要,提出1种基于有限状态自动机(DFA)的复合式Agent模型。通过结合有限状态自动机的行为状态模型,对复合式Agent模型进行改进,在固定路线的动态目标跟踪实验中,对改进前后的Agent模型实际实验数据进行比较,并将该模型应用于基于区域的多机器人多目标跟踪实验中。结果表明:改进后的Agent模型通过有限状态自动机中的状态抽象,不仅从目标检测与跟踪的角度提高了Agent个体性能,还从社会的角度,提高了群体团队的协作性能;提出的模型通过行为状态模型将动作、决策等与环境信息进行了有效的分离,从而具有较好的可移植性和高扩展性;改进后的Agent模型跟踪偏差期望值与样本方差均降为改进前的一半,为实时的目标协作检测与跟踪提供了有效途径。  相似文献   

15.
描述Agent间的交互关系,提出了一种基于域的多Agent协作策略。该策略限定信息传播和共享的范围,实现Agent间负载的动态调整,它遵循就近原则,在局部范围内寻找最优的合作,协作完成子计划,从而平衡负载,降低开销,扩大分布式计算环境的处理能力,为MADCE提供了一种有效的协作策略,并给出了算法描述、评价及例示。  相似文献   

16.
通过部分可观测马尔可夫决策过程(POMDP)模型对用户意图进行建模,提出了一种基于POMDP用户意图建模的智能轮椅导航控制方法.该方法考虑了动作的不确定性和状态的部分可观测性,对用户意图、智能轮椅导航控制的动作空间进行建模,通过状态预测进而选择行为的最优规划,实现用户期望总值的最大化.首先介绍了POMDP的原理及模型,然后提出了基于POMDP用户意图的智能轮椅控制状态空间、动作空间、观察值集合、奖赏值和概率分布,进而提出了一种基于概率密度函数的用户意图求解方法.最后,对基于POMDP用户意图建模的智能轮椅导航控制进行了试验,并对试验结果进行了分析,从而验证了所提方法的实时性和有效性.  相似文献   

17.
把速度更新策略和混沌优化相结合,提出了减少速度更新频率的混沌粒子群算法. 该算法根据群体适应值的方差进行早熟收敛判断,从而使算法摆脱后期易于陷入局部最优点的束缚,同时又保持前期优秀的搜索速度的特性.通过几个基准函数测试,结果表明,新算法的性能较基本粒子群优化算法有明显的改善.  相似文献   

18.
基于免疫机理的动态函数优化算法   总被引:7,自引:0,他引:7  
基于免疫细胞在生发中心反应时的进化与学习机理,提出了一种新的动态函数优化算法.该算法模拟了多群体细胞以及细胞的多样性、再循环和免疫记忆功能,其特点是,由基群体和克隆群体产生多个搜索子群体,群体细胞的亲和度会反向调节它的变异率,产生并更新大小有限的记忆细胞池,连续检测函数是否变化.用移动峰函数作为动态环境下的测试基准,以离线误差的平均值作为算法性能的评价指标进行了仿真实验.结果表明,所提算法能够在函数变化频率不大的情况下,以较小的平均误差和方差逼近函数最优值,完成动态函数的优化任务。  相似文献   

19.
对多Agent系统的Q值强化学习算法进行研究,将历史信息因素的影响添加到Q值学习中,提出了一个新的基于多Agent系统的Q值学习算法.该算法在保证多Agent系统利益达到相对最大化的同时,也有效降低了Agent之间的冲突率.最后,通过仿真测试验证了该算法的有效性.  相似文献   

20.
随着Agent技术的发展,出现了多种基于多Agent远程协作故障诊断模型,但它们不能很好地满足实时性要求较高系统的需求,因此本文以诊断Agent为基础,构建了基于多Agent的远程协作故障诊断模型,并对模型采用了层次划分,根据各层Agent的功能,采用合同网协议对Agent间任务进行分配协作,提高了系统故障诊断速度,从而为远程故障诊断的实现提供了支持。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号