首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 484 毫秒
1.
交互式动态影响图(I-DIDs)是不确定环境下多Agent序贯决策的图模型.该模型突破传统基于公共知识的纳什均衡点的假设,使得该模型具备解决大规模动态决策问题的能力,具有更为广泛的应用前景.在总结、分析动态影响图研究成果的基础上,针对多Agent的I-DIDs状态空间随时间片的增长呈指数级增长问题,提出了基于行为等价和动作等价的两种新型算法并进行算法分析;此外,探讨应用I-DIDs模型解决自动小车存取系统中的路径规划、避免环路死锁问题,扩展了I-DIDs的应用范围.  相似文献   

2.
交互式动态影响图是一种以动态影响图为基础,利用有向图构造Agent之间交互作用的决策概率模型,目前只能解决2个Agent的问题.根据概率图模型理论、交互式部分可观测马尔可夫决策过程性质、最大奖励期望值原理等以3个Agent为例建立多Agent交互式动态影响图(I-MADIDs)模型,探讨除建模Agent之外,其他非建模Agent之间存在稳定关系时,如何简化I-MADIDs模型.最后对老虎问题进行建模,利用HUGIN7.0对其进行求解,分别讨论了建模A-gent和其他Agent的决策情况,对比了精确方法和简化模型中贝叶斯参数学习近似方法中Agent的决策情况,证明了近似方法的有效性.  相似文献   

3.
AODE中基于强化学习的Agent协商模型   总被引:10,自引:2,他引:8  
AODE是我们研制的一个面向Agent的智能系统开发环境。AODE中基于强化学习的Agent协商模型采用Markov决策过程和连续过程分别描述系统状态变化和特定系统状态的Agent协商过程,并将强化学习技术应用于Agnet协商过程。该协商模型能够描述动态环境下的多Agent协商,模型中所有Agent都采用元对策Q-学习算法时,系统能获得动态协商环境下的最优协商解。  相似文献   

4.
影响图是决策问题的图形表示,它是在贝叶斯网络基础上增加了决策结点和效用结点。文章讨论了影响图理论在多Agent建模与决策方面的应用;提出了联合分层影响图和动态贝叶斯网络来实现多Agent的实时决策的方法,该方法已在Robcup球员建模和决策方面初步得到应用。  相似文献   

5.
针对机器人团队协作检测与跟踪动态目标的需要,提出1种基于有限状态自动机(DFA)的复合式Agent模型。通过结合有限状态自动机的行为状态模型,对复合式Agent模型进行改进,在固定路线的动态目标跟踪实验中,对改进前后的Agent模型实际实验数据进行比较,并将该模型应用于基于区域的多机器人多目标跟踪实验中。结果表明:改进后的Agent模型通过有限状态自动机中的状态抽象,不仅从目标检测与跟踪的角度提高了Agent个体性能,还从社会的角度,提高了群体团队的协作性能;提出的模型通过行为状态模型将动作、决策等与环境信息进行了有效的分离,从而具有较好的可移植性和高扩展性;改进后的Agent模型跟踪偏差期望值与样本方差均降为改进前的一半,为实时的目标协作检测与跟踪提供了有效途径。  相似文献   

6.
多Agent系统中任务分配问题的分析与建模   总被引:5,自引:0,他引:5  
针对多Agent系统(MAS)内外环境变化所产生的不确定性和任务分配序列决策的要求,利用马尔科夫决策过程(MDP)模型对MAS中的动态任务分配问题进行了分析和建模.其中,状态空间由各Agent的当前负载和待分配的任务组成,每一状态下有多种任务分配方案,利用迭代方法可以获得最佳的任务分配方案以实现系统长期收益最大化的目标.仿真实验表明,MDP模型可以合理地模拟MAS中任务分配的运作过程,并在小规模环境下方便地获取最优任务分配策略.  相似文献   

7.
语义Web服务是在分布式环境下构建复杂系统的一种新兴技术。该文阐述了语义Web的核心概念和多Agent系统的主要特点,在此基础上,提出了基于语义Web的多Agent系统的体系模型,并探讨了该结构对于构建开放的、动态的、异构的多Agent系统所具有的优越性。  相似文献   

8.
结合前瞻搜索思想提出了一种判断模型近似行为等价的方法,首先通过比较候选模型的部分解(即策略树)判断模型近似行为等价,然后自上而下对近似行为等价模型进行快速聚类和修剪,利用代表模型将交互式动态影响图扩展成为平铺动态影响图,最后求解平铺动态影响图.算法减少了候选模型的存储空间和运行时间,提高了算法的效率.最后通过多Agent老虎问题及音乐会问题的实验验证了该方法的有效性.  相似文献   

9.
提出了一个基于自组织多Agent系统的智能控制与决策模型,它是一种基于行为主义的智能控制与决策模型,由环境和自组织多Agent系统两大部件构成,分别通过环境的定义、环境的识别、多Agent控制与决策过程以及多Agent控制与决策输出4个基本步骤来完成建模工作.该模型可以灵活地选择多种算法进行具体的实现工作,文中给出的算法是一种基于作用力机制(物理激励)的多Agent控制与决策算法,该算法是通过模仿经典物理学理论中的万有引力定律,将多Agent系统中的自组织交互过程转化为相互的作用力,并通过交互作用力的大小和方向体现多Agent之间的交互机制,充分利用了多Agent系统的群体决策优势.测试实验结果表明,该模型具有较好的应用效果并且其系统能量在Agent数目为300、迭代次数超过80次时具有稳定性.  相似文献   

10.
研究了电子商务环境下Agent之间的谈判问题,基于动态的谈判环境提出了一个算法,使应用该算法的Agent可以在谈判中调整自己的策略,从而在谈判中快速达成协议.从形式上定义了一个具有适应性的谈判模型并将其影射为一个马尔可夫决策过程.  相似文献   

11.
针对多M-POM DP问题(多A gen t部分可观察M arkov决策问题)中存在的动作空间搜索量随A gen t个数呈指数倍增长的问题,该文给出了一种基于A gen t依赖关系的划分算法,在满足收益可分解的条件下,将A gen t集合按动作依赖关系分为几组。在固定了一些A gen t的策略后,剩下的A gen t只依赖于自己组内的A gen t的动作,从而变为一个比较独立的决策问题,降低求解问题的复杂度。通过实验,证明了这种方法可以减少A gen t搜索空间,从而提高求解效率。  相似文献   

12.
提出了一种基于multi-agent的半导体生产线动态调度方法。首先建立了MAS仿真模型,包括管理、投料、工件和设备4种agent;然后设计了工件agent与设备agent的动态调度协商机制,以工件最小加权延迟为决策指标,分别考虑设计了单片/卡加工设备与批加工设备agent的报价算法。此外,还考虑了二次协商机制用于解决设备突然故障对生产线的影响。基于实际半导体生产线模型对所提出方法进行了仿真验证,并与一些常用的调度规则进行了比较,仿真结果表明,在平均加权延迟和准时交货率等指标上,该文提出的方法均有较大的提高。  相似文献   

13.
针对可伸缩视频流在无线通信中的数据包调度问题,提出了一种基于部分可观测马尔可夫决策过程(POMDP)的决策调度策略,在用户状态不确定或部分可观测条件下,采用POMDP建立了完整的最优化调度模型,以实现视频接收质量的最佳化.仿真实验结果表明,与传统的调度算法相比,该方法有效提高了视频流的平均峰值信噪比(PSNR).随着调度规模的扩大,其性能能够逐渐逼近用户状态完全确定的理想马尔可夫决策过程(MDP)模型.  相似文献   

14.
以具有需求不确定性和两阶段销售特点的一类易逝品为研究对象,针对需求受零售商销售努力影响的市场运作环境,运用随机动态规划方法对供应链节点企业的决策行为进行了建模分析。研究了供应链企业间采用成本分担的收入共享契约来协调供应链,使得供应链整体的绩效达到最优的问题。  相似文献   

15.
在状态部分可观测的金融市场中,研究了投资活动终止时间不确定的多阶段均值-方差投资组合选择问题。假定市场存在有限个不可观测状态,利用离散时间时变隐Markov链描述不可观测状态的变化过程;无风险资产在各个阶段的收益率依赖于可观测市场状态;风险资产在各阶段的收益率同时依赖于可观测和不可观测市场状态。通过构造充分统计量,部分信息下的投资组合选择问题等价地转化为了完全信息下的优化问题。再利用动态规划方法和拉格朗日对偶原理,得到了最优资产组合策略和有效边界的解析表达式。  相似文献   

16.
面向动态联盟协商支持系统的研究   总被引:2,自引:0,他引:2  
基于一种半集中式的协商控制策略,提出一个面向动态联盟的协商过程模型,按时间将协商过程划分为协商准备,协商进行及事后处理三个主要阶段。并在此模型上构建了一个基于CORBA标准和DMAS(分布式多Agent系统)技术的协商系统框架。盟员企业的推理,决策和协商功能以Agent形式进行封装,多方协商由多个分布式Agent实现。而不同环境下Agent之间的通信是通过构建在CORBA平台上的组件来实现。为实现动态联盟盟员企业之间的协商提供了一个可行的解决方案。  相似文献   

17.
长成冻时间的深部调驱剂是以 HPAM为主的复配聚合物 ,由树脂交联剂 1 0 3交联形成的 .由冻胶强度级别的划分定性地测定成冻时间和突破真空度的方法定量测定冻胶强度 .评价了不同聚合物、交联剂及矿化度在不同温度下的成冻时间及强度 ,并作出了成冻时间及强度等值图 .结果表明 :成冻时间在 1~ 3 0 d范围内可调 ,强度 (即 p BV值 )在 - 0 .0 6 0~ - 0 .0 3 0 MPa范围内可调 .由成冻时间和强度等值图可找出具体地层条件下的不同成冻时间及不同强度调驱剂配方  相似文献   

18.
为分布式视频点播(video on demand,VOD)接入控制建立了基于POMDP(部分可观Markov决策过程)的数学模型,应用策略梯度优化算法仿真求解模型的最优策略.仿真结果表明,基于POMDP模型的仿真有效地缩短了仿真时间;与传统分布式系统的接入控制方法相比,更合理地利用了系统的资源,可以给运营商带来更大的效益.  相似文献   

19.
针对传统的周期性频谱感知机制对空闲频谱机会的有效利用率不高,且与主用户碰撞概率较大等问题,在多用户协作感知场景下,提出了一种优化型自适应感知调度(OASS)算法.利用部分可观测马尔可夫决策过程理论,将自适应感知调度建模为决策优化控制问题,当每个时隙开始时,从频谱感知、数据传输、休眠等待、信道切换4种可选策略中选择最优策...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号