首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
在性能势理论框架内,研究折扣和平均准则马尔可夫决策过程(MDP)的统一并行Q学习算法.提出了独立并行Q学习算法和状态划分并行Q学习算法,重点讨论了算法中的关键参数的设计,即同步点如何选择的同步策略和如何合成Q因子的Q值构建策略,给出了一种固定步长结合一定偏移量的同步策略,并分析了并行中Q值构建策略的确定原则,给出了几种Q值构建策略的选择方法.仿真实验表明并行Q学习算法的有效性.  相似文献   

2.
多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法是深度强化学习方法在多智能体系统(multi-agent system,MAS)领域的重要运用,为提升算法性能,提出基于并行优先经验回放机制的MADDPG算法.分析算法框架及训练方...  相似文献   

3.
针对Boost变换器母线电压稳定控制存在模型不确定性和非线性的问题,提出了一种基于无模型深度强化学习的智能控制策略。结合强化学习DDQN(double DQN)算法与DDPG算法设计了Boost变换器控制器,包括了状态、动作空间、奖励函数以及神经网络的设计以提高控制器动态性能;基于ModelicaGym库开发工具包reinforment learning modelica(RLM)实现了Boost变换器模型与强化学习智能体的联合仿真。通过与双环PI控制器的对比仿真表明:强化学习控制器在三种工况下的母线电压稳定控制结果具有更好的动态性能。  相似文献   

4.
传统酒店动态定价研究大多考虑改进需求预测方法或考虑需求环境已知,而现实生活中需求分布通常是未知的.本文考虑需求分布未知的情境,建立基于马尔可夫决策过程的酒店客房多周期动态定价模型,并利用强化学习方法,提出基于SARSA(λ)的改进算法对客房动态定价模型进行求解.为提升算法的求解能力和收敛速度,提出了基于改进ε-greedy策略的ε-SARSA(λ)算法和基于改进模拟退火策略的ISA-SARSA(λ)算法.通过数值实验对比SARSA(λ), ε-SARSA(λ), SA-SARSA(λ)和ISA-SARSA(λ)四种算法的收益优化结果,验证了改进算法的有效性,结果显示, ISA-SARSA(λ)算法求解性能最好.  相似文献   

5.
以异构测控网资源联合调度为研究对象,提出一种基于强化学习的深度Q网络(deep Q network, DQN)算法。在充分分析异构测控资源联合调度问题特点后,用数学语言对影响问题求解的约束条件进行描述,建立了资源联合调度模型;从应用强化学习解决问题的角度,对求解的问题进行马尔科夫决策过程描述后,分别设计了2个结构相同的神经网络和基于ε贪婪算法的动作选择策略,并建立了DQN求解框架。仿真结果表明:基于DQN的异构测控资源调度方法较遗传算法能够找到调度收益更优的测控调度方案。  相似文献   

6.
针对学习未知动态的干扰图样问题,提出一种基于核函数强化学习的雷达与通信抗干扰频点协作算法。与需要获得干扰模式、参数等先验知识的研究相反,所提算法能够利用过去时隙中频点的使用情况来优化抗干扰频点分配策略。首先,通过核函数的强化学习来应对维度诅咒问题。其次,基于近似线性相关性的在线内核稀疏化方法,确保了抗干扰频点分配算法的稀疏性。最后,仿真结果验证了所提算法的有效性。得益于稀疏化码字对于系统动态特性的学习,所提算法与传统基于Q学习的抗干扰频点分配算法相比,收敛时间更短,并且可以快速规避外部未知干扰源的干扰。  相似文献   

7.
针对复杂瞬变的多用户多队列多数据中心云计算环境中作业调度困难的问题,提出一种基于深度强化学习的作业调度方法.建立了云作业调度系统模型及其数学模型,并建立了由传输时间、等待时间和执行时间三部分构成的优化目标.基于深度强化学习设计了作业调度算法,给出了算法的状态空间、动作空间和奖赏函数.设计与开发了云作业仿真调度器,完成作...  相似文献   

8.
基于马尔科夫决策过程框架研究了三维空间内隐蔽接敌策略的强化学习方法,定义了环境模型中的优势区域和暴露区域。针对高维状态空间策略学习所面临的维数灾问题,给出基于径向基神经网络(radial basis function neural network, RBFNN)的Q学习算法,说明了训练样本的分级采样方法,并针对不同情况下的接敌机动策略学习进行了仿真分析。仿真结果表明,借助于合理的分级采样方法,基于RBFNN的Q学习算法能有效生成隐蔽接敌策略。  相似文献   

9.
马军  殷保群 《系统仿真学报》2008,20(21):5903-5906
策略梯度优化算法是一种很重要的强化学习算法,对实现机器人的自主导航有着重要的应用价值.在部分可观Markov决策过程(POMDP)的基础上,实现了两个有限记忆的策略梯度优化算法:基于模型的GAMP算法和无模型的IState-GPOMDP算法,并利用该算法对机器人走迷宫的问题进行了仿真.通过分析仿真结果,对这两种算法引入了基于观测的优化;并发现在所给报酬函数下,策略梯度算法中的步长参数也在一定程度上影响着优化策略的效率.  相似文献   

10.
近年来无人潜航器对国家海洋国土安全带来的威胁逐渐增大,其低噪声特性和隐蔽入侵方式也给反潜行动带来极大困难。为此,提出了一种两阶段规划算法,用以学习优化反潜策略,在部署阶段,建立了基于不确定性马尔可夫决策过程的反潜资源分配模型,并设计了鲁棒性部署策略强化学习算法,用以求解不确定条件下分配模型的纳什均衡解。在搜索阶段,建立了基于部分可观察马尔可夫决策过程的搜潜模型,并设计了基于多智能体强化学习的搜潜策略学习算法。最后,通过仿真实验验证了本算法与比对算法相比具有更高的性能。  相似文献   

11.
魏赟  邵清 《系统仿真学报》2011,23(10):2108-2111
针对城市交通系统的动态性和不确定性,提出了基于Q-学习和粒子群算法相位差优化算法,对区域交通动态实时控制进行了研究。根据不同的交通流恃况确定不同的区域控制目标函数,捋Q-学习的类惩机制引入粒子群算法的选优过程中,通过改进的粒子群算法实时优化区域控制策略。编制该控制方法的仿真程序,应用AIMSUN仿真软件验证算法的控制效果。结果表明,该方法对不同交通量下可保持较高的控制效率,控制效果明显优于感应控制。  相似文献   

12.
针对知识化制造环境下的自适应调度问题,提出基于状态-动作不确定性偏向Q学习(state-action uncertainty bias based Q-learning,简称SAUBQ学习)的知识化制造自适应调度策略. 该策略针对传统Q学习收敛速度慢,训练时间长等问题,引入信息熵的概念定义了状态不确定性测度,据此定义了Q学习动作偏向信息函数,通过对Q学习奖励函数采用启发式回报函数设计,将动作偏向信息利用附加回报的方式融入学习系统,并证明了算法的收敛性和最优策略不变性. 在学习过程中,Q学习根据偏向信息调整搜索空间,减少了Q学习必须探索的有效状态-动作对数目,同时偏向信息根据Q学习结果不断进行调整,避免了不正确的误导. 经仿真实验比较,结果表明,该策略具有对动态环境的适应性和大状态空间下收敛的快速性,提高了调度效率.  相似文献   

13.
多功能雷达是现代电磁战场上不可或缺的重要装备, 针对多功能雷达的干扰一直是一个难题。本文在研究多功能雷达信号特点和雷达对抗过程的基础上, 提出了雷达状态联合表征的方法, 将多功能雷达的干扰决策问题建模为一个带收益的马尔可夫决策过程, 设计了认知干扰决策系统, 并通过基于Q-Learning的认知干扰决策算法求解该模型下的最佳干扰策略。通过仿真实验, 证明了基于Q-Learning的认知干扰决策算法能够在缺乏先验经验的情况下学习到最佳干扰策略, 具备“认知”的特性, 并且在不稳定的环境中也具有较强的适应性, 有效支撑了本文所提的干扰决策模型。  相似文献   

14.
武器装备体系作战仿真研究隶属于复杂系统研究范畴,首次对基于Nash-Q的网络信息体系(network information system-of-systems,NISoS)对抗认知决策行为进行探索研究。Nash-Q算法与联合Q learning算法具有类似的形式,其区别在于联合策略的计算,对于零和博弈体系作战模型,由于Nash-Q不需要其他Agent的历史信息即可通过Nash均衡的求解而获得混合策略,因此更易于实现也更加高效。建立了战役层次零和作战动态博弈模型,在不需要其他Agent的完全信息时,给出了Nash均衡的求解方法。此外,采用高斯径向基神经网络对Q表进行离散,使得算法具有更好的离散效果以及泛化能力。最后,通过NISoS作战仿真实验验证了算法的有效性以及相比基于Q-learning算法以及Rule-based决策算法具有更高的收益,并且在离线决策中表现优异。  相似文献   

15.
针对色噪声条件下的低信噪比单音信号频率估计问题,提出了一种色噪声功率谱补偿算法。该算法利用色噪声功率谱期望值的慢变特点,通过非线性滤波比较功率谱抽头与其邻域抽头均值的大小,消除色噪声功率谱起伏对频率估计的影响,进而采用极大值搜索给出频率估计。对所用非线性处理的稳定性进行了理论分析,并通过计算机仿真给出了算法估计精度,从而验证了算法的有效性。  相似文献   

16.
认知无线电和动态频谱分配技术是解决频谱资源短缺问题的有效手段。随着近年来深度学习和强化学习等机器学习技术迅速发展, 以多智能体强化学习为代表的群体智能技术不断取得突破, 使得分布式智能动态频谱分配成为可能。本文详细梳理了强化学习和多智能体强化学习领域关键研究成果, 以及基于多智能体强化学习的动态频谱分配过程建模方法与算法研究。并将现有算法归结为独立Q-学习、合作Q-学习、联合Q-学习和多智能体行动器-评判器算法4种, 分析了这些方法的优点与不足, 总结并给出了基于多智能体强化学习的动态频谱分配方法的关键问题与解决思路。  相似文献   

17.
Novel TPN control algorithm for exoatmospheric intercept   总被引:1,自引:0,他引:1       下载免费PDF全文
A novel control algorithm with fixed pulse thrust, based on true proportional navigation (TPN), is proposed for exoatmospheric intercept. According to the TPN guidance law and pulse thrust characteristics, the principle of control command is presented, the control stability and precision are analyzed. With the help of the TPN guidance law, the algorithm can automatically modulate the turn-on time and duration of the thrust, which could effectively limit the impact of measure noise of the line-of-sight (LOS) angle and rate on the interception miss-distance. At last, the number-theoretic method (NTM) is introduced to acquire the relation between control algorithm and miss-distance, even as it simulates the intercept process with initial state noise. And the reliability of the algorithm is demonstrated with the simulation result.  相似文献   

18.
基于Q学习算法的两交叉口信号灯博弈协调控制   总被引:2,自引:0,他引:2  
赵晓华  李振龙  于泉  荣建 《系统仿真学报》2007,19(18):4253-4256
Q学习和博弈论相结合解决相邻两交叉口信号灯协调控制问题。在基本Q学习算法的基础上引入博弈论,以Q值作为赢得函数建立赢得矩阵。相邻两交叉口之间的协调关系属于二人非零和合作博弈,采用Nash公理方法求得其谈判解,并以此作为Q学习策略选择的依据实现两交叉口协调控制。应用Paramics交通仿真软件进行算法仿真,结果表明该方法的有效性。  相似文献   

19.
针对人工噪声辅助的物理层安全通信系统发射信号高峰均比问题,分析了不同发射天线条件下发射信号峰均比的互补累积分布以及峰均比问题对于期望接收机通信性能的影响。在不影响系统安全性能的前提下,提出了一种基于噪声子空间旋转不变特性的峰均比优化算法,采用差分遗传算法得到了噪声子空间旋转角度的近似最优解。同时,为了降低峰均比算法工程实现的计算复杂度,给出了一种部分旋转角度的次优算法。仿真结果表明,本文提出的峰均比降低算法能有效地降低人工噪声辅助的物理层安全通信信号高峰均比特性,从而保证期望接收机的通信性能。  相似文献   

20.
IAE-adaptive Kalman filter for INS/GPS integrated navigation system   总被引:1,自引:0,他引:1  
1 .INTRODUCTIONInertial navigation system(INS) and Global posi-tioning system ( GPS) are two major navigationsystems now widely usedfor marine applications a-round the world. Considering both systems pos-sess complementary working characteristics , abooming attention is focused on finding effectivemethods to combine the two different systems toconstituteintegrated navigation system with higheraccuracy and better performance .Information likeGPS position and velocity are often chosen as…  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号