排序方式: 共有42条查询结果,搜索用时 875 毫秒
1.
基于Q学习算法的发电公司决策新模型 总被引:2,自引:0,他引:2
提出了基于Q学习的发电公司决策新模型,应用于求解发电公司在具有不完全信息的电力市场环境下为获取最优长期利润而制定的决策问题.以电力市场重复运行具有的典型Markov过程特性,应用Q学习算法构建以长期利润最优为目标的发电公司决策模型,并通过算例仿真验证了该模型的有效性.所提出的决策新模型可以根据发电公司对市场状态变化的不同预估状态转移概率模拟该公司在市场环境下的不同竞价策略,并给出不确定市场环境下的最优决策. 相似文献
2.
李琳娜 《长春工程学院学报(自然科学版)》2009,10(4):81-83
对在动态学习的环境中的IGA算法做了研究,改进了梯度方向上的步长恒定不变的不足,引入了变学习率,并介绍了调节学习率的方法——WoLF原则,加速其收敛。最后根据该方法,对Q学习算法做了改进,并通过仿真试验证明了算法的有效性。 相似文献
3.
为了提高移动机器人的自主学习能力,在传统的机器人行为控制结构基础上设计了智能控制结构,同时引入了基于神经网络的Q学习模块算法,克服了传统算法只能应用到离散状态中的不足.移动机器人的避障实验结果表明,该方法能够使移动机器人通过自学习实现自主避障. 相似文献
4.
引入谈判博弈的Q-学习下的城市交通信号协调配时决策 总被引:1,自引:1,他引:0
由于城市交通路网中交叉口间交通信号决策是相互影响的,并且车联网技术使得交叉口交通信号配时agent间能进行直接交互,此决策问题可用博弈框架来描述。建立了城市路网中相邻交叉口间交通流关联模型,通过嵌入谈判博弈模型来设计Q-学习方法,此方法中利用谈判参考点来进行配时行为的选择。仿真实验分析表明,相对于无协调的Q-学习算法,谈判博弈Q-学习取得更好的控制效果和稳定性能。谈判博弈Q-学习在处理交通拥挤及干扰交通流时,能根据交通条件灵活地改变交通信号配时决策,具有较强的适应能力。 相似文献
5.
Q-学习算法在CGF系统中的应用 总被引:1,自引:0,他引:1
CGF中的战场决策仿真十分复杂,要求CGF实体应能根据知识库做出类似人类的决策行为。目前,CGF系统中的决策模块大多是硬编码的,不能满足军用仿真发展的需求,这就要求CGF系统具有学习和自适应能力。Q-学习方法是一种特殊的增强学习方法,可以通过多次迭代计算正/负效益进行主动学习。本文介绍了Q-学习及其在CGF系统中的应用。这种较新的机器学习方法,在CGF中有着良好的应用前景。 相似文献
6.
针对Q-学习算法收敛慢、易陷入局部最优的缺陷,提出了一种基于灾变模糊Q-学习(CAS-FQL)算法的区域交通协调控制方法,即将灾变策略引入到模糊Q-学习算法的学习过程中,以提高和改进Q-学习的寻优能力和学习效率.具体是,利用CAS-FQL算法分别优化路网中各交叉口的周期和相位差,绿信比则采用常规方法优化.TSIS软件交通仿真的结果表明,相比基于Q-学习的控制方法,CAS-FQL算法能显著加快算法的收敛速度、提高交通效率. 相似文献
7.
针对学习未知动态的干扰图样问题,提出一种基于核函数强化学习的雷达与通信抗干扰频点协作算法。与需要获得干扰模式、参数等先验知识的研究相反,所提算法能够利用过去时隙中频点的使用情况来优化抗干扰频点分配策略。首先,通过核函数的强化学习来应对维度诅咒问题。其次,基于近似线性相关性的在线内核稀疏化方法,确保了抗干扰频点分配算法的稀疏性。最后,仿真结果验证了所提算法的有效性。得益于稀疏化码字对于系统动态特性的学习,所提算法与传统基于Q学习的抗干扰频点分配算法相比,收敛时间更短,并且可以快速规避外部未知干扰源的干扰。 相似文献
8.
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。 相似文献
9.
多agent协同强化学习算法SE-MACOL及其应用 总被引:4,自引:4,他引:0
针对多agent团队中各成员之间是协作关系且自主决策的学习模型,在此对Q学习算法进行了适当扩充,提出了适合于多agent团队的一种共享经验元组的多agent协同强化学习算法。其中采用新的状态行为的知识表示方法,采用相似性变换和经验元组的共享,能够提高多agent团队协同工作的效率。最后将该算法应用于猎人捕物问题域,实验结果表明该算法能够明显加快多个猎人合作抓捕猎物的进程。 相似文献
10.
遗传算法被广泛应用于求解车间作业调度问题(JSP),但遗传算法具有最优参数难以确定的问题。对此,该文提出了一种基于神经元动态规划(NDP)的遗传算法NDP-GA。该文将遗传算法用M arkov决策过程模型描述,建立了M arkov决策过程最优策略与遗传算法最优参数之间的联系。在此基础上,用神经元动态规划逼近M arkov决策过程的最优策略,并用学习到的策略指导遗传算法最优参数的选择。数值计算结果表明,该文提出的算法能自动收敛到最优遗传参数,并在求解JSP问题时能稳定地得到满意解。 相似文献