排序方式: 共有42条查询结果,搜索用时 46 毫秒
11.
针对柔性作业车间动态调度问题构建以平均延期惩罚、能耗、偏差度为目标的动态调度优化模型,提出一种基于深度Q学习神经网络的量子遗传算法。首先搭建基于动态事件扰动和周期性重调度的学习环境,利用深度Q学习神经网络算法,建立环境■行为评价神经网络模型作为优化模型的适应度函数。然后利用改进的量子遗传算法求解动态调度优化模型。该算法设计了基于工序编码和设备编码的多层编码解码方案;制定了基于适应度的动态调整旋转角策略,提高了种群的收敛速度;结合基于Tent映射的混沌搜索算法,以跳出局部最优解。最后通过测试算例验证了环境-行为评价神经网络模型的鲁棒性和对环境的适应性,以及优化算法的有效性。 相似文献
12.
针对城市交通系统的动态性和不确定性,提出了基于Q-学习和粒子群算法相位差优化算法,对区域交通动态实时控制进行了研究。根据不同的交通流恃况确定不同的区域控制目标函数,捋Q-学习的类惩机制引入粒子群算法的选优过程中,通过改进的粒子群算法实时优化区域控制策略。编制该控制方法的仿真程序,应用AIMSUN仿真软件验证算法的控制效果。结果表明,该方法对不同交通量下可保持较高的控制效率,控制效果明显优于感应控制。 相似文献
13.
遗传算法被广泛应用于求解车间作业调度问题(JSP),但遗传算法具有最优参数难以确定的问题。对此,该文提出了一种基于神经元动态规划(NDP)的遗传算法NDP-GA。该文将遗传算法用M arkov决策过程模型描述,建立了M arkov决策过程最优策略与遗传算法最优参数之间的联系。在此基础上,用神经元动态规划逼近M arkov决策过程的最优策略,并用学习到的策略指导遗传算法最优参数的选择。数值计算结果表明,该文提出的算法能自动收敛到最优遗传参数,并在求解JSP问题时能稳定地得到满意解。 相似文献
14.
基于Q-学习的动态单机调度 总被引:1,自引:0,他引:1
针对当前基于Q-学习的Agent生产调度优化研究甚少的现状,利用Q-学习对动态单机调度问题在3种不同系统目标下的调度规则动态选择问题进行了研究.在建立Q-学习与动态单机调度问题映射机制的基础上,通过MATLAB实验仿真,对算法性能进行了评价.仿真结果表明,对于不同的系统调度目标,Q-学习能提高Agent的适应能力,达到单一调度规则无法达到的性能,适合基于Agent的动态生产调度环境. 相似文献
15.
针对传统的动态频谱接入方案一般没有考虑自主性,不具备普适性这一缺点,提出了一种基于双动作Q学习算法DAQL(double action Q-learning)的频谱接入方案,该方案将DAQL引入到多授权用户存在的环境下频谱接入问题中,用以降低接入未知频谱环境时的冲突概率。仿真结果表明,提出的方案与随机接入方案相比,不但有更小的冲突概率,而且能动态适应环境的变化,适合认知无线电的需要。 相似文献
16.
17.
针对大规模认知无线电网络中协同频谱感存在的感知时间长、能量消耗过多、缺乏自适应能力等问题,提出了一种基于分簇协同的Q-学习频谱感知算法.该算法利用分簇机制,把大规模的环境变成小规模的簇内环境,分簇后簇内采用协同Q-学习,通过代理在与环境交互过程中不断试错来确定频谱检测的最佳门限值,使系统具有自主学习的能力.实验结果表明:大规模环境下系统的检测性能有显著提高. 相似文献
18.
为了提高空天地一体化车载网络(space-air-ground integrated vehicular networks, SAGVN)内用户的网络服务质量体验, 解决不同网络间相互协同的问题, 提出了面向用户需求的SAGVN任务分配策略。基于用户信号强度、时延、网络费用和带宽需求, 利用效用函数理论和层次分析法(analytic hierarchy process, AHP), 构建用户需求和满意度描述框架。将网络任务分配过程抽象为半马尔可夫决策过程(semi Markov decision process, SMDP), 根据用户需求和网络状态, 利用价值迭代算法获得整体用户满意度最大的网络任务分配策略, 利用Q-learning算法得到近似最优策略。实验表明, 相较于传统策略, 所提策略整体用户满意度提高超过30%;在网络拥塞的环境下, 可以有效降低对网络服务需求迫切用户服务请求的拒绝率。 相似文献
19.
针对知识化制造环境下的自适应调度问题,提出基于状态-动作不确定性偏向Q学习(state-action uncertainty bias based Q-learning,简称SAUBQ学习)的知识化制造自适应调度策略. 该策略针对传统Q学习收敛速度慢,训练时间长等问题,引入信息熵的概念定义了状态不确定性测度,据此定义了Q学习动作偏向信息函数,通过对Q学习奖励函数采用启发式回报函数设计,将动作偏向信息利用附加回报的方式融入学习系统,并证明了算法的收敛性和最优策略不变性. 在学习过程中,Q学习根据偏向信息调整搜索空间,减少了Q学习必须探索的有效状态-动作对数目,同时偏向信息根据Q学习结果不断进行调整,避免了不正确的误导. 经仿真实验比较,结果表明,该策略具有对动态环境的适应性和大状态空间下收敛的快速性,提高了调度效率. 相似文献
20.
由于天地一体化网络的计算资源受限、能力迥异等问题,会导致其处理复杂任务的能力减弱,使得重要的任务处理失败.因此,本文构建了一种将任务卸载到本地-骨干-边缘接入节点的三层计算卸载开销模型,并通过基于DQN的最优卸载算法进行最优卸载策略的制定.首先,依据网络中存在的天基骨干节点、边缘接入节点以及地基骨干节点三种类型计算节点(卸载站点)自身的特点,给出了不同卸载站点的时延、能耗的开销表达式以及对应的约束条件. 然后,提出了基于DQN算法来完成低时延、低能耗的卸载过程.仿真结果表明,DQN算法能够提高任务执行的速度,降低终端设备的能耗,有效改善网络中计算节点资源迥异的现状. 相似文献