首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
深度Q神经网络(deep Q-network,DQN)算法在训练初期,由于动作选择随机性强,导致算法的训练时间过长。针对该问题,文章提出一种结合先验知识的深度Q神经网络(priori knowledge-DQN,PK-DQN)算法,将先验知识定义为特征状态与最优动作的映射,根据先验知识对动作选择过程的影响程度,将先验知识引入DQN算法,优化DQN算法的动作选择规则,降低其在探索过程中的动作选择随机性,并使用赛车游戏对算法进行训练。实验结果表明,PK-DQN算法能够更快收敛,有较高的学习效率,算法训练时长明显缩短。  相似文献   

2.
基于规划规则的激励学习偏差研究   总被引:1,自引:0,他引:1  
在实际动态系统中,经典无启发知识的激励学习算法收敛非常慢,因此必须采用某种偏差技术加速激励学习的收敛速度.已有激励学习偏差算法,通常先验地给出启发知识,这与激励学习的思想相矛盾.通过在初次激励学习获得的策略知识中,先抽取满足条件的规划知识,然后将规划知识作为启发知识,进一步指导后继激励学习.实验结果显示这种学习技术能有效加快算法收敛速度,并适用于动态复杂环境.  相似文献   

3.
基于先验知识的强化学习系统   总被引:2,自引:0,他引:2  
针对强化学习算法收敛速度慢的主要原因为强化学习算法所用模型通常都假设系统参数未知、先验知识未知,由此造成该算法从没有任何基础开始搜索最优策略,搜索范围大的问题,提出将强化学习系统建立在先验知识的基础上,既有效利用了前人的工作成果,又加快了算法的收敛速度.通过解决电梯群控问题验证了所提出系统的合理性和有效性.  相似文献   

4.
为了提升移动机器人在室内环境下的全局重定位效率与准确性,提出一种基于环境语义信息的重定位增强方法。首先按照房间结构将室内环境分为若干子区域,并获取各子区域内常见物体信息,建立子区域物体类别表。在机器人被绑架后,通过深度学习检测识别方法与区域匹配来完成机器人粗定位,以此作为粒子滤波器的先验知识,然后通过粒子滤波算法的观测更新和迭代收敛完成机器人精定位。实验结果表明,本文方法有效提高了机器人被绑架后重定位的准确度与粒子收敛速度。  相似文献   

5.
采用双层强化学习的干扰决策算法   总被引:2,自引:0,他引:2  
为解决强化学习算法在干扰决策过程中收敛速度慢的问题,提出了一种采用双层强化学习的干扰决策算法(DRLJD)。首先对等效通信参数进行建模,模型减少了待学习参数的个数,降低了搜索空间的维度;然后利用降维后的搜索空间指导干扰参数选择,避免随机选择导致干扰性能差的缺点;最后利用选择的干扰参数施加干扰,并根据环境反馈进一步降低搜索空间的维度,通过不断交互的方式加快算法的收敛速度。此外,将以往的干扰经验以先验信息的形式加入到系统的学习进程中,进一步缩短了系统的学习时间。针对构造的干扰问题实验表明,DRLJD算法经过200次交互便学习到优异的干扰策略,小于现有算法所需600次交互,且先验信息的利用进一步降低了对交互次数的要求。以提出的新的奖赏标准作为奖赏依据,算法能够在未知通信协议情况下以牺牲交互时间为代价学习到最佳干扰策略。  相似文献   

6.
通过分析K2,BIC,AIC和IM等方式的原理,改进K2算法,在不考虑先验知识的基础上,创建了新的基于隐式网络的打分函数取代了原有算法的评分规则,实现贝叶斯网络结构学习.仿真实验结果表明,针对标准数据集学习,隐式法的贝叶斯网络学习算法在没有先验知识的条件下和依赖先验知识的基于BDe评分的K2算法相比收敛速度和准确率有一...  相似文献   

7.
传统的深度强化学习算法在解决任务时与环境交互量大且样本复杂度高,导致智能体的训练时间长,算法难以收敛,故在实际问题中的应用受限.针对该问题,在智能体采用梯度下降方法更新模型参数的过程中融入元学习思想,提出一种改进的深度强化学习算法,使得智能体利用在训练任务中学习到的先验知识快速地适应新任务.仿真结果表明:改进的深度强化学习算法可实现智能体在新任务上的快速适应,其收敛速度和稳定性等均优于传统算法.  相似文献   

8.
收敛速度是衡量机器学习算法的一个重要指标,在强化学习中,如果算法不充分利用从每次学习中获取的经验知识,算法的收敛速度则比较缓慢;为了提高强化学习的收敛速度,文章将环境模型的学习引入到强化学习过程中,首先学习环境模型,然后根据所得的新模型重新指导强化学习过程,在Linux下的RoboCup仿真平台上对该算法进行了验证,实验结果证明了其有效性.  相似文献   

9.
将认知概念引入雷达电子对抗,可使干扰系统在动态对抗过程中通过自主学习,确定最具针对性的干扰策略,实现动态高效干扰.在认知雷达对抗概念和内涵讨论基础上,设计了基于Q-学习算法的雷达对抗过程,总结了认知对抗实现中的关键技术难点,最后对过程的具体实现进行了仿真,验证了雷达认知对抗中Q值的收敛过程以及先验知识对算法性能的改善情况.   相似文献   

10.
传统的Q学习已被有效地应用于处理RoboCup中传球策略问题,但是它仅能简单地离散化连续的状态、动作空间。文章提出一种改进的Q学习算法,提出将神经网络应用于Q学习,系统只需学习部分状态—动作的Q值,即可进行Q学习,有效的提高收敛的速度。最后在RoboCup环境中验证这个算法,对传球成功率有所提高。  相似文献   

11.
针对Q-学习算法收敛慢、易陷入局部最优的缺陷,提出了一种基于灾变模糊Q-学习(CAS-FQL)算法的区域交通协调控制方法,即将灾变策略引入到模糊Q-学习算法的学习过程中,以提高和改进Q-学习的寻优能力和学习效率.具体是,利用CAS-FQL算法分别优化路网中各交叉口的周期和相位差,绿信比则采用常规方法优化.TSIS软件交通仿真的结果表明,相比基于Q-学习的控制方法,CAS-FQL算法能显著加快算法的收敛速度、提高交通效率.  相似文献   

12.
不可测过程参数的智能化软计算方法及应用   总被引:2,自引:0,他引:2  
为解决控制系统中存在的时变过程数学建模困难,有些过程参数难以在线实时检测的问题,研究基于过程神经元网络的不可测过程参数软计算方法。分析正交基函数展开的学习算法收敛速度慢的问题,将BP网络的改进算法引入到过程神经元网络的训练中,增加基函数展开系数的规一化处理、权函数动量项调整项,以及学习率自适应调整方法,改进算法明显消除了误差收敛曲线振荡和网络收敛速度慢的问题。该方法在污水处理过程出水水质BOD预测中网络训练速度快,取得较好的预测结果,是一种不可测过程参数智能化软计算的有效方法。  相似文献   

13.
This paper presents the multi-step Q-learning (MQL) algorithm as an autonomic approach to the joint radio resource management (JRRM) among heterogeneous radio access technologies (RATs) in the B3G environment. Through the "trial-and-error" on-line learning process, the JRRM controller can converge to the optimized admission control policy. The JRRM controller learns to give the best allocation for each session in terms of both the access RAT and the service bandwidth. Simulation results show that the proposed algorithm realizes the autonomy of JRRM and achieves well trade-off between the spectrum utility and the blocking probability comparing to the load-balancing algorithm and the utility-maximizing algorithm. Besides, the proposed algorithm has better online performances and convergence speed than the one-step Q-learning (QL) algorithm. Therefore, the user statisfaction degree could be improved also.  相似文献   

14.
针对柔性作业车间动态调度问题构建以平均延期惩罚、能耗、偏差度为目标的动态调度优化模型,提出一种基于深度Q学习神经网络的量子遗传算法。首先搭建基于动态事件扰动和周期性重调度的学习环境,利用深度Q学习神经网络算法,建立环境■行为评价神经网络模型作为优化模型的适应度函数。然后利用改进的量子遗传算法求解动态调度优化模型。该算法设计了基于工序编码和设备编码的多层编码解码方案;制定了基于适应度的动态调整旋转角策略,提高了种群的收敛速度;结合基于Tent映射的混沌搜索算法,以跳出局部最优解。最后通过测试算例验证了环境-行为评价神经网络模型的鲁棒性和对环境的适应性,以及优化算法的有效性。  相似文献   

15.
为克服前向过程神经网络收敛速度慢、精度低的问题,提出了一种改进的双并联动态过程神经网络,对于给定的全连接的过程神经网络,通过优化其连接权值和网络结构,删除冗余连接使之成为部分连接的过程神经网络系统,并给出了基于正交基函数展开的学习算法,从而降低了计算的成本。改进的双并联动态过程神经网络应用于旅游预测问题,结果表明其预测精度能够满足工程需要。  相似文献   

16.
引入谈判博弈的Q-学习下的城市交通信号协调配时决策   总被引:1,自引:1,他引:0  
由于城市交通路网中交叉口间交通信号决策是相互影响的,并且车联网技术使得交叉口交通信号配时agent间能进行直接交互,此决策问题可用博弈框架来描述。建立了城市路网中相邻交叉口间交通流关联模型,通过嵌入谈判博弈模型来设计Q-学习方法,此方法中利用谈判参考点来进行配时行为的选择。仿真实验分析表明,相对于无协调的Q-学习算法,谈判博弈Q-学习取得更好的控制效果和稳定性能。谈判博弈Q-学习在处理交通拥挤及干扰交通流时,能根据交通条件灵活地改变交通信号配时决策,具有较强的适应能力。  相似文献   

17.
针对双周期干线信号协调控制中干线协调与双周期交叉口通行效率存在一定矛盾的问题,提出了一种基于改进Q学习的双周期干线信号协调控制方法,从状态空间和动作空间两个方面对Q学习算法进行了改进。首先,提出了新的交通状态描述指标——排队消散指数,依据该指标的阈值对交通状态进行等级划分,降低了Q学习状态空间的维数。其次,综合考虑相邻交叉口交通状态之间的关联和影响,针对每种系统状态分别设定可行的关联动作,降低了Q学习的动作空间。最后,以北京市两广路为例验证了改进的Q学习算法。结果表明,改进Q学习算法相比于普通Q学习算法、固定配时方案,干线平均延误分别减少10.47%、9.93%,平均停车次数分别减少22.64%、7.96%,双周期交叉口平均延误分别减少21.58%、24.96%,平均停车次数分别减少8.51%、11.64%,表明该算法对减少双周期干线延误,降低停车次数具有较为显著作用。  相似文献   

18.
冉宁 《科技信息》2012,(5):98-99
针对传统神经网络学习算法中存在的收敛速度慢、容易陷入局部最优等缺点,设计了基于标准粒子群算法(SPSO)的神经网络非线性函数拟合系统。将神经网络中的权值看作一个粒子,通过粒子之间的竞争与合作以完成网络的学习过程。仿真结果表明,基于SPSO的神经网络学习算法在收敛速度、辨识精度等方面要优于传统的BP神经网络。  相似文献   

19.
智能电表能够实时采集、计算、存储和传输电力数据,对智能电网的运转起着关键性的作用.配备储能设备的智能家居是智能电表的一种重要的应用场景,它的发展面临隐私数据泄露隐患和高用电成本2个问题,需要研究两者的权衡优化策略.系统模型考虑了2种不同类型的储电设备,并建立了电表数据泄露和用电成本量化的权衡模型.考虑到传统深度强化学习存在过度估计和收敛慢的缺陷,提出一种基于竞争双深度Q学习的储能电器功率分配方法,实现了性能优化的目标.仿真结果表明,对比传统的深度Q学习和双深度Q学习方法,所提方法在隐私保护和成本控制2方面能获得更好的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号