首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 19 毫秒
1.
深度Q神经网络算法的值函数迭代算法大多为Q学习算法,这种算法使用贪婪值函数作逼近目标,不利于深度Q神经网络算法获得长期来看更好的策略。通过以期望思想求解的期望值函数取代贪婪值函数作为更新目标,提出了基于期望值函数的离策略深度Q神经网络算法,并结合DQN算法神经网络更新方法,给出期望值函数能够作用于DQN算法的解释。通过使用该算法能够快速获得长期回报较高的动作和稳定的策略。最后分别在CarPole-v1和Acrobot仿真环境中对期望值函数的离策略深度Q神经网络算法和深度Q神经网络算法进行获取策略的稳定性对比实验,结果表明,基于期望值函数的离策略深度Q神经网络算法能够快速获得长期回报较高的动作,并且该算法表现更为稳定。  相似文献   

2.
针对采用深度强化学习算法实现机器人路径规划任务中,训练前期随机性高导致奖励难获取问题,提出内在好奇心驱动的深度确定性策略梯度算法对连续型动作输出的端到端机器人路径规划进行研究。将环境获取的感知信息作为输入状态,输出机器人动作(线速度、角速度)的连续型控制量,在Gazebo仿真平台进行训练并验证。实验结果表明,基于内在好奇心驱动的深度确定性策略梯度路径规划算法可以较好地实现端到端的机器人路径规划,并且有利于解决训练前期奖励难获取问题,与离散型动作输出的深度Q学习网络模型进行了对比分析,结果表明本文算法决策控制效果更优越。在真实环境中进行了验证,在静态障碍和动态障碍的场景下,所提出算法可成功到达目标点。  相似文献   

3.
分布式能源系统凭借其高效、环保、经济、可靠、和灵活等特点成为我国能源未来发展的重要方向。目前我国的很多分布式能源系统经济效益较差,主要原因是能源系统没有良好的运行策略。本文提出一种基于深度强化学习的分布式能源系统运行优化方法。首先,对分布式能源系统的各个设备进行数学建模。深入阐述了强化学习的基本原理、深度学习对强化学习的结合原理及一种基于演员评论家算法的分布式近端策略优化(Distributed Proximal Policy Optimization, DPPO)算法流程,将分布式能源系统运行优化问题转化为马尔可夫决策过程(Markov decision process,MDP)。最后采用历史的数据对智能体进行训练,训练完成的模型可以实现对本文的分布式能源系统的实时优化,并对比了深度Q网络(Deep Q Network, DQN)算法和LINGO获得的调度策略。结果表明,本文提出的基于DPPO算法的能源系统调度优化方法较DQN算法和LINGO得到的结果运行费用分别降低了7.12%和2.27%,可以实现能源系统的经济性调度。  相似文献   

4.
研究由能量收集发射节点、目的节点和窃听节点组成的能量收集通信系统中,以最大化平均保密传输速率为目标的发送功率控制问题.在环境状态信息事先未知,且系统模型中信道系数、电池电量、收集的能量连续取值的场景下,提出一种基于深度Q网络(deep Q network,DQN)的、仅依赖于当前系统状态的在线功率分配算法.将该功率分配问题建模为马尔科夫决策过程;采用神经网络近似Q值函数来解决系统状态有无限多种组合的问题,通过深度Q网络求解该决策问题,获得仅依赖于当前信道状态和电池状态的功率控制策略.仿真结果表明,相比较随机功率选择算法、贪婪算法和Q学习算法,提出的算法能获得更高的长期平均保密速率.  相似文献   

5.
基于强化学习,设计了一个面向三维第一人称射击游戏(DOOM)的智能体,该智能体可在游戏环境下移动、射击敌人、收集物品等.本文算法结合深度学习的目标识别算法Faster RCNN与Deep Q-Networks(DQN)算法,可将DQN算法的搜索空间大大减小,从而极大提升本文算法的训练效率.在虚拟游戏平台(ViZDoom)的两个场景下(Defend_the_center和Health_gathering)进行实验,将本文算法与最新的三维射击游戏智能体算法进行比较,结果表明本文算法可以用更少的迭代次数实现更优的训练结果.  相似文献   

6.
汽车自动变道需要在保证不发生碰撞的情况下,以尽可能快的速度行驶,规则性地控制不仅对意外情况不具有鲁棒性,而且不能对间隔车道的情况做出反应.针对这些问题,提出了一种基于双决斗深度Q网络(dueling double deep Q-network, D3QN)强化学习模型的自动换道决策模型,该算法对车联网反馈的环境车信息处理之后,通过策略得到动作,执行动作后根据奖励函数对神经网络进行训练,最后通过训练的网络以及强化学习来实现自动换道策略.利用Python搭建的三车道环境以及车辆仿真软件CarMaker进行仿真实验,得到了很好的控制效果,结果验证了本文算法的可行性和有效性.  相似文献   

7.
针对高速公路场景中无人驾驶车的换道决策问题,提出一种基于竞争结构的双深度Q网络(DDQ N)的无人车换道决策模型.在深度Q网络的基础上,将无人车动作的选择和评估分别用不同的神经网络来实现,并将Q网络分为仅与状态S相关的价值函数和同时与状态S和动作A相关的优势函数两部分,使得Dueling DDQ N模型可以更好地理解外...  相似文献   

8.
针对正交频分复用的多蜂窝网络系统,提出了一种基于深度强化学习的通信资源分配算法,该算法在满足资源分配高速率、低延时要求的前提下,同时产生信道分配方案和功率控制方案,从而最大化系统的能量效率。首先,在确定好基于正交频分复用的多蜂窝网络系统模型的基础上,将最大化能量效率的约束优化问题同深度Q强化学习算法进行问题映射。其次,将构建的深度Q神经网络(DQN)的多个隐藏层作为状态值函数,用以输出信道分配方案和功率控制方案,并实时与外界环境保持交互,不断迭代更新网络参数用以最大化系统能量效率。通过仿真对比实验可得,所提出的深度强化学习算法在保证低计算时延的同时,可获得接近于或高于其他算法的系统能量效率,且蜂窝网络规模越大,该算法优势越突出。  相似文献   

9.
网络中的资源分配问题一直备受关注,特别是在超高清视频流的传输中,对资源的有效管理至关重要。然而,随着网络服务的多样化和不断增加的业务类型,传统的资源分配策略往往显得不够灵活和智能。深度Q网络(Deep Q-Network,DQN)是一种能够自适应地学习和调整资源分配策略的神经网络模型。它基于神经网络与Q-Learning算法,通过不断尝试和学习来决策最佳的资源分配方案。本文旨在研究一种在云演艺场景下基于深度Q网络的延迟敏感业务资源调度算法,以满足当今网络中多样化的业务需求。仿真结果表明,基于深度Q网络的延迟敏感业务资源调度算法使得用户体验质量(Quality of Experience)指标显著提升,表明所提算法能够更好地满足延迟敏感业务的需求。  相似文献   

10.
针对求解无线传感器网络目标覆盖问题过程中存在的节点激活策略机理不明确、可行解集存在冗余等问题,提出一种基于深度Q学习的目标覆盖算法,学习无线传感器网络中节点的调度策略.首先,算法将构建可行解集抽象成Markov决策过程,智能体根据网络环境选择被激活的传感器节点作为离散动作;其次,奖励函数从激活节点的覆盖能力和自身剩余能量考虑,评价智能体选择动作的优劣.仿真实验结果表明,该算法在不同规模的网络环境下均有效,网络生命周期均优于3种贪婪算法、最大寿命覆盖率算法和自适应学习自动机算法.  相似文献   

11.
针对传统识别算法对信号的先验知识要求较高、人工特征提取复杂、低信噪比环境下识别率较低等问题,提出了一种基于时序卷积网络(TCN)的卷积码参数识别方法.引入了深度学习算法处理盲识别问题,依据卷积码的马尔可夫性,将码字作为时间序列处理,把己知类型的编码序列作为时序卷积网络模型的输入进行监督学习,根据训练好的模型对接收端接收...  相似文献   

12.
文章研究了多用户上行传输过程毫米波大规模多输入多输出(multi-input and multi-output,MIMO)系统的波束选择问题,提出了一种基于深度学习的波束选择方法。针对使用透镜的多用户毫米波大规模MIMO上行传输过程,提出一种面向波束选择的深度学习框架,通过信道数据预先对神经网络进行离线训练,然后将实测信号输入训练好的神经网络在线预测信道直达径对应的波束,从而实现波束选择;基于该深度学习框架制定了具体的训练细则,采用柔性最大值交叉熵函数作为损失函数,使用自适应矩估计优化器优化神经网络参数。仿真结果表明,该文提出的基于深度学习的波束选择方法优于现有的正交匹配追踪方法。  相似文献   

13.
基于过程神经网络与气动热力参数的航空发动机状态监视   总被引:2,自引:0,他引:2  
采用前馈过程神经网络方法预测发动机排气温度,讨论了网络输入输出参数的选择问题,基于正交基函数简化了前馈过程神经网络的聚合运算,提出了从前馈过程神经网络向传统前馈神经网络网络模型的转化方法,基于传统前馈神经网络先验知识给出了学习算法,进行了网络训练及仿真,取得了满意的结果。  相似文献   

14.
为了缓解车联网中个体车辆计算资源配置过低而导致的任务处理时延较大的问题,提出了一种移动边缘计算(mobile edge computing, MEC)架构下的动态任务卸载策略和资源分配方案。以最小化全网任务处理时延为目标,将车联网中的任务卸载和资源分配问题建模为马尔可夫决策过程(Markov decision process, MDP),并利用深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法进行了问题求解。仿真结果表明,与执行者-评价者(actor-critic, AC)和深度Q网络(deep Q-network, DQN)这2种算法相比,DDPG算法以最快的算法收敛特性获得最小的全网任务处理时延。  相似文献   

15.
提出一种基于深度学习和光场成像的火焰三维温度场快速重建算法.该算法利用卷积神经网络对火焰光场图像进行深层特征提取,建立了光场图像与三维温度场之间的映射关系,从而实现火焰三维温度场的快速重建;利用视在光线法构建了火焰光场图像和三维温度场数据集,对卷积神经网络进行训练,利用测试集对训练结果进行了验证和评价,并将卷积神经网络算法与传统非负最小二乘(NNLS)算法的重建结果进行了对比.结果 表明,基于深度学习和光场成像的火焰三维温度场重建算法可准确重建火焰温度场,同时具有较高的计算效率(火焰的网格划分为10×8×15,NNLS算法的重建时间为4759 s,深度学习算法的重建时间为830 μs),平均相对误差为0.14%,且对于图像噪声具有良好的鲁棒性.  相似文献   

16.
深度交叉网络(DCN)因无法针对不同的数据集准确设置超参数,导致点击率预估模型无法达到最优解。基于此,提出粒子群优化深度交叉神经网络推荐算法(PSO-DCN),该算法通过使用粒子群优化算法的全局搜索特性,对深度交叉神经网络层数及每层神经元个数进行全局搜索,并将其最优值放入DCN模型中运行进行参数优化。在不同的数据集上,进行数次实验对比,实验结果表明PSO-DCN在模型训练速度以及测试集上的表现都较优于当前流行的基于深度学习框架的推荐算法。  相似文献   

17.
基于神经网络增强学习算法的工艺任务分配方法   总被引:1,自引:0,他引:1  
在任务分配问题中,如果Markov决策过程模型的状态-动作空间很大就会出现"维数灾难".针对这一问题,提出一种基于BP神经网络的增强学习策略.利用BP神经网络良好的泛化能力,存储和逼近增强学习中状态-动作对的Q值,设计了基于Q学习的最优行为选择策略和Q学习的BP神经网络模型与算法.将所提方法应用于工艺任务分配问题,经过Matlab软件仿真实验,结果证实了该方法具有良好的性能和行为逼近能力.该方法进一步提高了增强学习理论在任务分配问题中的应用价值.  相似文献   

18.
针对传统推荐算法不能很好地适应数据高规模及高稀疏性的问题,结合深度学习数据建模的方法,提出了一种结合二次多项式回归与神经网络(QPR-NN)的推荐算法。在对已有特征提取方法缺陷分析的基础上,利用二次多项式回归模型将用户对物品的评分数据进行特征提取及降维,充分挖掘了用户与物品之间的相关性。将特征提取后的数据作为深度学习训练模型的输入,增加输入数据与训练模型之间的匹配度,并将训练得到的模型用于推荐评分预测。在MovieLens与Epinions两组数据集上的实验结果表明:QPR特征提取方法与QPR-NN推荐算法在平分绝对误差与均方根误差评价指标上均优于现有的主流算法,QPR-NN推荐算法可以有效提升推荐准确率。  相似文献   

19.
使用深度神经网络处理计算机视觉问题时,在新任务数据量较少情况下,往往会采用已在大数据集上训练好的模型权值作为新任务的初始权值进行训练,这种训练方式最终得到的模型泛化能力更好.对此现象,传统解释大多只是基于直觉分析而缺少合理的数学推导.本文将深度神经网络这种网络结构不变下层间的学习转为深度神经网络内部的迁移能力,并将学习过程变化形式化到数学表达式.考虑数据集对训练过程带来的影响,利用信息几何分析方法,确定不同数据集流形之上的度量和联络,实现不同数据集之间的嵌入映射,同时将参数空间的变化也放入流形空间,探究其对学习过程的共同影响,最终实现对这种内部迁移现象的数学解释.经过分析和实验验证可得内部迁移过程其实是一种能使网络可以在更广空间进行最优搜索的变化,有利于模型可以在学习过程中获得相对的更优解.  相似文献   

20.
针对目标识别需求,对基于神经网络的深度学习方法展开研究。由于深度学习模型中包含了对数据的先验假设,因此人工设计神经网络需要领域内专家丰富的先验知识,且具有劳动密集与时间成本高的缺点。为了获得超越专家个人经验、表现更好的网络,采用一种可微神经结构搜索的高效结构搜索方法,将搜索空间放宽为连续的空间,然后通过梯度下降来优化体系结构的验证集性能,从而找到面向目标识别的最优神经网络结构。仿真实验结果表明,将基于神经网络结构搜索的目标识别方法应用于"低慢小"类目标识别是可行的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号