首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 578 毫秒
1.
多无人机对动态目标的围捕是无人机集群作战中的重要问题.针对面向动态目标的集群围捕问题,通过分析基于MADDPG算法的围捕机制的不足,借鉴Google机器翻译团队使用的注意力机制,将注意力机制引入围捕过程,设计基于注意力机制的协同围捕策略,构建了相应的围捕算法.基于AC框架对MAD-DPG进行改进,首先,在Critic网络加入Attention模块,依据不同注意力权重对所有围捕无人机进行信息处理;然后,在Actor网络加入Attention模块,促使其他无人机进行协同围捕.仿真实验表明,Att-MAD-DPG算法较MADDPG算法的训练稳定性提高8.9%,任务完成耗时减少19.12%,经学习后的围捕无人机通过协作配合使集群涌现出更具智能化围捕行为.  相似文献   

2.
针对传统目标跟踪算法过分依赖环境模型的问题,提出了一种基于分布式纳什Q学习的多传感器协同目标跟踪算法.分析了强化学习与分布式纳什Q学习算法的原理;描述了多传感器的协同跟踪态势,建立了离散系统的非线性模型,给出了传统的扩展卡尔曼滤波解决方法;定义了对分布式纳什Q学习性能影响至关重要的传感器行为和奖惩函数,奖惩函数通过计算预测误差方差阵的迹得到;采用基于贝叶斯推理的概率统计方法解决了Q函数的更新问题.纯方位量测信息的被动跟踪仿真结果表明,相比于传统滤波算法,该算法增强了传感器对环境变化的适应性,实现了对目标的有效跟踪,提高了跟踪精度.  相似文献   

3.
研究由能量收集发射节点、目的节点和窃听节点组成的能量收集通信系统中,以最大化平均保密传输速率为目标的发送功率控制问题.在环境状态信息事先未知,且系统模型中信道系数、电池电量、收集的能量连续取值的场景下,提出一种基于深度Q网络(deep Q network,DQN)的、仅依赖于当前系统状态的在线功率分配算法.将该功率分配问题建模为马尔科夫决策过程;采用神经网络近似Q值函数来解决系统状态有无限多种组合的问题,通过深度Q网络求解该决策问题,获得仅依赖于当前信道状态和电池状态的功率控制策略.仿真结果表明,相比较随机功率选择算法、贪婪算法和Q学习算法,提出的算法能获得更高的长期平均保密速率.  相似文献   

4.
针对不确定环境的规划问题,提出了基于预测状态表示的Q学习算法.将预测状态表示方法与Q学习算法结合,用预测状态表示的预测向量作为Q学习算法的状态表示,使得到的状态具有马尔可夫特性,满足强化学习任务的要求,进而用Q学习算法学习智能体的最优策略,可解决不确定环境下的规划问题.仿真结果表明,在发现智能体的最优近似策略时,算法需要的学习周期数与假定环境状态已知情况下需要的学习周期数大致相同.  相似文献   

5.
刘艳秋  龚荣 《科技信息》2011,(6):411-413
在二维受限环境中,研究多机器人对移动目标的协作围捕问题,结合追捕者与逃逸者的相对位姿,对多机器人围捕的初始状态条件进行划分,针对多机器人群体规模、速度、成功围捕条件进行讨论,并对目标机器人的逃逸策略和围捕机器人的围捕策略进行协调性动态调整,提出了采用夹角最大原则的逃逸策略,确定了迎面对角阻截与虚拟势点相结合的围捕策略。课题对分别将新提出的逃逸策略和围捕策略与原有逃逸策略和围捕策略相比较进行仿真实验,结果表明所提出的动态调整策略的有效性。  相似文献   

6.
基于神经网络的强化学习在避障中的应用   总被引:5,自引:0,他引:5  
为了提高移动机器人的自学习能力,在基于行为控制结构的基础上设计了智能控制结构,该结构引入了强化学习模块.神经网络具有很好的泛化能力,该文提出了基于神经网络的强化Q学习算法,克服了表格式Q学习算法只能应用到离散的状态中并需要大量存储空间的不足,最后结合智能控制结构应用到移动机器人的避障中.实验结果表明,该方法能够使移动机器人通过自学习实现自主避障.  相似文献   

7.
深度Q神经网络算法的值函数迭代算法大多为Q学习算法,这种算法使用贪婪值函数作逼近目标,不利于深度Q神经网络算法获得长期来看更好的策略。通过以期望思想求解的期望值函数取代贪婪值函数作为更新目标,提出了基于期望值函数的离策略深度Q神经网络算法,并结合DQN算法神经网络更新方法,给出期望值函数能够作用于DQN算法的解释。通过使用该算法能够快速获得长期回报较高的动作和稳定的策略。最后分别在CarPole-v1和Acrobot仿真环境中对期望值函数的离策略深度Q神经网络算法和深度Q神经网络算法进行获取策略的稳定性对比实验,结果表明,基于期望值函数的离策略深度Q神经网络算法能够快速获得长期回报较高的动作,并且该算法表现更为稳定。  相似文献   

8.
基于Q学习算法的发电公司决策新模型   总被引:2,自引:0,他引:2  
提出了基于Q学习的发电公司决策新模型,应用于求解发电公司在具有不完全信息的电力市场环境下为获取最优长期利润而制定的决策问题.以电力市场重复运行具有的典型Markov过程特性,应用Q学习算法构建以长期利润最优为目标的发电公司决策模型,并通过算例仿真验证了该模型的有效性.所提出的决策新模型可以根据发电公司对市场状态变化的不同预估状态转移概率模拟该公司在市场环境下的不同竞价策略,并给出不确定市场环境下的最优决策.  相似文献   

9.
传统的Q学习已被有效地应用于处理RoboCup中传球策略问题,但是它仅能简单地离散化连续的状态、动作空间。文章提出一种改进的Q学习算法,提出将神经网络应用于Q学习,系统只需学习部分状态—动作的Q值,即可进行Q学习,有效的提高收敛的速度。最后在RoboCup环境中验证这个算法,对传球成功率有所提高。  相似文献   

10.
为了降低多机器入围捕中的通信量,提高多机器人系统对未知环境的适应性,提出了一种基于模糊控制协调策略的多自主机器入围捕方法.围捕机器人根据感知范围内同伴和目标的分布,从L模糊控制器、R模糊控制器和M模糊控制器中选取合适的一个用以控制和最邻角同伴之间的夹角,进而实现多机器人之间的局部协调,结合基于局部感知的目标跟踪,在围捕...  相似文献   

11.
This paper presents temporal memory reinforcement learning for the autonomous micro-mobile robot based-behavior. Human being has a memory oblivion process, i.e. the earlier to memorize, the earlier to forget, only the repeated thing can be remembered firmly. Enlightening forms this, and the robot need not memorize all the past states, at the same time economizes the EMS memory space, which is not enough in the MPU of our AMRobot. The proposed algorithm is an extension of the Q-learning, which is an incremental reinforcement learning method. The results of simulation have shown that the algorithm is va|id.  相似文献   

12.
针对标准Q学习收敛较慢的缺点,采用多步Q学习算法,为解决连续过程的学习问题,采用CMAC神经网络对连续状态空间进行泛化,讨论了基于CMAC的多步Q学习算法应用于导航系统的实现方法,并与其他方法进行仿真比较,结果了表明了该算法的有效性。  相似文献   

13.
李涛  张春泽  但云峰  赵旭 《科学技术与工程》2022,22(32):14392-14400
鱼类自主游动的模拟问题一直是仿生学、鱼类行为学以及生态水力学等诸多学科共同关注的重要难题。作者建立了一种基于流固耦合数值模拟技术与深度强化学习算法的智慧鱼体自主行为决策平台,可以实现鱼体在不同周围环境条件下以最优决策方案完成游泳任务。该平台采用深度强化学习算法实现鱼脑功能,模拟其不断学习和最终决策;通过浸没边界-Lattice Boltzmann方法对流场及鱼体运动进行实时模拟,可为鱼体提供丰富的训练样本并执行鱼脑决策。基于该平台对鱼类典型捕食运动以及卡门游动进行训练并分析其训练效果。仿真结果表明,在捕食游动问题中,具有不同初始位置偏角的鱼体均能以最优轨迹到达目标点;在卡门游动问题中,鱼体能自主调节尾拍频率,使之接近涡街脱落频率,进而从卡门涡场中吸收能量,以稳定步态在涡街中运动。在鱼类自主游动问题的研究方面,该决策平台较传统物理实验具有更强大的复杂流场适应性,并可为水利工程、生态环境工程等领域的数字孪生提供技术支持。  相似文献   

14.
基于激光雷达的移动机器人实时避障策略   总被引:5,自引:0,他引:5  
以激光雷达为主要传感器, 对移动机器人设计一种实时避障算法. 该算法考虑到机器人的非完整约束, 利用基于圆弧轨迹的局部路径规划和控制使之能够以平滑的路径逼近目标位置. 采用增强学习的方法来优化机器人的避障行为, 利用激光雷达提供的报警信息形成刺激-反应式行为, 实现了动态环境下避障行为, 具有良好的实时反应能力. 该控制算法采用分布式软件设计方法, 各功能模块异步运行, 较好地实现了局部规划与全局导航目标的结合. 该策略针对移动机器人MORCS在未知环境下实现了实时、有效避障, 动作稳定流畅, 轨迹平滑, 具有良好的效果.  相似文献   

15.
张萌  吴产乐  叶刚 《科学技术与工程》2014,14(10):247-249,256
移动结构化存储问题一直以来是移动PC产品研究的热点问题。为了更好地处理移动计算环境下断接等问题,采用多元连接的查询优化算法进行了设计。首先在理论上设计了改进算法在并行连接操作的优势及特点,同时利用Socket实现了移动Agent和服务器Agent的网络通信;并完成了移动环境下的无线网络模拟平台设计。实验结果表明改进算法传送到指定站点的集中装配消耗时间显著减少,在表属性列限制条件较多时,改进算法的总代价与普通算法相比明显要少,并行连接最多时改进的算法可以确保总代价最小。研究对移动数据存储的稳定性改进具有一定的意义。  相似文献   

16.
针对移动自组织网络的QoS路由问题,提出一种结合Q学习和改进蚁群算法的QoS路由算法,该算法综合Q学习和蚁群算法的优点,把Q学习算法的Q值作为蚁群算法的初始信息素,提高了算法初期的收敛速度,同时在路径选择时综合考虑节点的能量和负载.仿真实验表明,该算法在保证QoS需求的前提下,增加了路由的有效性和鲁棒性,降低了能耗,包投递率、网络生存时间等指标均较好.  相似文献   

17.
为解决 Q 学习算法易陷入局部最优解问题, 改进了传统贪婪策略, 提出了一种分段渐近搜索策略。该策略通过动态调整策略参数, 使 Q 学习算法在学习过程中实现探索鄄学习鄄利用 3 个阶段的渐近跳转。 同时将该搜索策略应用于 Q 学习算法中, 使改进的 Q 学习算法能更快速地逼近全局最优解。 将改进算法应用于机械臂轨迹规划中, 其仿真结果表明, 该算法能稳定地引导机械臂沿最优轨迹快速到达目标位置。  相似文献   

18.
针对煤矿井下无线安全保障系统的无线信道链路质量问题,基于经验加权吸引策略,提出具有信道切换机制的信道选择算法。在时间轴上建立反映信道繁忙和空闲不同状态时间段的模拟无线信道环境,与Q学习在实时信道选择轨迹和不同级别的信道切换次数进行对比,结果表明,经验加权吸引策略在优选信道快速捕获的准确性和稳定性方面更具优势。  相似文献   

19.
移动机器人路径规划的一种改进蚁群算法   总被引:4,自引:0,他引:4  
提出了一种复杂静态环境下的移动机器人避碰路径规划的改进蚁群算法。基于栅格法的工作空间模型,模拟蚂蚁觅食行为,并针对移动机器人的路径规划的需要,将一些特殊功能赋予常规的蚁群算法。为了避免移动机器人的路径死锁,在路径搜索过程中,当蚂蚁探索到一个死角时,建立了相应的死角表,同时用惩罚函数来更新轨迹强度。仿真研究表明:该算法能明显改善路径规划性能,并且算法简单有效。  相似文献   

20.
为了使广大学习者能够更好的使用移动式学习方式,设计了基于Android操作系统的远程教学系统。使用了一种轻量级的H.264解码方式,利用JSON方式和网络服务器进行数据交互,可在使用Android操作系统的智能手机和平板电脑上使用,学习者可以随时随地的利用智能手机及平板电脑等便携设备进行移动式学习,能够方便的使用高校公开课资源,具有课程选择、课程下载、在线答疑和在线测试等功能。研究中使用的轻量级H.264算法是从FFMpeg开源库中移植的,具有较好的较好的编解码效率和稳定性。设计的移动学习平台软件实现部分已经在国家版权局登记注册,其具有良好的经济性和可操作性,为移动学习和使公众能更好的利用高校教学资源提供了一种解决方案。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号