首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 46 毫秒
1.
传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信息的概念,建立了一种基于偏向信息学习的强化学习模型,并提出了一种基于特征的改进SARSA(λ)算法.针对于推箱任务的实验表明,改进的算法明显提高了学习效率.  相似文献   

2.
为解决软件定义网络(SDN)中的流量工程(TE)问题,提出了一种深度强化学习路由(DRL-Routing)算法.该算法使用较全面的网络信息来表示状态,并使用一对多的网络配置来进行路由选择,奖励函数可以调整往返路径的网络吞吐量.仿真结果表明,DRL-Routing可以获得更高的奖励,并且经过适当的训练后,能使各交换机之间...  相似文献   

3.
针对自动驾驶的轨迹跟踪问题,为实现性能优异且具有实际应用价值的控制器,文章将双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient, TD3)的深度强化学习算法应用于轨迹跟踪的横向控制。对车道线保持的应用场景进行控制器设计,首先基于TD3算法对神经网络结构及其参数进行设计,并依据人类驾驶员的行为方式定义状态空间和动作输出,使其具有较快的训练速度以及较好的控制执行效果;然后设计一种奖励函数,将跟踪精度和舒适度同时作为控制器性能的优化方向;最后,根据ISO 11270:2014(E)标准在Prescan中搭建多种使用场景进行仿真实验,验证所设计的控制器性能。通过与当前主流轨迹跟踪解决方案实验结果的对比,分别从跟踪精度和舒适度两方面证明了该控制器可以满足使用要求并且控制性能更加优异,具有的较高应用价值。  相似文献   

4.
水平集方法是求解结构拓扑优化问题中的一种有效方法,该方法主要缺陷是每隔一定时间需要重新初始化水平集函数.因此,本文提出了一种基于偏微分方程和快速步进法的初始化算法.所提出的算法能够区分任意形状的闭合曲线或曲面的内外部,改进了以往初始化算法的数值不稳定缺陷,从而使水平集方法的计算效率和稳定性有了显著的提高.最后,通过算例验证了该算法的有效性.  相似文献   

5.
经典连续 U-树算法使用分布检验来确定抽象状态的最佳分裂点,但选取合适的置信阈值非常困难.提出一种基于最优的最佳分裂点选取方法,该方法将抽象状态的最佳分裂点选取问题转化为一个最优问题,从而规避了置信阈值大小难以确定的问题,并从理论上减少了连续U-树算法的时间复杂度.通过消解协商僵局的学习任务实验验证了它的有效性,表明了算法的性能得到增强.  相似文献   

6.
基于Markov对策和强化学习的多智能体协作研究   总被引:4,自引:0,他引:4  
MAS的协作机制研究,当前比较适用的研究框架是非零和Markov对策及基于Q-算法的强化学习。但实际上在这种框架下的Agent强调独立学习而不考虑其他Agent的行为,故MAS缺乏协作机制。并且,Q-算法要求Agent与环境的交互时具有完备的观察信息,这种情况过于理想化。文中针对以上两个不足,提出了在联合行动和不完备信息下的协调学习。理论分析和仿真实验表明,协调学习算法具有收敛性。  相似文献   

7.
自动驾驶车辆决策系统直接影响车辆综合行驶性能,是实现自动驾驶技术需要解决的关键难题之一。基于深度强化学习算法DDPG(deep deterministic policy gradient),针对此问题提出了一种端到端驾驶行为决策模型。首先,结合驾驶员模型选取自车、道路、干扰车辆等共64维度状态空间信息作为输入数据集对决策模型进行训练,决策模型输出合理的驾驶行为以及控制量,为解决训练测试中的奖励和控制量突变问题,本文改进了DDPG决策模型对决策控制效果进行优化,并在TORCS(the open racing car simulator)平台进行仿真实验验证。结果表明本文提出的决策模型可以根据车辆和环境实时状态信息输出合理的驾驶行为以及控制量,与DDPG模型相比,改进的模型具有更好的控制精度,且车辆横向速度显著减小,车辆舒适性以及车辆稳定性明显改善。  相似文献   

8.
随着电动汽车的普及,对电动汽车出行规划问题的研究显得尤为重要。有别于路径规划,出行规划既需要考虑路径问题又需要考虑充电问题。本文提出了一种基于逆强化学习(Inverse Reinforcement Learning, IRL)的电动汽车出行规划(Electric Vehicle Travel Planning, EVTP)方法,有效地为电动汽车用户规划一条兼顾行驶路径短以及充电时间短的可达路径。将Dijkstra算法进行改进得到考虑充电行为的最短路径作为专家示例输入到逆强化学习算法中;利用逆强化学习算法得到兼顾行走与充电的奖励;在学习策略上,采用Dueling DQN算法高效更新Q值,提升学习性能;采用部分充电策略以及分段充电策略,提升充电效率并使研究更接近真实情况。通过对模型的工作性能和结果进行详细分析,并结合基准方法进行对比,结果表明,基于逆强化学习的电动汽车出行规划方法在行驶时间与充电时间两方面都有较好的性能,且具备很好的迁移性。  相似文献   

9.
联想强化学习是一种在不确定环境下的机器学习问题,其中学习系统的目标是为环境的每一种输入状态确定一个最佳的输出动作。文章提出一种新的连续动作学习自动机(CALA)。该自动机以一个可变区间作为动作集,并依照均匀分布方式产生输出动作。根据环境反馈的成功/失败信号,学习算法对动作区间的端点进行自适应更新。将该方法应用于求解两个经典的联想强化学习问题,仿真结果演示了新算法相对于两种现有的CALA算法的优越性。与旧算法相比,新算法的学习性能平均可提高1.9%到5.7%,最高可提高22.4%到65.2%。  相似文献   

10.
王腾  李长江 《科学技术与工程》2011,11(5):979-982,1011
从人工智能的角度上说,机器人足球比赛主要研究了多智能体系统要解决的分布的多机器人在复杂的动态环境下,如何通过相互协商完成某一复杂任务。全自主机器人足球是机器人足球发展的一个趋势,在完全未知的环境中,通过自身学习来了解和积累外部信息。对于传统强化学习,存在容易出现死锁,学习速度慢,要求外部条件是静态等缺陷。提出了一种基于蚁群算法的强化学习模型,即蚁群算法与Q学习相结合的思想。随着赛场上态势的渐趋复杂,传统的Q学习速度会变得很慢且交互困难。通过对新算法的分析,实验数据显示:新算法不仅提高了Q学习的学习速率,在解决状态空间维数的灾难问题上,也是可行的。  相似文献   

11.
从人工智能的角度上说,机器人足球比赛主要研究了多智能体系统要解决的分布的多机器人在复杂的动态环境下,如何通过相互协商完成某一复杂任务。全自主机器人足球是机器人足球发展的一个趋势,在完全未知的环境中,通过自身学习来了解和积累外部信息,对于传统强化学习,存在容易出现死锁,学习速度慢,要求外部条件是静态等缺陷。本文提出了一种基于蚁群算法的强化学习模型,即蚁群算法与Q学习相结合的思想。随着赛场上态势的渐趋复杂,传统的Q学习速度会变得很慢且交互困难。通过对新算法的分析,实验数据显示:新算法不仅提高了Q学习的学习速率,在解决状态空间维数的灾难问题上,也是可行的。  相似文献   

12.
推荐系统旨在从用户-项目的交互中进行建模,为用户推荐感兴趣的内容,从而提高用户体验.然而大多数用户-项目的序列并不总是顺序相关的,而是有更灵活的顺序甚至存在噪声.为解决这一问题,提出一种基于策略记忆的深度强化学习序列推荐算法,该算法将用户的历史交互存入记忆网络,使用一个策略网络将用户当前的行为模式更细致地划分为短期偏好...  相似文献   

13.
为了提高分类的精确度,提出一种基于粗糙集理论的增强学习型分类器。采用分割算法对训练数据集中连续的属性进行离散处理;利用粗糙集理论获取约简集,从中选择一个能提供最高分类精确度的约简。对于不同的测试数据,由于离散属性值的变化,相同的约简可能达不到最高的分类精确度。为克服此问题,改进了Q学习算法,使其全面系统地解决离散化和特征选择问题,因此不同的属性可以学习到最佳的分割值,使相应的约简产生最大分类精确度。实验结果表明.该分类器能达到98%的精确度.与其它分类器相比.表现出较好的性能。  相似文献   

14.
基于强化学习的视频车辆跟踪   总被引:2,自引:0,他引:2  
基于视频的车辆跟踪在交通监控领域有着重要的实用价值,强化学习是一种无监督的学习方法,具有搜索效率高的特性,将强化学习理论应用于视频车辆的跟踪,充分发挥了其搜索效率高的特性,实验结果表明基于强化学习的视频车辆跟踪,其跟踪情况稳定,跟踪准确率比较高,可以获得很好的跟踪效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号