共查询到20条相似文献,搜索用时 67 毫秒
1.
匝道合流区是公路、快速路、隧道等快速道路的交通瓶颈.为缓解匝道合流区的交通拥堵,基于强化学习理论中的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,提出了以匝道调节率和信号周期共同作为动作向量输入的匝道信号控制模型,该模型通过增设不定周期这一控制动作,拓展动作空间,使交通状态被模型更充分感知和学习,增加了模型的求解空间和优化能力,克服了只以固定周期为前提的动作输入致使输出方案并非最优解的问题.通过在SUMO中搭建仿真场景,测试所提出算法的有效性,并与其他算法进行了控制效果对比.结果表明,本文提出的模型C&R-DDPG可以显著提升效率和安全水平,对比无控制、ALINEA控制和只以匝道调节率为动作的控制,平均行程时间分别减少52.3%、31.6%、15.5%;平均延误分别下降66.3%、36.1%、11.5%;匝道平均排队长度分别减少30.2%、23.1%、9.1%;平均加速度平方和分别降低87.5%、77.7%、66.9%. 相似文献
2.
模型化强化学习是深度强化学习领域中的一种有效学习模式,能够缓解强化学习在实际应用中样本利用率低的瓶颈问题.然而,受环境复杂性及动态性影响,学习得到准确的状态转移环境模型极具挑战.为此,本文提出一种基于条件生成对抗网络的复杂环境中有效的模型化策略搜索强化学习方法.该方法首先利用条件生成对抗网络对环境中的状态转移函数学习,... 相似文献
3.
针对采用深度强化学习算法实现机器人路径规划任务中,训练前期随机性高导致奖励难获取问题,提出内在好奇心驱动的深度确定性策略梯度算法对连续型动作输出的端到端机器人路径规划进行研究。将环境获取的感知信息作为输入状态,输出机器人动作(线速度、角速度)的连续型控制量,在Gazebo仿真平台进行训练并验证。实验结果表明,基于内在好奇心驱动的深度确定性策略梯度路径规划算法可以较好地实现端到端的机器人路径规划,并且有利于解决训练前期奖励难获取问题,与离散型动作输出的深度Q学习网络模型进行了对比分析,结果表明本文算法决策控制效果更优越。在真实环境中进行了验证,在静态障碍和动态障碍的场景下,所提出算法可成功到达目标点。 相似文献
4.
针对欠驱动水面无人艇(USV)轨迹跟踪控制问题,提出一种基于近端策略优化(PPO)的深度强化学习轨迹跟踪控制算法.为引导控制器网络的正确收敛,构建基于长短时记忆(LSTM)网络层的深度强化学习控制器,设计了相应的状态空间和收益函数.为增强控制器的鲁棒性,生成轨迹任务数据集来模拟复杂的任务环境,以此作为深度强化学习控制器的训练样本输入.仿真结果表明:所提出的算法能有效收敛,具备扰动环境下的精确跟踪控制能力,有较大的实际应用潜力. 相似文献
5.
为模拟驾驶人记忆效应以及模糊感知特性,设计了基于模糊感知时间窗的深度学习跟驰模型。提取highD数据集跟驰轨迹,以0.2 s最小时间间隔,连续3 s本车速度、前后车速度差、车头间距的时序数据作为模型输入,模拟驾驶记忆。训练深度学习跟驰模型,得出单层32个输出维度的门控循环单元(GRU)网络可以很好拟合实际数据。在每次输入模型的时序数据中,用模型预测值替换部分真实跟驰状态值,作为驾驶员对场景的估计,即模糊感知。实验得出对同一场景的不同模糊感知,可产生不同跟驰行为,模拟了驾驶行为的异质性,可为异质交通行为仿真提供方法。 相似文献
6.
针对强化学习算法的状态值泛化和随机探索策略在确定性MDP系统控制中存在着学习效率低的问题,本文提出基于模型的层次化强化学习算法.该算法采用两层结构,底层利用系统模型,采用贪婪策略选择探索动作,完成强化学习任务.而高层通过对状态区域的分析,指导底层的学习,纠正底层错误的动作.高层对底层的学习的指导作用主要包括:在泛化过程中,对泛化区域中正确与错误的状态判断值分别采用不同的学习因子,减小泛化对算法收敛性的影响;建立状态区域的推理规则,用规则指导未知状态区域的学习,加快学习速度;利用系统模型和推理规则,将探索过程集中于系统的可控区域,克服采用随机探索策略需要系统全状态空间内搜索的问题.本文提出的算法能在较短的时间内实现系统的初步控制,其有效性在二级倒立摆的控制中得到验证. 相似文献
7.
《华中科技大学学报(自然科学版)》2015,(Z1)
以动态环境下的机器人导航为例,研究了机器人在任务复杂、物体随机出现等情形下的潜在动作预测方案.采用层次结构描述机器人的任务,提出了一种新的形式化描述模型,将潜在动作的影响范围从原子动作提升到子任务层次.提出的潜在动作预测框架集成了分层强化学习、状态抽象机制、任务图和物体属性.迷宫环境下的导航实验表明:机器人能够根据当前子任务、自身的感知能力和行为能力以及物体的动作属性来预测潜在动作,基于潜在动作的方案比传统方案的效率更高. 相似文献
8.
针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法.新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,通过拟合策略函数与状态动作值函数,生成最优策略网络.仿真实验表明,在随机初始位置/姿态... 相似文献
9.
一种自适应概率规划规则抽取算法 总被引:3,自引:0,他引:3
在已知状态迁移条件下,利用传统概率规划技术能够获得确定的规划规则,而强化学习技术能够在未知环境条件下,利用试错和奖赏函数在线学习动态环境的策略知识。因此一种自适应的概率规划规则抽取算法被提出。该算法首先在强化学习获得的最优状态-动作对值函数基础上,通过迭代得到有折扣无奖赏的值函数和无折扣无奖赏的值函数。然后通过子规划剪枝将大于指定规划步数的子规划去除,并得到子规划剪枝后的状态-动作对值函数。最后通过Beam search算法从值函数中抽取满足概率规划条件的规划知识,从而在规划模型变化的条件下。也可以获得确定的概率规划规则。实验证明,这种自适应概率规划规则抽取算法是有效的。 相似文献
10.
考虑到空空导弹对空战胜负的重要影响,针对空战态势状态特征连续、多维的情况以及传统方法缺乏对空战对抗中敌方策略的考虑,将强化学习应用到1vs1超视距空战机动决策。首先,建立了同时为对抗双方进行机动决策的强化学习框架,提出ε-纳什均衡策略来选取机动动作,并通过导弹攻击区优势函数来修正奖赏函数;其次,基于记忆库和目标网络训练Q-network,形成超视距空战机动决策的"价值网络";最后,设计了Q-network强化学习决策模型,并将机动决策过程分为了学习阶段与实战阶段。仿真结果表明:智能体可以感知空战的态势并作出合理的超视距空战机动决策。 相似文献
11.
耿德英 《大理学院学报:综合版》2006,5(5):61-64
本文修订了学习自信心、学习动机、学习责任心三个量表。用这三个量表所测量的数据与学习自控力量表得分算相关和路径分析。结果发现:①修订的学习自信心、学习动机和学习责任心量表具有一定的信度;②学习心理对学习自控具有显著的影响,而学习动机与学习责任心对学习成绩没有直接的显著性影响;这似乎可以说明:其它学习心理对学业成就的影响,需要通过行为的自我控制才能真正起作用;③学习自信心对学习成绩有显著性的影响。教学中,老师要注意培养学生学习的自信心,同时要重视把学生的学习动力转化为实际的学习行动。 相似文献
12.
吕新华 《阜阳师范学院学报(自然科学版)》2004,21(1):82-83
让学生学会学习是 2 1世纪教育的主要目标 .本文结合初中化学教学内容 ,从学生的阅读能力、学习主动性、学习能力、自我发展能力等方面总结了在日常教学中应怎样培养学生的自主学习能力 . 相似文献
13.
探讨了内隐学习理论在英语学习中的应用,包括内隐学习在英语学习中的作用;内隐学习与英语语感的培养;营造有利于内隐学习的良好环境;利用课外材料辅助英语学习等方面。 相似文献
14.
杨明哲 《大庆师范学院学报》2011,31(5):13-15
把各级党组织建设成为学习型党组织,是建设马克思主义学习型政党的基础工程。认识和分析学习型党组织建设过程中出现的各种矛盾、问题,从解决矛盾问题入手,深入推进学习型党组织建设,是马克思主义辩证唯物主义方法论的要求,也是提高党的建设科学化水平的要求。把握学习型党组织的基础性、系统性、针对性、连续性和实践性,从学习动力、内容、方法、机制、学风等五个方面入手,分析学习型党组织建设过程中的问题,研究对策,使学习型党组织建设走向科学化、制度化、规范化。 相似文献
15.
16.
Web信息提取中多策略学习算法的研究 总被引:1,自引:1,他引:1
将一种新的机器学习方法-多策略学习算法应用于Web信息提取领域,在原有的机械学习,统计学习和相关学习等三种机器学习法基础之上充分考虑各学习方法的利弊,将三者有机结合,使得结合后的新算法在提取Web信息时比结合前任一单一机器学习方法都更有效、更准确。 相似文献
17.
本文简要介绍英语自主学习(autonomous learning)能力培养的基本方法和策略,指导学生提高学习效率,使学生乐学、好学、会学。 相似文献
18.
随着网络教学的深入开展,网络学习环境建设正逐渐受到关注。强调要重视网络学习引导环境的建设,分析了网络自学学习引导环境的设计理念,构建了一个学习引导环境模型,并对其核心模.块展开讨论,旨在为促进网络学习效果的最优化提供一些建设性思路。 相似文献
19.
20.
论革除恶性竞争性学习、建立合作学习的重要性 总被引:1,自引:0,他引:1
文章分析了恶性竞争学习存在的原因,指出恶性竞争学习给学习者和社会带来的危害和不良后果,阐述了以合作学习取代恶性竞争性学习是构建和谐社会、学习型社会的迫切需要,是素质教育、人才培养的必由之路.介绍了合作学习的理念和特点. 相似文献