共查询到19条相似文献,搜索用时 109 毫秒
1.
2.
电动汽车存在充电时间长、行驶距离有限的问题。针对电池交换的充电方式,研究了电动汽车电池交换站及电池配置问题。利用生灭过程理论描述了交通走廊沿线电池交换站的电池交换及其充电过程,建立了换电站运作的随机模型;进而以电动汽车换电成功概率等为约束,建立了以建设成本最小化为目标的充电设施规划模型,并基于拉格朗日方法提出了模型求解算法。研究结果表明,所建立的模型不仅能够计算换电成功概率,还能分析换电成功概率、充电技术进步的影响,实现了满足电动汽车换电成功概率的约束条件下的建设成本最小化的交换站及电池配置。 相似文献
3.
4.
5.
共享电动汽车作为公共交通手段的新兴选择及其所具有的广阔前景与市场,研究其出行数据和出行规律具有重要意义。针对具有代表性的特定路段(特大城市郊区主道路口),采集共享电动汽车实际出行数据,设计了一种基于实际场景筛选提取有效数据的方法,并通过对有效数据的研究揭示了共享电动汽车相关的出行特征情况。在此基础上,实地摄录采集并统计了基本交通数据,针对早晚高峰和其他时间搭建了路口的仿真模型,设计了预测路口和路段共享电动汽车的最大出行量的方法,完成了仿真预测实验,在一定程度上验证了共享电动汽车出行特征的分析结果。研究结果对分时租赁公司相关运营策略具有指导意义,并可为用户出行时间及路线提供选择。 相似文献
6.
基于强化学习,设计了一个面向三维第一人称射击游戏(DOOM)的智能体,该智能体可在游戏环境下移动、射击敌人、收集物品等.本文算法结合深度学习的目标识别算法Faster RCNN与Deep Q-Networks(DQN)算法,可将DQN算法的搜索空间大大减小,从而极大提升本文算法的训练效率.在虚拟游戏平台(ViZDoom)的两个场景下(Defend_the_center和Health_gathering)进行实验,将本文算法与最新的三维射击游戏智能体算法进行比较,结果表明本文算法可以用更少的迭代次数实现更优的训练结果. 相似文献
7.
为了有效识别工业网络环境中由多条异常数据共同组合的新型攻击,提出了一种基于深度强化学习的融合模型DQN-LSTM.该模型将流量数据的空间特征和时序特征相结合,展开异常检测.在公开的工控网络天然气工厂数据集上进行实验,DQN-LSTM模型在准确率和F1值上与SVM、CNN、LSTM、DQN等方法相比,本文模型的综合性能更好. 相似文献
8.
强化学习和规划技术在目标上有着很高的相似性,而在技术上又具有互补性,因此,基于强化学习的Agent规划规则抽取问题长期以来一直是研究的热点。针对基于强化学习的多Agent系统在规划规则抽取方面存在的问题,提出了一种从多Agent Q学习中抽取满足规划条件的规划规则的RL—MAPRE算法,并给出了理论分析。 相似文献
9.
强化学习是通过对环境的反复试探建立起从环境状态到行为动作的映射。利用人工神经网络的反馈进行权值的调整,再与高学习效率的并行强化学习算法相结合,提出了基于人工神经网络的并行强化学习的应用方法,并通过实验仿真验证了迭代过程的收敛性和该方法的可行性,从而有效地完成了路径学习。 相似文献
10.
研究了行动-自适应评价强化学习方法,考虑到行动器所采取的探索策略对学习性能的影响,利用混合探索策略进行探索;分析学习和规划的特点,在评价器中应用集成模型学习和无模型学习的学习方法,在行动器应用新的混合探索策略,提出一种集成规划的行动-自适应评价强化学习算法并进行仿真实验,实验结果表明,新算法有较好的学习效果. 相似文献
11.
基于强化学习的视频车辆跟踪 总被引:2,自引:0,他引:2
基于视频的车辆跟踪在交通监控领域有着重要的实用价值,强化学习是一种无监督的学习方法,具有搜索效率高的特性,将强化学习理论应用于视频车辆的跟踪,充分发挥了其搜索效率高的特性,实验结果表明基于强化学习的视频车辆跟踪,其跟踪情况稳定,跟踪准确率比较高,可以获得很好的跟踪效果。 相似文献
12.
基于神经网络增强学习算法的工艺任务分配方法 总被引:1,自引:0,他引:1
在任务分配问题中,如果Markov决策过程模型的状态-动作空间很大就会出现"维数灾难".针对这一问题,提出一种基于BP神经网络的增强学习策略.利用BP神经网络良好的泛化能力,存储和逼近增强学习中状态-动作对的Q值,设计了基于Q学习的最优行为选择策略和Q学习的BP神经网络模型与算法.将所提方法应用于工艺任务分配问题,经过Matlab软件仿真实验,结果证实了该方法具有良好的性能和行为逼近能力.该方法进一步提高了增强学习理论在任务分配问题中的应用价值. 相似文献
13.
针对采用深度强化学习算法实现机器人路径规划任务中,训练前期随机性高导致奖励难获取问题,提出内在好奇心驱动的深度确定性策略梯度算法对连续型动作输出的端到端机器人路径规划进行研究。将环境获取的感知信息作为输入状态,输出机器人动作(线速度、角速度)的连续型控制量,在Gazebo仿真平台进行训练并验证。实验结果表明,基于内在好奇心驱动的深度确定性策略梯度路径规划算法可以较好地实现端到端的机器人路径规划,并且有利于解决训练前期奖励难获取问题,与离散型动作输出的深度Q学习网络模型进行了对比分析,结果表明本文算法决策控制效果更优越。在真实环境中进行了验证,在静态障碍和动态障碍的场景下,所提出算法可成功到达目标点。 相似文献
14.
为解决现有的巡逻路径规划算法仅仅能够处理双人博弈和忽略攻击者存在的问题,提出一种新的基于多agent的强化学习算法.在给定攻击目标分布的情况下,规划任意多防御者和攻击者条件下的最优巡逻路径.考虑到防御者与攻击者选择策略的非同时性,采用了Stackelberg强均衡策略作为每个agent选择策略的依据.为了验证算法,在多个巡逻任务中进行了测试.定量和定性的实验结果证明了算法的收敛性和有效性. 相似文献
15.
一种集成规划的SARSA(λ)强化学习算法 总被引:2,自引:0,他引:2
提出一种新的集成规划的SARSA(λ)强化学习算法.该算法的主要思想是充分利用已有的经验数据,在无模型学习的同时估计系统模型,每进行一次无模型学习的试验后,利用模型在所记忆的状态/行动对组成的表中进行规划,同时利用该表给出了在学习和规划之间的量化折中参考.实验结果表明,本算法比单纯的无模型学习SARSA(λ)算法有效. 相似文献
16.
本文基于海量OBD数据,通过对车辆在限行日以及非限行日的车辆出行率变化、车辆的OD点变化、车辆的出行距离变化以及车辆的出行时段分布这几个方面展开分析,以探索城市限行措施对小汽车出行行为特征的影响。分析结果表明,在限行日样本车辆的出行率不足非限行日50%,其中35%的样本车辆不在限行日出行。出行距离的平均数及中位数对比非限行日减少了40%,通过对一周出行距离的计算,在这一周内限行措施使得北京市五环内路网平均每日减少13%的普通小汽车的车辆行驶里程。限行日的短距离出行频次占比也高于非限行日(44% vs 32%)。此外,部分车辆在限行日呈现“早出晚归”的出行特征以规避限行。这一点在具有通勤特征的车辆群体中表现的尤为明显,在限行日有41%出行频次发生在非限行时段,且“晚归”的比例远高于“早出”,由此也导致限行时段结束时(20:00)出现一个明显的车辆启动的高峰。 相似文献
17.
在复杂障碍物环境中的轨迹规划方法是电动汽车智能辅助驾驶技术的一个重要研究内容.为了使得电动汽车能够在高速行驶工况下平稳转向行驶,提出了一种基于改进遗传算法的轨迹优化方法.本文基于五次多项式进行轨迹规划,用改进遗传算法对五次多项式的参数进行优化,使得规划轨迹满足车辆的动力学约束条件,从而使得优化后轨迹具有更强的可行性.实车实验结果表明,优化后轨迹比优化前轨迹能够更好地满足动力学约束条件,优化效果明显,车辆在高速行驶工况下按照优化轨迹行驶能够进行平稳转向行驶. 相似文献
18.
基于智能体 (Agent)系统强化学习原理和基于动态规划的Q -学习算法的基础上 ,提出了一种新的Agent强化学习算法 .该算法在Agent学习过程中不断调整Agent知识库的加权值 ,在强化学习的每个阶段 ,通过选取合适的信度分配函数来修正Agent强化学习动作的选取策略 .与标准的Q -学习方法相比 ,具有更加合理的物理结构 ,并且能保证算法收敛 .仿真实验说明该方法加快了标准Q -学习算法的收敛速度 ,具有较好的学习性能 相似文献
19.
集装箱码头装船时堆场翻箱具有时序性与动态性,属于NP(non-deterministic polynomial)难问题。针对常见的顺岸式集装箱码头堆场,以最小化总翻箱次数为优化目标,考虑翻箱对装船连续性及效率的影响,基于马尔科夫决策过程构建装船时堆场翻箱模型,设计逆向强化学习算法。为验证算法的有效性,以随机决策为基准,将设计的逆向强化学习算法与码头常见规则决策、随机决策对比。结果表明,贝位堆存状态不佳时,常见的规则决策不一定优于随机决策;逆向强化学习算法可有效挖掘隐含专家经验,收敛至最小翻箱次数的概率更高,且不同堆存状态下均能更好地限制单次发箱的翻箱次数,可实现装船时堆场翻箱智能决策。 相似文献