首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
基于主动禁忌搜索的配电网无功电压优化控制   总被引:11,自引:0,他引:11  
提出将主动禁忌搜索(RTS)算法用于配电网无功电压优化控制问题的求解.首先根据已知的负荷预测曲线,用一种启发式方法为RTS提供可行初始解.在利用RTS算法的求解过程中,使用了反馈机制,可自动调节禁忌表长度,结合逃逸策略,可以使搜索有效地跳出局部极小点,更好地找到最优解.通过算例验证了该算法的有效性.与传统的禁忌搜索(TS)算法、遗传算法(GA)以及模拟退火(SA)算法进行了比较,算例结果表明,RTS算法求得的解质量更高,求解速度更快,比GA和SA算法至少提高了一倍.  相似文献   

2.
针对现有空间众包中的任务分配大多只考虑单边、 短期利益和单一场景的问题, 提出一种基于多智能体深度强化学习的空间众包任务分配算法. 首先定义一种新的空间众包场景, 其中工人可以自由选择是否与他人合作; 然后设计基于注意力机制和A2C(advantage actor-critic)方法的多智能体深度强化学习模型进行新场景下的任务分配; 最后进行仿真实验, 并将该算法与其他最新的任务分配算法进行性能对比. 仿真实验结果表明, 该算法能同时实现最高的任务完成率和工人收益率, 证明了该算法的有效性和鲁棒性.  相似文献   

3.
面向高速公路多路段可变限速协同控制需求,针对高维参数空间高效训练寻优难题,提出了应用多智能体深度确定性策略梯度(MADDPG)算法的高速公路可变限速协同控制方法。区别于既有研究的单个智能体深度确定性策略梯度(DDPG)算法,MADDPG将每个管控单元抽象为具备Actor-Critic强化学习架构的智能体,在算法训练过程中共享各智能体的状态、动作信息,使得各智能体具备推测其余智能体控制策略的能力,进而实现多路段协同控制。基于开源仿真软件SUMO,在高速公路典型拥堵场景对提出的控制方法开展管控效果验证。实验结果表明,提出的MADDPG算法降低了拥堵持续时间和路段运行速度标准差,分别减少69.23 %、47.96 %,可显著提高交通效率与安全。对比单智能体DDPG算法,MADDPG可节约50 %的训练时间并提高7.44 %的累计回报值,多智能体算法可提升协同控制策略的优化效率。进一步,为验证智能体间共享信息的必要性,将MADDPG与独立多智能体DDPG(IDDPG)算法进行对比:相较于IDDPG,MADDPG可使拥堵持续时间、速度标准差均值的改善提升11.65 %、19.00 %。  相似文献   

4.
复杂环境中的多智能体强化学习   总被引:3,自引:0,他引:3  
提出在机器人足球这样的复杂、动态的环境中使用强化学习的方式与问题 ,阐述了强化学习的实现及如何处理机器学习中的常见问题 ,即延迟奖赏、探索与利用、不完整信息等 ,同时探讨了减少复杂性的若干措施 .  相似文献   

5.
随着化石能源等不可再生能源的逐渐消耗,针对光伏、风电以及生物质等可再生新能源进行研究,探索了一种基于虚拟同步机(VSG)的主动配电网电压控制方式,并对提出的设计进行了仿真分析,对虚拟同步机(VSG)对主动配电网电压的有效性进行了验证.结果表明,提出的基于VSG的电压调节方式,不仅能够较好的对新能源出力波动进行抑制,降低对主动配电网电压的影响,还能改善并网逆变器无阻尼与惯性小的缺点.  相似文献   

6.
为了提高伺服系统瞬态性能,满足工业生产线的高精度加工要求,提出模糊自适应深度强化学习方法,用于永磁同步电机伺服系统的控制性能优化。根据伺服系统瞬态运行的响应快速性和稳定性要求,通过构造奖励函数与Actor-Critic网络,在伺服控制器中引入瞬态响应优化环节,面向实时运算需求设计学习率自适应模糊控制器,构建模糊自适应瞬态性能优化方法;建立伺服系统Simulink仿真模型,根据实际伺服系统拟合仿真模型,通过瞬态性能仿真获得优化参数,并将优化参数应用于西门子840D数控系统。以仿真运算及系统实验对该优化方法进行验证,结果表明,所提出方法使伺服系统调节时间缩短10%以上,显著提高了系统的瞬态响应速度,且未引入明显超调,验证了方法的可行性。提出的方法具有较强的通用性,为伺服系统智能控制优化提出了新的途径。  相似文献   

7.
主动配电网是在分布式电源发展的环境下使配电网更安全、可靠、经济运行的一个重要方案,是智能电网中的重要一环,国内外学者都提出了很多关键技术.从主动配电网规划接入、主动配电网的控制、故障恢复和负荷管控四方面展开阐述了主动配电网关键技术的研究现状,然后比较了其优缺点,最后介绍了应用展望.  相似文献   

8.
9.
针对智能移动终端设备的资源有限性和未来网络架构需要云边协同能力等问题,提出了一种基于多智能体强化学习的任务卸载策略,通过部署Cybertwin智能体为用户设备所需卸载的任务合理分配资源,在保证终端设备的服务质量(QoS)要求的同时,最小化整个计算网络的总成本。首先联合设计Cybertwin智能服务代理、计算任务分配以及网络通信与算力等多维异构资源配置构建随机对策的马尔可夫博弈过程(MGP),使执行总延迟和总能耗之和最小。其次考虑到需要处理随机时变网络与动态资源请求的高维连续动作空间,采用了一种基于多智能体双延迟深度确定策略梯度(MATD3)的深度强化学习协同框架求解。仿真实验结果表明:与常见的单智能体学习算法和启发式方案相比,本文提出的MATD3方法具有较好的性能,在平均执行成本方面分别降低了25.61%和35.79%,在任务卸载率上分别提高了39.13%和77.76%。  相似文献   

10.
随着新能源大规模接入以及负荷的随机波动性,对配电网的电能质量提出了更高的挑战及要求。主动配电网控制无功调压设备抑制电压波动通常转化为混合整数规划问题,难以做到实时控制且需频繁进行复杂计算。本文从历史数据中提取源荷状态,生成基于二阶锥最优潮流模型的电压控制策略,构建以调压装置状态、系统数据与控制策略为核心实体的配电网电压控制知识图谱;在实时电压控制时,基于控制策略子图匹配及数据检索算法,以当前网络状态匹配知识图谱中相似状态,进行安全校验和优化求解,并更新知识图谱中的状态策略。同时,在无功设备调节过程中增加人机交互环节,对于时间尺度、电压及设备动作及关键点电压实现精准控制。基于改进IEEE系统算例的仿真结果表明,所提出的基于电压控制策略知识图谱的检索方法及交互策略能够有效提升配电网无功电压控制策略生成效率,并具有不同场景适用性。  相似文献   

11.
针对产品动态到达的柔性装配作业车间调度问题,以最小化总拖期为目标,构建了基于事件点的数学规划模型,该模型包含加工机器分配、加工工序排序、装配站分配和装配工序排序四个决策序列,并提出了一种基于多智能体的深度强化学习算法进行求解.首先,所提出的算法包含四个智能体分别对应四个决策序列,智能体之间采用价值分解网络(VDN)协作策略;然后,构建基于拖期的复合回报函数,提取生产系统指标作为全局特征,完善各智能体的调度动作;最后,设计了精英经验库,充分挖掘高回报样本的价值.案例结果表明所提出的方法在不同场景下都优于现有经典调度规则和元启发式算法挖掘的调度规则.  相似文献   

12.
研究了一类带有输入受限的领导者-追随者多智能体系统的同步最优控制问题。该问题可以看作是一个图博弈问题。基于图博弈理论,首先为每个智能体定义了一个带有非二次型能量函数的性能指标,该性能指标同时依赖于智能体自身及其邻居的信息。然后,利用所定义的性能指标建立耦合的哈密顿-雅克比-贝尔曼(HJB)方程。通过求解HJB方程得到最优控制策略,使得每个追随者同步于领导者且最小化给定的性能指标。由于HJB方程的解析解难于获得,因此借助于强化学习方法利用Actor-Critic(A-C)神经网络在线学习得到近似最优解。通过稳定性分析可以证明所得近似最优控制策略使得闭环系统所有状态一致最终有界,并且收敛到交互纳什均衡。最后,通过仿真实验验证所提同步最优控制算法的有效性。  相似文献   

13.
分布式能源系统凭借其高效、环保、经济、可靠、和灵活等特点成为中国能源未来发展的重要方向。目前中国的很多分布式能源系统经济效益较差,主要原因是能源系统没有良好的运行策略。提出了一种基于深度强化学习的分布式能源系统运行优化方法。首先,对分布式能源系统的各个设备进行数学建模;其次,深入阐述了强化学习的基本原理、深度学习对强化学习的结合原理及一种基于演员评论家算法的分布式近端策略优化(distributed proximal policy optimization, DPPO)算法流程,将分布式能源系统运行优化问题转化为马尔可夫决策过程(Markov decision process, MDP);最后,采用历史的数据对智能体进行训练,训练完成的模型可以实现对分布式能源系统的实时优化,并对比了深度Q网络(deep Q network, DQN)算法和LINGO获得的调度策略。结果表明,基于DPPO算法的能源系统调度优化方法较DQN算法和LINGO得到的结果运行费用分别降低了7.12%和2.27%,可以实现能源系统的经济性调度。  相似文献   

14.
大型活动举办时期,场馆周边路网的交通压力与日常交通运行状态存在差异,活动场馆周边关键交叉口的正常运行是保证大型活动顺利举办的重要因素之一,应采取动态的管控方式以达到提高关键交叉口通行效率、满足参与大型活动出行者交通需求的目的。为此,文中基于A2C(Advantage Actor Critic)的强化学习算法,考虑大型活动背景下出行者数量大且大多采用公共交通出行的特点,在奖励函数构建过程中将车辆排队时间细分为出行者不同出行方式的车辆等待时间,通过引入参数,修正不同车型的奖励计算方法,使智能体在信号配时优化的过程中优先考虑大型活动参与者的出行需求。最后,以北京市首都体育馆周边大型交叉口为例,借助交通流仿真软件SUMO进行仿真实验,仿真实验结果证明,修改奖励函数结构后的A2C信号控制方法在控制效果上优于定时信号控制以及基于DQN(Deep-Q-Network)算法的控制方法,可以达到提高交叉口公共交通以及整体车流通行效率的目的。  相似文献   

15.
无线网络的高速发展为车联网提供了更好的支持,但是如何为高速移动车辆提供更高质量的服务仍然是一个挑战.通过分析多个车对车(Vehicle-to-Vehicle,V2V)链路重用的车对基础设施(Vehicle-to-Infrastructure,V2I)链路占用的频谱,研究了基于连续动作空间的多智能体深度强化学习的车联网中的频谱共享问题.车辆高移动性带来的信道的快速变化为集中式管理网络资源带来了局限性,因此将资源共享建模为多智能体深度强化学习问题,提出一种基于分布式执行的多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)算法.每个智能体与车联网环境进行交互并观察到自己的局部状态,均获得一个共同的奖励,通过汇总其他智能体的动作集中训练Critic网络,从而改善各个智能体选取的功率控制.通过设计奖励函数和训练机制,多智能体算法可以实现分布式资源分配,有效提高了V2I链路的总容量和V2V链路的传输速率.  相似文献   

16.
为了降低机翼在飞行中受到的阻力,该文针对NACA0012翼型构建了基于双喷孔零质量合成射流的流动控制框架,利用深度强化学习(DRL)的近端策略优化(PPO)算法获取了一种具有环境实时适应性的主动流动控制策略。研究了不同来流条件下DRL流动控制策略对机翼边界层以及尾部流动分离情况的影响。探索了进一步考虑射流节能作为奖励函数的流动控制策略的学习与最终控制效果。针对DRL模型超参数开展了研究,对比分析了不同网络更新频率(5、10、20)和不同学习率(10-3、10-4、10-5)下流动控制模型的训练效率和控制策略效果。结果显示,通过DRL获得的流动控制策略显著地减小了机翼上表面边界层的厚度,实现了35%的减阻和33.7%的升阻比提升。DRL在复杂控制目标下依然能学习到有效的减阻增升策略,且射流能量节省近50%。较小的网络更新频率在训练初期能快速地提升训练效果,但在中后期存在奖励值不升反降,网络过拟合的问题。较大的网络更新频率和较小的学习率则存在训练效果提升缓慢,训练周期过长,学习效率低的问题。  相似文献   

17.
随着分布式电源的不断发展,配电网中负荷也呈现多样化的趋势,传统的配电网的无功调控策略和算法已经不能满足现代配电网无功补偿的需求,为此,提出一种基于改进磷虾群算法的主动配电网动态无功优化策略。首先将无功优化过程分为日前调控与日内动态补偿两部分,日前考虑离散型无功补偿设备的无功补偿能力,日内充分考虑风光出力及其他连续调节设备对系统进行补偿,构建基于主动配电网的日前-日内多时间尺度动态无功优化模型。其次提出一种基于余弦控制因子和柯西因子的改进磷虾群算法对该模型进行求解。最后通过修正的IEEE33节点系统的实验,验证了该策略的可行性和有效性,在保证主动配电网平稳运行的同时,实现经济效益最大化。  相似文献   

18.
以机器人足球比赛(RoboCup)为背景,基于主智能体和辅助智能体概念,提出了基于主智能体群体强化学习算法(GLBMA),该算法通过主智能体和辅智能体的角色切换来实现整个团队的学习,改进了传统的群体强化学习算法。RoboCup仿真比赛试验表明,传统群体强化学习算法中的行为学习状态空间过大,连续状态空间的行为选择及多智能体合作求解等问题得到了解决.  相似文献   

19.
夏博  杨超 《科学技术与工程》2019,19(15):143-149
电动汽车随机充电功率会影响主动配电网优化调度,为了解决这一问题。提出了含电动汽车的主动配电网优化调度模型,模型分为两个目标函数。首先,需要以负荷曲线的最小方差优化电动汽车的充电功率作为优化调度之前的目标函数,可以获得电动汽车连接电网的时间和充电功率。然后,建立以分布电源功率为控制变量使得配电网运行成本最低的主动配电网日前优化调度模型。最后,建立的模型在IEEE33节点配电网系统中进行多场景分析电动汽车对主动配电网优化调度造成的影响,并采用CPLEX优化规划软件来求解模型。结果表明:所建立的模型和方法不仅可以保证配电网经济运行,而且还能有效的利用电动汽车的充电来减少配电网负荷曲线的方差。  相似文献   

20.
基于Markov对策和强化学习的多智能体协作研究   总被引:4,自引:0,他引:4  
MAS的协作机制研究,当前比较适用的研究框架是非零和Markov对策及基于Q-算法的强化学习。但实际上在这种框架下的Agent强调独立学习而不考虑其他Agent的行为,故MAS缺乏协作机制。并且,Q-算法要求Agent与环境的交互时具有完备的观察信息,这种情况过于理想化。文中针对以上两个不足,提出了在联合行动和不完备信息下的协调学习。理论分析和仿真实验表明,协调学习算法具有收敛性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号