期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

孟超袁学明田波芦苇邓立松赵彧《华中师范大学学报(自然科学版)》2016,(4)

大量间歇性分布式电源接入配电网会引发电压越限,限制系统消纳分布式能源的能力.基于节点电压对注入功率的灵敏度分析,揭示了配电网注入有功功率和无功功率对节点电压皆具有调控作用.提出通过对分布式发电 (DG)、储能装置(ESS) 等的有功功率和无功补偿装置的无功功率的协调控制,实现主动配电网消纳间歇性分布式能源最大化、网损最小化和电压质量优质的综合优化目标.文中建立了主动配电网的多目标优化数学模型,应用判断矩阵法确定出多目标的权重系数,构建成一个综合优化的目标函数.应用粒子群算法进行寻优求解,可得到主动配电网的优化运行方案和调控策略.在IEEE33 节点测试系统上进行了多场景仿真分析和研究,结果表明：应用文中所提出的主动多目标优化调控方法,既可满足安全约束条件,又能实现有效地降低 DG 切机量、降低有功网损、保持良好电压质量的综合效应. 相似文献

2.

基于深度强化学习的正交频分复用多小区蜂窝网资源分配方法

孙明胡良进郝冰于颖《齐齐哈尔大学学报(自然科学版)》2023,(1):5-12

针对正交频分复用的多蜂窝网络系统，提出了一种基于深度强化学习的通信资源分配算法，该算法在满足资源分配高速率、低延时要求的前提下，同时产生信道分配方案和功率控制方案，从而最大化系统的能量效率。首先，在确定好基于正交频分复用的多蜂窝网络系统模型的基础上，将最大化能量效率的约束优化问题同深度Q强化学习算法进行问题映射。其次，将构建的深度Q神经网络（DQN）的多个隐藏层作为状态值函数，用以输出信道分配方案和功率控制方案，并实时与外界环境保持交互，不断迭代更新网络参数用以最大化系统能量效率。通过仿真对比实验可得，所提出的深度强化学习算法在保证低计算时延的同时，可获得接近于或高于其他算法的系统能量效率，且蜂窝网络规模越大，该算法优势越突出。相似文献

3.

基于双决斗深度Q网络的自动换道决策模型

张雪峰王照乙《东北大学学报(自然科学版)》2023,(10):1369-1376

汽车自动变道需要在保证不发生碰撞的情况下，以尽可能快的速度行驶，规则性地控制不仅对意外情况不具有鲁棒性，而且不能对间隔车道的情况做出反应.针对这些问题，提出了一种基于双决斗深度Q网络(dueling double deep Q-network, D3QN)强化学习模型的自动换道决策模型，该算法对车联网反馈的环境车信息处理之后，通过策略得到动作，执行动作后根据奖励函数对神经网络进行训练，最后通过训练的网络以及强化学习来实现自动换道策略.利用Python搭建的三车道环境以及车辆仿真软件CarMaker进行仿真实验，得到了很好的控制效果，结果验证了本文算法的可行性和有效性. 相似文献

4.

基于强化学习的三维游戏控制算法

孟琭沈凝祁殷俏张昊园《东北大学学报(自然科学版)》2021,42(4):478-483

基于强化学习,设计了一个面向三维第一人称射击游戏(DOOM)的智能体,该智能体可在游戏环境下移动、射击敌人、收集物品等.本文算法结合深度学习的目标识别算法Faster RCNN与Deep Q-Networks(DQN)算法,可将DQN算法的搜索空间大大减小,从而极大提升本文算法的训练效率.在虚拟游戏平台(ViZDoom)的两个场景下(Defend_the_center和Health_gathering)进行实验,将本文算法与最新的三维射击游戏智能体算法进行比较,结果表明本文算法可以用更少的迭代次数实现更优的训练结果. 相似文献

5.

具有精英策略的深度强化学习无人机集群通信网络拓扑设计

下载免费PDF全文

董方昊冯有前尹忠海梁晓龙周诚李明杰《空军工程大学学报(自然科学版)》2019,20(4):52-58

针对集群无人机背景下定向天线网络拓扑设计的NP-hard特点,基于网络高抗毁、低功耗、高稳定性等要求,以抗毁性（3-连通）、链路量、链路功耗和稳定性为奖励,提出了一种具有精英策略的深度强化学习通信网络拓扑生成算法,验证了精英经验池加速训练效果。与传统DQN相比,引入精英经验池能够有效加速模型收敛,训练时间减少3倍以上。与遗传算法相比,算法分离了训练与使用过程,当网络训练完成后,能够根据场景需要实时计算通信网络拓扑。实验阶段设计了随机给定空间位置的6节点、10节点、24节点和36节点的3-连通通信网络拓扑。实验结果表明:所提算法具有强的实时性和适用性,对于不大于36节点的网络,可在183 ms内实现网络拓扑的更新计算,达到了实际应用的实时性要求。相似文献

6.

基于深度强化学习的分布式能源系统运行优化

下载免费PDF全文

阮应君侯泽群钱凡悦孟华《科学技术与工程》2022,22(17):7021-7030

分布式能源系统凭借其高效、环保、经济、可靠、和灵活等特点成为我国能源未来发展的重要方向。目前我国的很多分布式能源系统经济效益较差,主要原因是能源系统没有良好的运行策略。本文提出一种基于深度强化学习的分布式能源系统运行优化方法。首先,对分布式能源系统的各个设备进行数学建模。深入阐述了强化学习的基本原理、深度学习对强化学习的结合原理及一种基于演员评论家算法的分布式近端策略优化(Distributed Proximal Policy Optimization, DPPO)算法流程,将分布式能源系统运行优化问题转化为马尔可夫决策过程(Markov decision process,MDP)。最后采用历史的数据对智能体进行训练,训练完成的模型可以实现对本文的分布式能源系统的实时优化,并对比了深度Q网络(Deep Q Network, DQN)算法和LINGO获得的调度策略。结果表明,本文提出的基于DPPO算法的能源系统调度优化方法较DQN算法和LINGO得到的结果运行费用分别降低了7.12%和2.27%,可以实现能源系统的经济性调度。相似文献

7.

智能超表面辅助的无人机通信能效联合优化

吴童凡徐龙艳《佳木斯大学学报》2023,(1):42-46

针对传统无人机无线网络通信场景中，无人机到客户端之间的灵活性不强、数据传输性能较差、能源效率不高等问题，设计了一种新型材料智能超表面(RIS)辅助的无人机通信系统，同时使用深度强化学习算法对该系统的通信能效进行优化。首先，引入RIS材料并结合无人机通信系统，对系统能源效率进行分析和建模；其次，针对目标函数中出现的非凸问题，利用DDQN算法对无人机的三维轨迹和RIS相移进行联合优化，最大化无人机通信系统整体的能源效率；最后，对该联合优化方案进行了实验验证，仿真结果表明，与未使用RIS和未采用可调相移的传统方案相比，该方案具有更高的能源效率。相似文献

8.

针对不可微多阶段算法的环境升级式强化学习方法

谢树钦陈梓天徐超卢策吾《重庆邮电大学学报(自然科学版)》2020,32(5):857-858

多阶段算法的研究目前已取得很大进展,但仍存在2个重要问题。在推理阶段,信息不能从下游反馈到上游。在训练阶段,当整个模型涉及不可微函数时无法进行端到端的训练,因此不同阶段不能联合优化。提出一种新的环境升级式强化学习方法来解决反馈和联合优化问题,该方法的框架结构是通过一个强化学习智能体将下游阶段与上游阶段重新连接起来,利用优化上游阶段的输出来训练智能体,以提高最终性能,同时根据智能体的策略对下游阶段(环境)进行升级,实现智能体策略和环境的联合优化。针对智能体和环境的不同训练需求,还提出了一种基于该框架的训练算法,并在实例分割和人体姿态估计实验中证明了其有效性。相似文献

9.

基于改进虚拟同步机的风储微网综合控制

谢黎龙李勇汇肖金星徐冰雁叶影杨军《科学技术与工程》2022,22(22):9660-9668

微电网中负荷变化与风电等分布式电源出力不确定性给整个微网稳定带来很大困难。针对风电出力波动问题,采用虚拟同步发电机控制结合深度强化学习对电池储能系统输出进行控制：首先搭建包含风电、电池储能、负荷、外部电网的微网模型,其次利用深度确定策略梯度算法对虚拟调速器进行设计,结合奖励函数通过反复学习训练生成调速器实现对虚拟同步发电机的改进。最后,在Matlab/Simulink软件中搭建对应的仿真模型,与下垂控制、传统虚拟同步发电机控制进行对比,仿真验证了并网到离网切换场景与孤岛运行场景下,所提出的控制方法对微网频率与电压有良好的稳定效果,可以实现对负荷有功功率与无功功率的快速追踪。相似文献

10.

基于多智能体深度强化学习的空间众包任务分配

赵鹏程高尚于洪梅《吉林大学学报(理学版)》2022,60(2):321-331

针对现有空间众包中的任务分配大多只考虑单边、短期利益和单一场景的问题, 提出一种基于多智能体深度强化学习的空间众包任务分配算法. 首先定义一种新的空间众包场景, 其中工人可以自由选择是否与他人合作；然后设计基于注意力机制和A2C(advantage actor-critic)方法的多智能体深度强化学习模型进行新场景下的任务分配；最后进行仿真实验, 并将该算法与其他最新的任务分配算法进行性能对比. 仿真实验结果表明, 该算法能同时实现最高的任务完成率和工人收益率, 证明了该算法的有效性和鲁棒性. 相似文献

11.

基于随机矩阵理论和改进粒子群优化-深度置信网络的无功优化

夏芃张倩王群京王璨《科学技术与工程》2021,21(33):14165-14172

配电网无功优化是使电网能安全稳定运行的重要问题,本文将深度学习应用于配电网无功优化上,提出基于改进的粒子群优化 (Particle swarm optimization, PSO)深度置信网络（Deep Belief Networks,DBN）模型的配电网无功优化方法。首先,利用随机矩阵理论将配电网运行过程中产生的环境以及电气数据构造五种随机矩阵,每种矩阵构建8种特征指标,共提取40种特征指标;其次,以随机矩阵理论所提取的各特征指标为输入,以变压器分接头档位和节点的无功补偿容量作为输出,利用改进的PSO优化DBN网络的初始权重,建立PSO-DBN模型,学习各特征指标输入与变压器分接头档位以及节点无功补偿这两种控制策略之间的关系,得出相应的无功优化策略。最后,以改进的IEEE33节点系统作为算例仿真对象,验证了所提方法可降低网损和减少电压波动。相似文献

12.

车联网中基于深度强化学习的高可靠资源分配算法

孙彦景余政达陈瑞瑞李松《重庆邮电大学学报(自然科学版)》2023,35(4):706-714

针对车联网环境下用户通信质量下降以及频谱资源紧张导致车辆与车辆（vehicle to vehicle,V2V）链路的关键信息传输难以满足高可靠性通信需求的问题,提出了一种基于深度强化学习（deep reinforcement learning,DRL）的高可靠资源分配算法。考虑干扰、传输时延和有效传输概率等约束条件,构建了车联网的可靠性保障优化问题;为了进一步保障V2V链路关键信息传输的可靠性,设计了压缩网络来压缩环境状态信息;根据可靠性保障优化问题设计了相应的奖励函数,并基于双深度Q网络（double deep Q-network,DDQN）设计了一种智能资源分配策略。仿真结果表明,所提算法能有效提高车联网的总速率,实现V2V链路关键信息的高可靠传输。相似文献

13.

基于主智能体的群体学习算法GLBMA

程显毅李淑琴夏德深《江苏大学学报(自然科学版)》2005,26(5):437-439

以机器人足球比赛（RoboCup）为背景,基于主智能体和辅助智能体概念,提出了基于主智能体群体强化学习算法（GLBMA）,该算法通过主智能体和辅智能体的角色切换来实现整个团队的学习,改进了传统的群体强化学习算法。RoboCup仿真比赛试验表明,传统群体强化学习算法中的行为学习状态空间过大,连续状态空间的行为选择及多智能体合作求解等问题得到了解决．相似文献

14.

航空器智能引导机动决策奖励重塑方法

王壮艾毅文旭光李辉《科学技术与工程》2023,23(8):3535-3543

针对使用深度强化学习进行航空器智能引导研究中存在的飞行轨迹质量差、训练效率低等问题,对应用于机动决策生成的奖励重塑方法进行了研究。首先,构建了航空器引导机动决策生成的深度强化学习模型;其次,从指令连续性和相对姿态两个角度设计了奖励重塑函数,并证明了使用重塑函数前后的策略一致性;最后,在不同类型目的地场景中进行了仿真实验。仿真结果表明,奖励重塑方法对航空器飞行轨迹质量和智能体训练效率有明显的提升。使用本方法快速训练的智能体,可以准确、高效地生成机动决策,引导航空器完成任务。相似文献

15.

基于近端策略优化的作战实体博弈对抗算法

《南京理工大学学报(自然科学版)》2021,(1)

针对一种大地图和稀疏奖励的兵棋推演对抗环境下,单纯的深度强化学习算法会导致训练无法快速收敛以及智能体对抗特定规则智能体胜率较低的问题,提出了一种基于监督学习和深度强化学习相结合以及设置额外奖励的方法,旨在提升智能博弈的训练效果。使用监督学习训练智能体;研究基于近端策略优化(Proximal policy optimization,PPO)的对抗算法;改进强化学习训练过程的额外奖励设置。以某在研兵棋推演环境为例的实验结果表明,该博弈对抗算法能使智能体在对抗其他智能体时的胜率稳步提升并在较短时间内达到收敛。相似文献

16.

基于灵敏度阻抗矩阵修正法的分层前推回代潮流算法

王超张靖何宇杨艳陈达《北京交通大学学报(自然科学版)》2014,38(5)

分布式电源(DG)接入配电网对潮流产生重要影响.本文分析了潮流计算中各种分布式电源模型及处理方法,引入灵敏度阻抗矩阵修正法更新PV节点的注入无功功率,结合辐射型配电网的特点,提出一种基于灵敏度阻抗矩阵修正法的分层前推回代潮流算法.该算法解决了前推回代潮流算法处理PV节点失效的问题,同时适用于含各类分布式电源的潮流计算.最后对含各种类型分布式电源的IEEE 33节点配电网进行潮流计算仿真,仿真结果验证了提出算法的有效性和快速性,并通过不同算例验证了算法的稳定性. 相似文献

17.

基于改进双延迟深度确定性策略梯度法的无人机反追击机动决策

下载免费PDF全文

郭万春解武杰尹晖董文瀚《空军工程大学学报(自然科学版)》2021,22(4):15-21

针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法.新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,通过拟合策略函数与状态动作值函数,生成最优策略网络.仿真实验表明,在随机初始位置/姿态条件下,与采用纯追踪法的无人机对抗,该方法训练的智能无人机胜率超过93％;与传统的TD3、深度确定性策略梯度(DDPG)算法相比,该方法收敛性更快、稳定性更高. 相似文献

18.

好奇心驱动的深度强化学习机器人路径规划算法

张永梅赵家瑞吴爱燕《科学技术与工程》2022,22(25):11075-11083

针对采用深度强化学习算法实现机器人路径规划任务中,训练前期随机性高导致奖励难获取问题,提出内在好奇心驱动的深度确定性策略梯度算法对连续型动作输出的端到端机器人路径规划进行研究。将环境获取的感知信息作为输入状态,输出机器人动作(线速度、角速度)的连续型控制量,在Gazebo仿真平台进行训练并验证。实验结果表明,基于内在好奇心驱动的深度确定性策略梯度路径规划算法可以较好地实现端到端的机器人路径规划,并且有利于解决训练前期奖励难获取问题,与离散型动作输出的深度Q学习网络模型进行了对比分析,结果表明本文算法决策控制效果更优越。在真实环境中进行了验证,在静态障碍和动态障碍的场景下,所提出算法可成功到达目标点。相似文献

19.

基于深度学习的Wi-Fi信号编码参数盲识别

白迪崔勇强王晓磊李永辉《科学技术与工程》2021,21(33):14188-14192

通信链路层特征盲识别是智能通信和通信对抗领域关键技术。为提高基于IEEE 802.11协议的无线（局域）网/无线保真（wireless fidelity,Wi-Fi）信号的编码参数盲识别精度,提出了一种基于深度学习的低密度奇偶校验码（low density parity check code,LDPC）编码参数盲识别算法,可准确盲识别信道编码算法的信息位码长和码率。算法以解调后的比特流为训练数据集,搭建多层深度神经网络模型,经过多次调参和迁移训练,最终得到了能够准确预测编码参数的网络模型。实验结果表明,该网络模型能够在高达10%误码条件下得到优于91%的编码参数盲预测率,在无误码的条件下,编码参数盲预测准确度高达95.32%,为智能通信和通信对抗的研究提供了一定参考价值。相似文献

20.

面向多目标参数整定的协同深度强化学习方法

下载免费PDF全文

罗森林魏继勋刘晓双潘丽敏《北京理工大学学报》2022,42(9):969-975

多目标控制参数联合优化整定是自动化系统保持高效、稳定运行的关键问题,强化学习常用于建立自动化调参智能体,代替人工完成参数整定. 针对现有方法使用固定权重将多个优化目标线性组合为单目标,训练具有固定调参知识的单智能体模型,导致实际目标关系受环境影响与先验不符时,智能体无法感知并做出适应性决策调整,限制参数整定效果的问题,提出一种面向多目标参数整定的协同深度强化学习方法. 该方法利用离线仿真学习目标整定知识建立多个Double-DQN智能体,在线建立整定效果反馈,感知目标实际关系并调整智能体协同策略,实现有效的多目标参数整定. 列车自动驾驶参数整定实验结果表明,方法对停车误差、舒适度两个目标整定效果良好,能自适应不同车轨性能且可持续优化,实用价值大. 相似文献