期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张晨郭玉超林培光任威隆张森聂秀山任可《南京大学学报(自然科学版)》2018,(2)

随着移动设备的普及和O2O(Online-To-Offline)商业模式的快速发展,越来越多的空间众包平台融入人们的日常生活中,例如滴滴出行、饿了么等等.空间众包中的一个核心问题是任务分配,主要研究如何将空间任务分配给合适的众包工人.任务分配方式主要分为服务器分配模式(Server Assigned Task,SAT)和用户选择模式(Worker Selected Task,WST)两种模式,目前多数统一规范化的众包服务采用SAT模式,即系统主动将任务分配给任务请求位置附近的众包工人.在此任务分配模式下,众包工人和任务之间的旅行成本变得至关重要,较少的旅行成本意味着较少的响应时间和较高的任务接受率.因此提出了基于位置预测的任务分配方式,该方式不仅考虑任务和众包工人的当前位置,还考虑未来任务可能出现的位置,从而降低旅行成本和相应时间.首先设计了贪婪方法(Greedy Approach),然后在贪婪方法的基础上通过贝叶斯、支持向量机、决策树等方法预测未来任务的分布来辅助分配任务,最后在真实数据上进行的实验表明,该方法减小了在长时间内的总旅行成本,具有较好的性能. 相似文献

2.

基于强化学习的三维游戏控制算法

孟琭沈凝祁殷俏张昊园《东北大学学报(自然科学版)》2021,42(4):478-483

基于强化学习,设计了一个面向三维第一人称射击游戏(DOOM)的智能体,该智能体可在游戏环境下移动、射击敌人、收集物品等.本文算法结合深度学习的目标识别算法Faster RCNN与Deep Q-Networks(DQN)算法,可将DQN算法的搜索空间大大减小,从而极大提升本文算法的训练效率.在虚拟游戏平台(ViZDoom)的两个场景下(Defend_the_center和Health_gathering)进行实验,将本文算法与最新的三维射击游戏智能体算法进行比较,结果表明本文算法可以用更少的迭代次数实现更优的训练结果. 相似文献

3.

基于主智能体的群体学习算法GLBMA

程显毅李淑琴夏德深《江苏大学学报(自然科学版)》2005,26(5):437-439

以机器人足球比赛（RoboCup）为背景,基于主智能体和辅助智能体概念,提出了基于主智能体群体强化学习算法（GLBMA）,该算法通过主智能体和辅智能体的角色切换来实现整个团队的学习,改进了传统的群体强化学习算法。RoboCup仿真比赛试验表明,传统群体强化学习算法中的行为学习状态空间过大,连续状态空间的行为选择及多智能体合作求解等问题得到了解决．相似文献

4.

面向主动配电网的安全多智能体深度强化学习电压优化控制

梅铭洋寇鹏张智豪梁得亮《西安交通大学学报》2023,(12):157-167

针对主动配电网电压优化控制中模型不确定性和通信代价大的问题，提出了一种基于灵敏度矩阵安全的多智能体深度强化学习(SMS-MADRL)算法。该算法利用安全深度强化学习，应对主动配电网的固有不确定性，并采用多智能体结构实现通信代价较小的分布式控制。首先，将电压优化控制问题描述为受约束的马尔可夫博弈(CMG);然后，对无功功率进行适当修改，通过分析节点电压的变化得到灵敏度矩阵，进而与主动配电网环境进行交互，训练出若干可以独立给出最优无功功率指令的智能体。与现有多智能体深度强化学习算法相比，该算法的优点在于给智能体的动作网络增添了基于灵敏度矩阵的安全层，在智能体的训练和执行阶段保证了主动配电网的电压安全性。在IEEE 33节点系统上的仿真结果表明：所提出的算法不仅能够满足电压约束，而且相较于多智能体深度确定性策略梯度(MADDPG)算法，网络损耗减少了4.18%,控制代价减少了70.5%。该研究可为主动配电网的电压优化控制提供理论基础。相似文献

5.

一种基于元学习的改进深度强化学习算法

《扬州大学学报(自然科学版)》2021,(3)

传统的深度强化学习算法在解决任务时与环境交互量大且样本复杂度高,导致智能体的训练时间长,算法难以收敛,故在实际问题中的应用受限.针对该问题,在智能体采用梯度下降方法更新模型参数的过程中融入元学习思想,提出一种改进的深度强化学习算法,使得智能体利用在训练任务中学习到的先验知识快速地适应新任务.仿真结果表明:改进的深度强化学习算法可实现智能体在新任务上的快速适应,其收敛速度和稳定性等均优于传统算法. 相似文献

6.

一种用于自主学习的虚拟仿真环境

钟方威王亦洲《中国传媒大学学报》2021,28(1):6-10

赋予智能体通过与环境交互自主学习的能力是实现下一代人工智能的关键.本文,我们介绍了一种基于虚幻4的虚拟仿真环境,用于训练和测试自主智能体.该环境具有高逼真、可交互、灵活通用的特点,使得智能体能够在其中自由探索,自主学习场景感知、常识推理、决策控制等多项能力.为了验证该环境的可用性,我们用实验演示了如何在虚拟环境中构建自主智能,即利用强化学习方法训练端到端的神经网络实现基于视觉感知的目标搜索和目标追踪任务. 相似文献

7.

基于近端策略优化的作战实体博弈对抗算法

《南京理工大学学报(自然科学版)》2021,(1)

针对一种大地图和稀疏奖励的兵棋推演对抗环境下,单纯的深度强化学习算法会导致训练无法快速收敛以及智能体对抗特定规则智能体胜率较低的问题,提出了一种基于监督学习和深度强化学习相结合以及设置额外奖励的方法,旨在提升智能博弈的训练效果。使用监督学习训练智能体;研究基于近端策略优化(Proximal policy optimization,PPO)的对抗算法;改进强化学习训练过程的额外奖励设置。以某在研兵棋推演环境为例的实验结果表明,该博弈对抗算法能使智能体在对抗其他智能体时的胜率稳步提升并在较短时间内达到收敛。相似文献

8.

基于最大匹配的移动众包任务分配研究

徐巧枝张俊星《郑州大学学报(理学版)》2022,(3):66-72

通过在piFogBedII中引入移动众包资源,解决了雾计算实验平台用户层设备多样性和移动性问题,但也带来移动众包任务分配的问题,而现有移动众包任务分配机制不适合该平台.基于双向拍卖机制,设计了基于最大匹配的任务(MTM)分配算法,考虑移动用户的偏好,以最大化任务匹配数为目标,并满足诚实性、个体理性和预算平衡性.实验表明... 相似文献

9.

基于强化学习的机器人路径规划算法 总被引：1，自引：0，他引：1

《华中科技大学学报(自然科学版)》2018,(12)

提出了一种基于强化学习的机器人路径规划算法,该算法将激光雷达所获取的移动机器人周围障碍物信息与目标点所在方位信息离散成有限个状态,进而合理地设计环境模型与状态空间数目;设计了一种连续的报酬函数,使得机器人采取的每一个动作都能获得相应的报酬,提高了算法训练效率.最后在Gazebo中建立仿真环境,对该智能体进行学习训练,训练结果验证了算法的有效性;同时在实际机器人上进行导航实验,实验结果表明该算法在实际环境中也能够完成导航任务. 相似文献

10.

基于信度分配函数的Agent强化学习算法

吴继伟萧蕴诗许维胜《同济大学学报(自然科学版)》2003,31(8):947-950

基于智能体 (Agent)系统强化学习原理和基于动态规划的Q -学习算法的基础上 ,提出了一种新的Agent强化学习算法 .该算法在Agent学习过程中不断调整Agent知识库的加权值 ,在强化学习的每个阶段 ,通过选取合适的信度分配函数来修正Agent强化学习动作的选取策略 .与标准的Q -学习方法相比 ,具有更加合理的物理结构 ,并且能保证算法收敛 .仿真实验说明该方法加快了标准Q -学习算法的收敛速度 ,具有较好的学习性能相似文献

11.

基于强化学习的全自主机器人足球系统协作研究

下载免费PDF全文

王腾《科学技术与工程》2011,(4)

从人工智能的角度上说,机器人足球比赛主要研究了多智能体系统要解决的分布的多机器人在复杂的动态环境下,如何通过相互协商完成某一复杂任务。全自主机器人足球是机器人足球发展的一个趋势,在完全未知的环境中,通过自身学习来了解和积累外部信息,对于传统强化学习,存在容易出现死锁,学习速度慢,要求外部条件是静态等缺陷。本文提出了一种基于蚁群算法的强化学习模型,即蚁群算法与Q学习相结合的思想。随着赛场上态势的渐趋复杂,传统的Q学习速度会变得很慢且交互困难。通过对新算法的分析,实验数据显示：新算法不仅提高了Q学习的学习速率,在解决状态空间维数的灾难问题上,也是可行的。相似文献

12.

一种基于团队马尔可夫博弈的多agent协同强化学习算法

王长缨陈文伟姚莉《复旦学报(自然科学版)》2004,43(5):842-844

研究多agent系统的学习行为对于智能系统的适应性是至关重要的．针对一类追求系统得益最大化的协作团队的学习问题,基于马尔可夫博弈的思想,提出了一种新的多agent协同强化学习算法．协作团队中的每个agent通过观察协作相识者的历史行为,依照马尔可夫博弈模型预测其行为策略,采用适合的行为探索策略,进而得出最优的联合行为策略．实验对该算法进行了验证,结果表明该算法是有效的．相似文献

13.

Airport gate assignment problem with deep reinforcement learning

《高技术通讯(英文版)》2020,(1)

With the rapid development of air transportation in recent years, airport operations have attracted a lot of attention. Among them, airport gate assignment problem(AGAP) has become a research hotspot. However, the real-time AGAP algorithm is still an open issue. In this study, a deep reinforcement learning based AGAP(DRL-AGAP) is proposed. The optimization object is to maximize the rate of flights assigned to fixed gates. The real-time AGAP is modeled as a Markov decision process(MDP). The state space, action space, value and rewards have been defined. The DRL-AGAP algorithm is evaluated via simulation and it is compared with the flight pre-assignment results of the optimization software Gurobiand Greedy. Simulation results show that the performance of the proposed DRL-AGAP algorithm is close to that of pre-assignment obtained by the Gurobi optimization solver.Meanwhile, the real-time assignment ability is ensured by the proposed DRL-AGAP algorithm due to the dynamic modeling and lower complexity. 相似文献

14.

基于改进的DDPG算法的蛇形机器人路径规划方法

下载免费PDF全文

郝崇清任博恒赵庆鹏侯宝帅白彤武晓晶樊劲辉《河北科技大学学报》2023,44(2):165-176

针对蛇形机器人执行路径规划任务时,面对复杂环境传统强化学习算法出现的训练速度慢、容易陷入死区导致收敛速度慢等问题,提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法。首先,在策略-价值(actor-critic)网络中引入多层长短期记忆(long short-term memory, LSTM)神经网络模型,使其控制经验池中信息的记忆和遗忘程度;其次,通过最优化特征参数将CPG(central pattern generators)网络融入强化学习模型,并设计新型网络状态空间和奖励函数;最后,将改进算法与传统算法分别部署在Webots环境中进行仿真实验。结果表明,相比于传统算法,改进算法整体训练时间平均降低了15%,到达目标点迭代次数平均降低了22%,减少了行驶过程中陷入死区的次数,收敛速度也有明显的提升。因此所提算法可以有效地引导蛇形机器人躲避障碍物,为其在复杂环境下执行路径规划任务提供了新的思路。相似文献

15.

基于深度图强化学习的低轨卫星网络动态路由算法

汪昊冉泳屹赵雷王俊霞雒江涛张涛《重庆邮电大学学报(自然科学版)》2023,35(4):596-605

为了解决高移动性导致卫星网络路由难以计算的问题,融合图神经网络和深度强化学习,提出一种基于深度图强化学习的低轨卫星网络动态路由算法。考虑卫星网络拓扑和卫星间链路的可用带宽、传播时延等约束,构建卫星网络状态,通过图神经网络对其进行表示学习;根据此状态的图神经网络表示,深度强化学习智能体选择相应的决策动作,使卫星网络长期平均吞吐量达到最大并保证平均时延最小。仿真结果表明,所提算法在保证较小时延的同时,还能提升卫星网络吞吐量和降低丢包率。此外,图神经网络强大的泛化能力使所提算法具有更好的抗毁性能。相似文献

16.

NDSocTeam仿真机器人足球队的设计和实现

杨佩赵志宏陈兆乾《南京大学学报(自然科学版)》2003,39(5):451-458

机器人足球(RoboCup)是研究多agent系统的体系结构、多agent团队合作理论以及机器学习方法的理想测试平台。介绍了开发的仿真球队NDSocTeam系统的设计原理和实现技术。系统设计了以机器学习技术为核心的球员agent结构，并建立了一种分层学习以及多种学习技术相结合的机器学习系统．重点描述了NDSocTeam系统的总体结构、球员agent的结构以及机器学习的实现技术。相似文献

17.

有通信冲突的异构系统上的任务调度

蒋韵联孙广中吴文涛许胤龙《中国科学技术大学学报》2006,36(8):875-881

在新的系统模型上，提出了一个任务调度算法．该系统模型考虑了通信冲突，即在任何时刻，一个处理器只能接收一条消息，发送一条消息．新的算法包括异构系统中任务优先级的高效排序和基于任务复制的处理器分配两部分．随机产生的任务图和一个具体应用的任务图进行调度试验的结果表明，该算法比已有调度算法的性能有了显著的提高．相似文献

18.

基于深度强化学习的分布式能源系统运行优化

下载免费PDF全文

阮应君侯泽群钱凡悦孟华《科学技术与工程》2022,22(17):7021-7030

分布式能源系统凭借其高效、环保、经济、可靠、和灵活等特点成为我国能源未来发展的重要方向。目前我国的很多分布式能源系统经济效益较差,主要原因是能源系统没有良好的运行策略。本文提出一种基于深度强化学习的分布式能源系统运行优化方法。首先,对分布式能源系统的各个设备进行数学建模。深入阐述了强化学习的基本原理、深度学习对强化学习的结合原理及一种基于演员评论家算法的分布式近端策略优化(Distributed Proximal Policy Optimization, DPPO)算法流程,将分布式能源系统运行优化问题转化为马尔可夫决策过程(Markov decision process,MDP)。最后采用历史的数据对智能体进行训练,训练完成的模型可以实现对本文的分布式能源系统的实时优化,并对比了深度Q网络(Deep Q Network, DQN)算法和LINGO获得的调度策略。结果表明,本文提出的基于DPPO算法的能源系统调度优化方法较DQN算法和LINGO得到的结果运行费用分别降低了7.12%和2.27%,可以实现能源系统的经济性调度。相似文献

19.

基于人工神经网络的并行强化学习自适应路径规划

耿晓龙《科学技术与工程》2011,11(4):756-759

强化学习是通过对环境的反复试探建立起从环境状态到行为动作的映射。利用人工神经网络的反馈进行权值的调整,再与高学习效率的并行强化学习算法相结合,提出了基于人工神经网络的并行强化学习的应用方法,并通过实验仿真验证了迭代过程的收敛性和该方法的可行性,从而有效地完成了路径学习。相似文献