期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

颛孙少帅杨俊安刘辉黄科举《西安交通大学学报》2018,(2)

为解决强化学习算法在干扰决策过程中收敛速度慢的问题,提出了一种采用双层强化学习的干扰决策算法(DRLJD)。首先对等效通信参数进行建模,模型减少了待学习参数的个数,降低了搜索空间的维度;然后利用降维后的搜索空间指导干扰参数选择,避免随机选择导致干扰性能差的缺点;最后利用选择的干扰参数施加干扰,并根据环境反馈进一步降低搜索空间的维度,通过不断交互的方式加快算法的收敛速度。此外,将以往的干扰经验以先验信息的形式加入到系统的学习进程中,进一步缩短了系统的学习时间。针对构造的干扰问题实验表明,DRLJD算法经过200次交互便学习到优异的干扰策略,小于现有算法所需600次交互,且先验信息的利用进一步降低了对交互次数的要求。以提出的新的奖赏标准作为奖赏依据,算法能够在未知通信协议情况下以牺牲交互时间为代价学习到最佳干扰策略。相似文献

2.

多智能体系统中具有先验知识的Q学习算法 总被引：12，自引：0，他引：12

杜春侠高云张文《清华大学学报(自然科学版)》2005,45(7):981-984

为了提高多智能体系统中的典型的强化学习——Q学习的学习效率和收敛速度,充分利用环境信息和相关的专家经验,提出了具有先验知识的Q学习算法。利用模糊综合决策方法处理专家经验和环境信息得到Q学习的先验知识,对Q学习的初始状态进行优化。典型的足球机器人系统中的仿真实验结果表明:该算法使学习过程建立在较好的学习基础上,从而更快地趋近于最优状态,其学习效率和收敛速度明显优于普通的Q学习。相似文献

3.

基于免疫进化算法的径向基函数网络 总被引：7，自引：1，他引：7

宫新保周希朗胡光锐《上海交通大学学报》2003,37(10):1641-1644

基于免疫进化算法，提出了一种设计径向基函数(RBF)网络的新算法——免疫径向基函数网络(IRBF)训练算法．该算法通过提取RBF网络核函数宽度的先验知识作为疫苗构成免疫算子，缩小了标准进化算法搜索空间的范围，提高了算法的收敛速度．计算机仿真表明，采用这种算法训练的RBF网络达到了较好的性能．相似文献

4.

基于规划规则的激励学习偏差研究 总被引：1，自引：0，他引：1

汤九斌高阳陈世福《复旦学报(自然科学版)》2004,43(5):681-684

在实际动态系统中,经典无启发知识的激励学习算法收敛非常慢,因此必须采用某种偏差技术加速激励学习的收敛速度．已有激励学习偏差算法,通常先验地给出启发知识,这与激励学习的思想相矛盾．通过在初次激励学习获得的策略知识中,先抽取满足条件的规划知识,然后将规划知识作为启发知识,进一步指导后继激励学习．实验结果显示这种学习技术能有效加快算法收敛速度,并适用于动态复杂环境．相似文献

5.

一种基于元学习的改进深度强化学习算法

《扬州大学学报(自然科学版)》2021,(3)

传统的深度强化学习算法在解决任务时与环境交互量大且样本复杂度高,导致智能体的训练时间长,算法难以收敛,故在实际问题中的应用受限.针对该问题,在智能体采用梯度下降方法更新模型参数的过程中融入元学习思想,提出一种改进的深度强化学习算法,使得智能体利用在训练任务中学习到的先验知识快速地适应新任务.仿真结果表明:改进的深度强化学习算法可实现智能体在新任务上的快速适应,其收敛速度和稳定性等均优于传统算法. 相似文献

6.

基于神经网络控制的共轭梯度法 总被引：1，自引：0，他引：1

沈海荣刘超宫宁生《南京工业大学学报(自然科学版)》2006,28(6):91-94

共轭梯度法中搜索步长是通过某种搜索策略得到,许多情况下的收敛速度较慢.为了加快其收敛速度,提出了通过引入具有“先验知识“的神经网络对共轭梯度算法中的搜索步长进行控制.实验结果表明,该模型实现的共轭梯度法对于加快收敛速度有效. 相似文献

7.

改进的DDPG算法在机器人路径规划中的应用

张宁葛斌《佳木斯大学学报》2021,39(5):119-122

深度强化学习(DRL)在连续控制问题中具有优异的性能,被广泛用于路径规划等领域.为了实现移动机器人在未知环境中的智能路径规划,提出了一个路径规划的模型,基于深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)的自主路径规划模型.针对DDPG算法前期对环境没有先验知识,收敛速度慢和移动时会出现局部最优情况,提出了一种改进的DDPG算法.通过在DDPG算法中添加人工势场的引力场和斥力场,以加快收敛速度和移动机器人到达目标点的时间.对奖赏函数进行改进,增加直走奖励,以提高规划路径的稳定性. 相似文献

8.

一种状态集结因子化SARSA（λ）强化学习算法

李春贵刘永信《内蒙古大学学报(自然科学版)》2001,32(6):675-678

提出了一种自适应状态集结因子化SARSA（λ）强化学习算法,在学习的过程中利用Bellman余留数进行状态集结,通过集结,大大减少了状态空间搜索与计算的复杂度,有利于求解大状态空间的MDPs问题,而且,本算法不需要有关状态特征的先验知识,有很好的通用性。相似文献

9.

基于自适应混合引力搜索算法的混沌系统参数辨识

《兰州大学学报(自然科学版)》2016,(3)

针对混沌系统未知参数的辨识问题,结合人工蜂群搜索算子和混沌优化策略,提出一种自适应混合引力搜索算法,并应用于混沌系统未知参数的优化辨识.利用混沌序列初始化种群以增强搜索初期的遍历性,基于人工蜂群搜索算子进行变异操作以提高算法的局部寻优能力,依据粒子的性能对进化过程中的万有引力系数进行自适应调整,有效避免了早熟收敛,提高了算法的整体寻优性能.以测试函数和典型混沌系统为例进行仿真实验,结果证明该算法具有良好的全局探测和局部开发能力,与遗传算法、粒子群算法、量子粒子群算法和引力搜索算法比较,其对混沌系统参数的估计具有相对较高的辨识精度和收敛速度,算法的有效性得到了验证. 相似文献

10.

基于改进多粒子群算法的电力系统无功优化 总被引：12，自引：0，他引：12

赵娜张伏生魏平刘学《西安交通大学学报》2006,40(4):463-467

将改进的多粒子群算法应用于电力系统无功优化问题的求解，克服了传统粒子群算法收敛精度不高、易陷入局部最优的缺点．该优化方法对原粒子群算法进行了如下改进：通过增强粒子群间的协同作用、引入惯性因子以及扰动的策略，来平衡集中强化搜索和分散多样化搜索过程．对IEEE6节点和IEEE30节点系统分别进行无功优化计算，并与传统粒子群算法进行了比较，结果表明，该算法求得的有功损耗较原状态降低了近1／5，且电压合格率为100％，具有较强的全局搜索能力和较高的收敛精度，是求解无功优化的有效方法．相似文献

11.

采用神经网络和遗传算法组合的自学习模糊控制器

方建安邵世煌《东华大学学报(自然科学版)》1995,(2)

本文提出一种新型的、采用神经网络和遗传算法组合自学习构造模糊控制器的方法。该方法将神经网络的实时增强学习能力融合于遗传算法的全局搜索中,提高了系统的收敛速度、实时学习能力和控制性能,而不需要提供系统动力学知识和先验控制经验。作者以倒立摆系统和家用空调器作为控制对象,通过仿真计算检验了该方法的有效性。相似文献

12.

Self-learning Fuzzy Controllers Based On a Real-time Reinforcement Genetic Algorithm

方建安苗清影郭钊侠邵世煌《东华大学学报(英文版)》2002,19(2)

ＩｎｔｒｏｄｕｃｔｉｏｎＳｉｎｃｅｔｈｅｐｉｏｎｅｅｒｉｎｇｒｅｓｅａｒｃｈｏｆＭａｍｄａｎｉａｎｄｈｉｓｃｏｌｌｅａｇｕｅｓｏｎｆｕｚｚｙｃｏｎｔｒｏｌ[1] ,ａｓａｐｏｗｅｒｆｕｌａｐｐｒｏａｃｈｔｏｃｏｎｔｒｏｌｓｙｓｔｅｍｓｗｉｔｈｅｘｐｅｒｉｅｎｃｅｋｎｏｗｌｅｄｇｅ,ｉｔｈａｓｂｅｅｎｗｉｄｅｌｙａｎｄｅｆｆｅｃｔｉｖｅｌｙａｐｐｌｉｅｄｔｏｔｈｅｃｏｎｔｒｏｌｏｒｍａｎｙｓｙｓｔｅｍｓ,ｉｎｃｌｕｄｉｎｇａｎｕｍｂｅｒｏｆｒｅａｌｗｏｒｌｄｐｈｙｓｉｃａｌｐｒｏｂｌｅｍｓＴｈｅｓｅｓ… 相似文献

13.

结合加强学习的群控分区算法

李伟毕晓亮叶庆泰《上海交通大学学报》2005,(Z1)

运用加强学习算法解决电梯群控问题往往受限于算法收敛速度慢,很难扩展至具有更高楼层、更多电梯的群控系统.分割状态空间为几个区域,建立具有分割功能的加强学习系统是必要的.所提出的系统结构及其底层工作原理具有普遍意义,可用于解决大状态空间上的最优控制问题,开发了基于群控分区算法的分割模块,运行结果表明了此系统的优势. 相似文献

14.

基于MCTS-RAVE的智能博弈 总被引：1，自引：0，他引：1

芮雄星王一莉《江南大学学报(自然科学版)》2011,10(2):175-178

针对蒙特卡罗树搜索(MCTS)算法对蒙特卡罗模拟次数的依赖性较强,为获得较高智能必须进行多次模拟的情况,提出了结合在线强化学习知识以减少MCTS算法对蒙特卡罗模拟次数的依赖,在搜索过程中积累强化学习知识,并快速对动作值作出估计。实例表明,该种方法较MCTS具有更高的智能表现,并有一定的实用价值。相似文献

15.

复杂环境中的多智能体强化学习 总被引：3，自引：0，他引：3

罗青李智军吕恬生《上海交通大学学报》2002,36(3):302-305

提出在机器人足球这样的复杂、动态的环境中使用强化学习的方式与问题 ,阐述了强化学习的实现及如何处理机器学习中的常见问题 ,即延迟奖赏、探索与利用、不完整信息等 ,同时探讨了减少复杂性的若干措施 . 相似文献

16.

Using Multiple Satellites to Search for Maritime Moving Targets Based on Reinforcement Learning

《东华大学学报(英文版)》2016,(5)

Searching for maritime moving targets using satellites is an attracting but rather difficult problem due to the satellites' orbits and discontinuous visible time windows.From a long term cyclic view,a non-myopic method based on reinforcement learning(RL)for multi-pass multi-targets searching was proposed.It learnt system behaviors step by step from each observation which resulted in a dynamic progressive way.Then it decided and adjusted optimal actions in each observation opportunity.System states were indicated by expected information gain.Neural networks algorithm was used to approximate parameters of control policy.Simulation results show that our approach with sufficient training performs significantly better than other myopic approaches which make local optimal decisions for each individual observation opportunity. 相似文献

17.

具有未知侧滑和打滑的WMR强化学习自适应神经网络控制

下载免费PDF全文

叶锦华吴海彬《福州大学学报(自然科学版)》2016,44(2):219-224

利用反演设计,提出一种强化学习自适应神经网络轮式移动机器人(WMR)轨迹跟踪控制方法.首先在极坐标下建立WMR的轨迹跟踪误差模型,并基于此设计运动学控制器.然后,针对WMR动力学系统,设计自适应神经网络控制器.结合强化学习机制,同时对系统未知侧滑、打滑和模型不确定性进行优化补偿,并引入鲁棒控制项来消除补偿误差的影响,进一步提高了控制效果.所提控制方法使得闭环系统稳定,且最终一致有界收敛,其有效性通过数值仿真结果得到了验证. 相似文献

18.

基于再励学习的歼击机安全着陆横侧向协调控制

文博武胡寿松《东南大学学报(自然科学版)》2005,(Z2)

基于大系统递阶控制思想,提出了一种运用再励学习算法设计歼击机自动着陆横侧向协调控制系统的方法.将再励学习算法引入歼击机着陆阶段的横侧向子系统的协调控制中,对滚转通道和航向通道的控制器参数进行在线寻优,提高了在线补偿神经网络消除非线性系统逆误差的能力,有效地改善了歼击机着陆阶段横侧向控制子系统的鲁棒性能.通过将这种方法应用于某型歼击机自动着陆控制的实时仿真研究,仿真结果表明了本文方法的有效性和可行性. 相似文献