采用双层强化学习的干扰决策算法 |
| |
引用本文: | 颛孙少帅,杨俊安,刘辉,黄科举.采用双层强化学习的干扰决策算法[J].西安交通大学学报,2018(2). |
| |
作者姓名: | 颛孙少帅 杨俊安 刘辉 黄科举 |
| |
作者单位: | 国防科技大学电子对抗学院;安徽省电子制约技术重点实验室; |
| |
摘 要: | 为解决强化学习算法在干扰决策过程中收敛速度慢的问题,提出了一种采用双层强化学习的干扰决策算法(DRLJD)。首先对等效通信参数进行建模,模型减少了待学习参数的个数,降低了搜索空间的维度;然后利用降维后的搜索空间指导干扰参数选择,避免随机选择导致干扰性能差的缺点;最后利用选择的干扰参数施加干扰,并根据环境反馈进一步降低搜索空间的维度,通过不断交互的方式加快算法的收敛速度。此外,将以往的干扰经验以先验信息的形式加入到系统的学习进程中,进一步缩短了系统的学习时间。针对构造的干扰问题实验表明,DRLJD算法经过200次交互便学习到优异的干扰策略,小于现有算法所需600次交互,且先验信息的利用进一步降低了对交互次数的要求。以提出的新的奖赏标准作为奖赏依据,算法能够在未知通信协议情况下以牺牲交互时间为代价学习到最佳干扰策略。
|
关 键 词: | 强化学习 双层强化学习 干扰决策 先验信息 奖赏标准 |
An Algorithm for Jamming Decision Using Dual Reinforcement Learning |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 CNKI 等数据库收录! |
|