基于深度强化学习的无人艇轨迹跟踪算法研究 |
| |
引用本文: | 夏家伟,朱旭芳,罗亚松,吴兆东.基于深度强化学习的无人艇轨迹跟踪算法研究[J].华中科技大学学报(自然科学版),2023(5):74-80. |
| |
作者姓名: | 夏家伟 朱旭芳 罗亚松 吴兆东 |
| |
作者单位: | 1. 海军工程大学兵器工程学院;2. 海军工程大学电子工程学院 |
| |
基金项目: | 湖北省自然科学基金资助项目(2018CFC865);;中国博士后基金资助项目(2016T45686); |
| |
摘 要: | 针对欠驱动水面无人艇(USV)轨迹跟踪控制问题,提出一种基于近端策略优化(PPO)的深度强化学习轨迹跟踪控制算法.为引导控制器网络的正确收敛,构建基于长短时记忆(LSTM)网络层的深度强化学习控制器,设计了相应的状态空间和收益函数.为增强控制器的鲁棒性,生成轨迹任务数据集来模拟复杂的任务环境,以此作为深度强化学习控制器的训练样本输入.仿真结果表明:所提出的算法能有效收敛,具备扰动环境下的精确跟踪控制能力,有较大的实际应用潜力.
|
关 键 词: | 水面无人艇(USV) 轨迹跟踪 深度强化学习(DRL) 近端策略优化(PPO) 轨迹任务数据集 |
|