基于改进PPO算法的船舶自主避碰决策 |
| |
引用本文: | 关巍,崔哲闻,罗文哲.基于改进PPO算法的船舶自主避碰决策[J].大连海事大学学报(自然科学版),2023(4):28-36. |
| |
作者姓名: | 关巍 崔哲闻 罗文哲 |
| |
作者单位: | 大连海事大学航海学院 |
| |
基金项目: | 国家自然科学基金资助项目(52171342); |
| |
摘 要: | 为减少船舶避碰决策过程中人为失误导致的海难事故,提出一种基于改进近端策略优化(PPO)算法的船舶自主避碰决策。在传统PPO算法广义优势估计基础上加入自适应基线调整,并且使用长短期记忆网络(LSTM)改进网络结构。船舶的航行信息和激光雷达矢量线被应用于神经网络输入,航行制导、角度偏差及《1972年避碰规则》均被纳入改进的奖励函数设计。两船和多船会遇场景仿真实验表明:本文提出的避碰决策可使船舶实现自主航行,并在避碰过程中符合《避碰规则》,为处理复杂局面下的船舶避碰决策提供了参考。
|
关 键 词: | 船舶自主避碰 改进的近端策略优化算法 长短期记忆网络(LSTM) |
|
|