基于改进PPO算法的双足机器人自适应行走控制期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于改进PPO算法的双足机器人自适应行走控制

引用本文：	吴万毅,刘芳华,郭文龙.基于改进PPO算法的双足机器人自适应行走控制[J].扬州大学学报(自然科学版),2023(6):44-50.

作者姓名：	吴万毅刘芳华郭文龙

作者单位：	江苏科技大学机械工程学院

基金项目：	国家自然科学基金资助项目(62002141)；

摘要：	针对双足机器人在未知环境行走过程中步态不稳的问题，提出了一种基于近端策略优化(proximal policy optimization, PPO)的双足机器人控制方法.首先，构建动作网络和价值网络，引入长短时记忆(long short-term memory, LSTM),以缩小双足机器人与未知环境交互时的状态估计值与期望值之间的偏差；其次，在动作网络中引入注意力机制，自适应改变神经网络自主学习的权重系数，以提高学习效率，得到适应不同环境的稳定步态；最后，通过仿真实验验证所提算法的有效性.结果表明：改进后近端策略优化算法的收敛速度更快，学习效率更高，能够有效提高双足机器人自适应行走的稳定性.
关键词：	近端策略优化算法长短时记忆注意力机制双足行走机器人神经网络