基于逆向强化学习的装船时堆场翻箱智能决策期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于逆向强化学习的装船时堆场翻箱智能决策

作者姓名：	张艳伟蔡梦蝶

作者单位：	武汉理工大学交通与物流工程学院,湖北武汉 430063

基金项目：	国家自然科学基金（60904067）

摘要：	集装箱码头装船时堆场翻箱具有时序性与动态性,属于NP(non-deterministic polynomial)难问题。针对常见的顺岸式集装箱码头堆场,以最小化总翻箱次数为优化目标,考虑翻箱对装船连续性及效率的影响,基于马尔科夫决策过程构建装船时堆场翻箱模型,设计逆向强化学习算法。为验证算法的有效性,以随机决策为基准,将设计的逆向强化学习算法与码头常见规则决策、随机决策对比。结果表明,贝位堆存状态不佳时,常见的规则决策不一定优于随机决策;逆向强化学习算法可有效挖掘隐含专家经验,收敛至最小翻箱次数的概率更高,且不同堆存状态下均能更好地限制单次发箱的翻箱次数,可实现装船时堆场翻箱智能决策。
关键词：	集装箱码头堆场翻箱智能决策马尔科夫决策过程逆向强化学习
收稿时间：	2021-01-14

	点击此处可从《同济大学学报(自然科学版)》浏览原始摘要信息
	点击此处可从《同济大学学报(自然科学版)》下载免费的PDF全文