排序方式: 共有42条查询结果,搜索用时 296 毫秒
31.
32.
在未来的战场中,智能导弹将成为精确有效的打击武器,导弹智能化已成为一种主要的发展趋势。本文以传统的比例制导律为基础,提出基于强化学习的变比例系数制导算法。该算法以视线转率作为状态,依据脱靶量设计奖励函数,并设计离散化的行为空间,为导弹选择正确的制导指令。实验仿真验证了所提算法比传统的比例制导律拥有更好的制导精度,并使导弹拥有了自主决策能力。 相似文献
33.
基于智能体 (Agent)系统强化学习原理和基于动态规划的Q -学习算法的基础上 ,提出了一种新的Agent强化学习算法 .该算法在Agent学习过程中不断调整Agent知识库的加权值 ,在强化学习的每个阶段 ,通过选取合适的信度分配函数来修正Agent强化学习动作的选取策略 .与标准的Q -学习方法相比 ,具有更加合理的物理结构 ,并且能保证算法收敛 .仿真实验说明该方法加快了标准Q -学习算法的收敛速度 ,具有较好的学习性能 相似文献
34.
针对现有的基于强化学习的无人机航迹规划方法因无法充分考虑无人机的航迹约束而使规划获得的航迹可用性较差的问题,提出一种更有效的无人机三维航迹规划算法.该算法利用无人机的航迹约束条件指导规划空间离散化,不仅降低了最终的离散规划问题的规模,而且也在一定程度上提高了规划获得的航迹的可用性,通过在回报函数中引入回报成型技术,使算法具有满意的收敛速度.无人机三维航迹规划的典型仿真结果表明了所提出算法的有效性. 相似文献
35.
对多Agent系统的Q值强化学习算法进行研究,将历史信息因素的影响添加到Q值学习中,提出了一个新的基于多Agent系统的Q值学习算法.该算法在保证多Agent系统利益达到相对最大化的同时,也有效降低了Agent之间的冲突率.最后,通过仿真测试验证了该算法的有效性. 相似文献
36.
利用Q学习优化整个区域的周期,把区域按重要程度划分为若干干线并编排顺序,按顺序对各干线相邻两路口协调相位间的相对相位差用Q学习进行优化,按同样顺序依次确定各路口的绿信比,并结合优化得到的相对相位差确定绝对相位差.TSIS仿真结果表明,相比定时控制方法,此方法能明显提高交通效率。 相似文献
37.
王岚 《兰州理工大学学报》2008,34(6)
提出受到情绪因素影响的智能主体行为选择模型,使智能主体的行为选择过程同时受到认知状态和情绪状态的影响,从而产生更加类人的自主行为表现.建立一个交互式电子宠物狗系统.在用户与宠物狗的交互过程中,宠物狗表现出了比一般电子宠物狗相比更加生动的行为动画, 结果验证了所提出模型的合理性. 相似文献
38.
利用回归树算法作为一种函数近似方法,发挥回归树在进行数值预测上的准确性及快速性,将Q学习和回归树算法组合在一起,改善单纯Q学习所需要的培训时间过长的缺点·详细分析了实际市场模型中使用基于回归树的Q学习算法来确定商品销售价格的策略·最后利用数值分析方法来说明此算法在实际应用中所获得的平均利润和培训时间两个参数的关系,并给出它们的关系曲线图· 相似文献
39.
基于Q-学习的卫星姿态在线模糊神经网络控制 总被引:1,自引:0,他引:1
将模糊神经网络控制引入到三轴稳定卫星的姿态控制中,结合Q-学习和BP神经网络来解决模糊神经网络参数在线调整问题,在无需训练样本的前提下实现控制器的在线学习. 仿真结果表明,这种基于Q-学习的模糊神经网络控制不仅可以满足对姿态控制精度的要求,还有效地抵制了外界干扰,提高了姿态稳定度,对卫星的不确定性有较强的鲁棒性. 相似文献
40.
动物在特定环境下对行为决策的学习能力是其生存的重要基础,因此,如何准确地评价动物在马尔科夫决策任务中利用过去经验与重视未来奖励的学习能力,对于动物行为学与心理学研究至关重要。设置了含有状态转移概率的马尔科夫决策任务,训练家鸽在不同状态下从两个选项中做出选择,并考虑未来收益,以最大化累计奖励。实验结束后,对家鸽的行为决策进行Q-learning建模,用学习率α评估其利用过去积累经验做出选择的能力,用折扣因子γ评估其对未来奖励的重视程度。结果表明,家鸽在马尔科夫决策任务中利用过去经验与重视未来奖励的学习能力可以通过Q-learning模型参数进行评价。 相似文献