排序方式: 共有30条查询结果,搜索用时 15 毫秒
1.
策略梯度优化算法是一种很重要的强化学习算法,对实现机器人的自主导航有着重要的应用价值.在部分可观Markov决策过程(POMDP)的基础上,实现了两个有限记忆的策略梯度优化算法:基于模型的GAMP算法和无模型的IState-GPOMDP算法,并利用该算法对机器人走迷宫的问题进行了仿真.通过分析仿真结果,对这两种算法引入了基于观测的优化;并发现在所给报酬函数下,策略梯度算法中的步长参数也在一定程度上影响着优化策略的效率. 相似文献
2.
3.
通过测度变换的方法构造一个概率空间,利用观测变量在该构造空间中独立的性质,研究了一类在实际中应用广泛的隐马尔可夫模型———零延迟隐马尔可夫模型;然后通过测度的逆变换,将构造空间中得到的结果返回到实际的空间中来,克服了通过半鞅的方法得到标量估计的困难。最后给出了零延迟隐马尔可夫模型中标量估计的一般公式,并且应用该公式给出了状态、跳跃次数、状态到达次数等标量估计,以阐明该方法的应用。 相似文献
4.
论文在Markov性能势理论基础上,研究了Markov控制过程在神经元网络等逼近结构表示的随机平稳策略作用下的仿真优化算法,分析了它们在一个无限长的样本轨道上概率1的收敛性,并给出了一个三-状态受控Markov过程的数值实例。 相似文献
5.
针对BitTorrent-like文件共享系统,提出了一个新型动力学模型.新的动力学模型从微观的角度描述了P2P文件共享系统特性,通过采用新的状态去描述系统节点间的交互演化过程.通过该模型,研究了影响系统的诸多因素,主要通过策略因素的形式来体现,其中包括节点选择策略、文件片选择策略、带宽分配策略和节点阻塞策略.最后,通过实验验证模型的正确性. 相似文献
6.
从连续时间Markov链(CTMC)性能势的角度,借助于定义的折扣Poisson方程,给出了CTMC基于性能势的灵敏度公式及折扣代价准则(简称折扣准则)下的最优性方程.此外,建立了在折扣准则与无穷时间平均代价准则(简称平均准则)下灵敏度公式及最优性方程之间的联系. 相似文献
7.
为分布式视频点播(video on demand,VOD)接入控制建立了基于POMDP(部分可观Markov决策过程)的数学模型,应用策略梯度优化算法仿真求解模型的最优策略.仿真结果表明,基于POMDP模型的仿真有效地缩短了仿真时间;与传统分布式系统的接入控制方法相比,更合理地利用了系统的资源,可以给运营商带来更大的效益. 相似文献
8.
通过分析非线性系统采样观测器的误差,给出了观测器误差一致最终有界的条件,估算了误差的最终边界.分析结果表明,采样周期固定时,选择精度更高的数值方法可以减小观测器的误差. 相似文献
9.
10.
基于POMDP的流媒体网络数据调度建模与仿真 总被引:1,自引:0,他引:1
针对P2P流媒体网络的数据调度问题,提出了一种新的调度算法,即将节点的数据请求作为随机事件,运用基于事件的方法,对P2P流媒体网络的数据调度问题,建立基于部分可观Markov决策过程(POMDP)的数学模型,并运用梯度算法仿真求解模型的最优策略.仿真结果表明了所提方法的有效性. 相似文献