期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

马军殷保群《系统仿真学报》2008,20(21):5903-5906

策略梯度优化算法是一种很重要的强化学习算法,对实现机器人的自主导航有着重要的应用价值.在部分可观Markov决策过程(POMDP)的基础上,实现了两个有限记忆的策略梯度优化算法:基于模型的GAMP算法和无模型的IState-GPOMDP算法,并利用该算法对机器人走迷宫的问题进行了仿真.通过分析仿真结果,对这两种算法引入了基于观测的优化;并发现在所给报酬函数下,策略梯度算法中的步长参数也在一定程度上影响着优化策略的效率. 相似文献

2.

基于POMDP模型的分布式机会频谱接入算法

张士兵王惠建邹丽《南京邮电大学学报(自然科学版)》2014,(1):10-16

针对认知无线电（cognitive radio,CR）信道的动态特性,以部分可观测马尔科夫决策过程（POMDP）为模型对认知无线电网络用户的频谱感知和频谱接入过程进行研究,提出了基于POMDP模型的分布式机会频谱接入算法.该算法利用网络信道的历史频谱感知信息对主用户接入信道的状况作出估计,以认知用户吞吐量最大化为目标进行频谱接入.同时,通过贪心算法得到此优化策略的次优解,降低了最优策略的计算复杂度.论文分析了认知用户接入吞吐量与网络中信道数目以及信道状态转移概率之间的关系,将贪心算法与随机检测接入算法进行了仿真比较.仿真结果显示,该算法获得的吞吐量比随机检测接入算法提高了约25％,能够更有效地做出接入策略. 相似文献

3.

基于快速MCVI算法实现CR信道接入_*

刘寅江虹《科学技术与工程》2016,16(2)

在认知无线电(CR)技术中,无线网接入是一个极为重要的问题。针对这一问题,当前主流的解决思路包括博弈算法和基于部分可观测马尔科夫决策过程模型(POMDP)的算法。相比于博弈算法,基于POMDP模型的算法具有更好的环境适应性。在此背景下,本文提出了基于POMDP模型的快速蒙特卡罗值迭代算法(Fast MCVI)解决无线网接入问题。与其它解决POMDP模型的算法不同,该算法可解决值连续状态空间下的POMDP模型,具有更好的可靠性和稳定性。另外,相比于传统MCVI算法,快速MCVI算法使用非可支配排序遗传算法(NSGA2)进行优化,加快了算法收敛速度,使其在相同运行时间内能获得更好的决策结果。实验证明,通过值连续状态空间的POMDP模型对CR接入问题建模并使用快速MCVI算法进行决策,网络吞吐率比传统MCVI算法提高了1~1.7个百分点,比贪心算法提高了2.8~5个百分点。相似文献

4.

部分可观测信息条件下系统最佳检修策略分析

尚永爽许爱强李文海王怡苹盛沛《系统工程与电子技术》2012,34(4):749-753

针对部分可观测信息条件下的退化系统,提出利用部分可观测马尔可夫决策过程模型解决系统视情维修问题。采用隐马尔可夫模型对系统进行状态评估,得到系统的转移概率和观测概率矩阵;利用比例故障率模型对系统进行可靠性分析,得到系统的故障率和可靠度函数,不仅考虑系统的工作时间,也考虑系统的退化状态。最后,以系统长期运行的最小平均费用率为目标,得到最佳的检测周期和最优的更换策略。实例研究表明,该方法可为保障人员提供科学的维修决策依据。相似文献

5.

基于POMDP的认知无线电动态频谱接入算法

舒鹏飞李政谭学治刘玉涛《科学技术与工程》2009,9(12)

针对当前认知无线电动态频谱接入算法实现复杂度高的缺点,提出了在硬件受限制的情况下,基于部分可观察马尔科夫决策过程的动态频谱接入算法.该算法利用多次对外界信道的检测得到对外界环境的估计,然后根据此估计以当前和未来收益总和最大化为目标,实频谱接入,并实现了最优解和贪心法次优解.该算法比随机检测接入算法多获得约25%的带宽,贪心法的次优解在阶段数较少时与最优解性能非常接近. 相似文献

6.

基于POMDP的VOD接入控制建模与仿真

芦珊黄静殷保群《中国科学技术大学学报》2009,39(9)

为分布式视频点播(video on demand,VOD)接入控制建立了基于POMDP(部分可观Markov决策过程)的数学模型,应用策略梯度优化算法仿真求解模型的最优策略.仿真结果表明,基于POMDP模型的仿真有效地缩短了仿真时间;与传统分布式系统的接入控制方法相比,更合理地利用了系统的资源,可以给运营商带来更大的效益. 相似文献

7.

有限规划水平部分可观Markov自适应决策过程的参数决策

李江红韩正之《上海交通大学学报》2000,34(12):1653-1657

提出了一种有限规划水平部分可观、不确定Markov决策过程自适应决策算法.算法的基本思想是运用Bayes理论对未知系统进行"学习”,通过最小决策失误概率的参数决策实现参数估计,在参数估计的基础上进行控制决策从而以最大概率实现最优决策.文中证明了决策算法的收敛性.仿真结果表明了决策算法的有效性. 相似文献

8.

基于POMDP的可伸缩视频流优化决策调度

范凤军邹君妮汪敏熊红凯《上海交通大学学报》2010,44(3):393-0397

针对可伸缩视频流在无线通信中的数据包调度问题,提出了一种基于部分可观测马尔可夫决策过程（POMDP）的决策调度策略,在用户状态不确定或部分可观测条件下,采用POMDP建立了完整的最优化调度模型,以实现视频接收质量的最佳化.仿真实验结果表明,与传统的调度算法相比,该方法有效提高了视频流的平均峰值信噪比(PSNR).随着调度规模的扩大,其性能能够逐渐逼近用户状态完全确定的理想马尔可夫决策过程（MDP）模型. 相似文献

9.

POMDP基于点的值迭代算法中一种信念选择方法

冯奇周雪忠黄厚宽张小平《北京交通大学学报(自然科学版)》2009,33(5)

部分可观察马尔可夫决策过程(POMDP)是描述不确定环境下进行决策的数学模型.基于点的值迭代算法是求解POMDP问题的一类近似解法.针对基于点的算法中信念选择这一关键问题,提出了一种基于熵的信念选择方法(EBBS).EBBS算法通过计算可以转移到的信念点的不确定性,选择熵较小且到当前信念点集距离大于一定阈值的信念点扩充信念点集合.实验结果表明,通过熵选择信念点的值迭代算法只需要在较少数量的信念点上进行值迭代操作就能得到预期的折扣报酬. 相似文献

10.

基于Stackelberg博弈与深度强化学习的计算卸载策略

周娴玮龚启旭余松森《系统仿真学报》2023,35(2):372-385

为使5G混合专网结构的2种用户能获得最优计算卸载策略，将2种用户竞争移动边缘计算(mobile edge computing,MEC)服务器资源的问题建模成Stackelberg博弈，并分别讨论了完全信息博弈和不完全信息博弈下的策略。完全信息博弈下，存在唯一纳什均衡解；不完全信息博弈下，将环境建模为部分可观测的马尔可夫决策过程(partially observable Markov decision process,POMDP)，并提出一种基于二阶段深度强化学习(two-stage deep reinforcement learning,TSDRL)的最优卸载策略。仿真实验表明：该算法相较于D-DRL算法能减少20.81%的时延及3.38%的能耗，有效提高用户QoE(quality of experience)。相似文献