期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于分层马尔可夫决策过程的AUV全局路径规划研究 总被引：1，自引：0，他引：1

洪晔 WANG Hong-jian 边信黔《系统仿真学报》2008,20(9):2361-2364

自主路径规划是自治式水下机器人(AUV)自主能力的重要体现,是保障AUV在大范围复杂海洋环境中自主完成使命作业的关键技术之一。提出了基于马尔可夫决策过程的路径规划方法;并建立了基本的马尔可夫决策模型和结合状态聚类的分层马尔可夫决策模型,同时给出了两种规划的仿真实验及结果分析。实验证明,此类方法能够很好地求解大范围复杂环境内AUV的二维路径规划问题。相似文献

2.

动态武器目标分配问题中策略优化的改进算法 总被引：2，自引：0，他引：2

陈英武蔡怀平邢立宁《系统工程理论与实践》2007,27(7):160-165

动态武器目标分配(Weapon Target Assignment,WTA)中的目标选择策略问题可以通过建立马尔可夫决策过程(Markov decision processes,MDP)模型进行研究,但目前尚无有效求解此类较大规模的MDP问题中最优策略的算法.通过分析动态WTA问题的MDP模型特点,给出了求解该问题最优策略的改进算法.该算法主要在初始策略选取规则、策略改进规则以及最优策略的判断准则等方面进行了改进.该算法具有计算量小,节省内存,并可得到最优解等优点.最后,通过算例将该算法与传统算法进行了比较.改进算法可以用于解决较大规模的动态WTA中的策略优化问题. 相似文献

3.

求解随机需求库存-路径问题的一种算法 总被引：4，自引：1，他引：3

赵达李军马丹祥《系统工程》2006,24(5):23-28

库存-路径问题是研究在供应商管理用户库存策略下，供应商如何合理安排长期库存及配送计划的一类问题，属于NP—hard类问题，也是运筹学领域中研究最活跃的方向之一。本文以零售商系统下随机需求的IRP为研究对象，提出了一种基于马尔科夫决策过程与修正的C—W节约算法的启发式分解算法，并给出了相应的数值算例。相似文献

4.

一类事件驱动马氏决策过程的Q学习

王利存郑应平《系统工程与电子技术》2001,23(4):80-82

对广泛存在的一类事件驱动的平均费用型马尔可夫决策问题,通过分析其模型特征,研究了一种简单的增强型学习算法,不必将事件扩充为系统状态,而只对原始状态的值函数进行学习,减少了计算量和数据存储量。将算法应用于M/M/1排队系统的接纳控制问题,计算机仿真结果表明,算法优于通常的增强型学习和动态规划方法,验证了算法的有效性。相似文献

5.

离散Markov跳变线性系统最优控制

蔡文新方洋旺李锐伍友利《系统工程与电子技术》2012,34(7):1458-1462

针对离散Markov跳变系统,研究其最优控制问题。首先确立一个二次型代价函数,然后运用随机贝尔曼动态规划法,结合Markov跳变系统特性求解贝尔曼方程,获得了完全状态信息情形下Markov跳变系统的最优控制器和黎卡提差分方程;进而将其推广到不完全状态信息情形,利用观测向量获得状态的后验概率密度函数,推导了最优控制器的解析结构和相应的求解算法;最后通过数值仿真验证了所得控制器的有效性。相似文献

6.

Adaptive Output-Feedback Stabilization for PDE-ODE Cascaded Systems with Unknown Control Coefficient and Spatially Varying Parameter

LI Xia LIU Yungang LI Jian XU Zaihua 《系统科学与复杂性》2021,34(1):298-313

This paper investigates the adaptive stabilization for a class of uncertain PDE-ODE cascaded systems. Remarkably, the PDE subsystem allows unknown control coefficient and spatially varying parameter, and only its one boundary value is measurable. This renders the system in question more general and practical, and the control problem more challenging. To solve the problem,an invertible transformation is first introduced to change the system into an observer canonical form,from which a couple of filters are constructed to estimate the unmeasurable states. Then, by adaptive technique and infinite-dimensional backstepping method, an adaptive controller is constructed which guarantees that all states of the resulting closed-loop system are bounded while the original system states converging to zero. Finally, a numerical simulation is provided to illustrate the effectiveness of the proposed method. 相似文献

7.

Grey Markov chain and its application in drift prediction model of FOGs 总被引：1，自引：0，他引：1

Fan Chunling Jin Zhihua Tian Weifeng & Qian Feng. Department of Information Measurement Technology Instrument Shanghai Jiaotong University Shanghai P. R. China . College of Automation Electric Engineering Qingdao University of Science Technology Qingdao P. R. China 《系统工程与电子技术(英文版)》2005,16(2)

1.INTRODUCTION Sincetheinterferometricfiberopticalgyroscope(FOG)wasfirstproposedbyAmericanUtahUniver sityin1976,ithasbeenattractingalotofscientific andtechnicalinterestsinsteadofthespinningwheel mechanicalgyroforitcanprovideuniqueadvantages.Withtheextensionofresearch,peoplehavebecome acquaintedwithnoisesandbiasdrifts,whichinduce non negligibleerrorsintheoutputofFOGs.The hugeeffortsontechnique,whichweredevotedtothe developmentoflow noiseandlow driftFOGsmainly basedonmaterials,machining… 相似文献

8.

基于超订的民航收益管理单航段舱位控制模型比较研究

徐丽萍李金林雷俊丽冉伦《系统工程理论与实践》2014,34(1):129-137

针对民航收益管理单航段多票价级别允许超订并包含群订情况的舱位控制问题,将考虑顾客到达率和退订率预测误差的稳健模型,与不考虑需求预测误差的名义模型和改进的EMSR模型进行比较.模拟结果表明,当存在需求预测误差时,最优稳健策略比最优名义策略能获得更高的期望收益,并且随着误差水平的增大,稳健策略优于名义策略的效果越明显.同时指出,稳健策略更适合在剩余座位数较少或剩余销售时间较长的情况下应用. 相似文献

9.

部分可观测马尔可夫决策过程算法综述

桂林武小悦《系统工程与电子技术》2008,30(6)

部分可观测马尔可夫决策过程(POMDP)是马尔可夫决策过程(MDP)的扩展,它允许系统的状态信息部分可知。但POMDP的可能应用大部分没有实现,这主要是因为缺乏有效的算法。POMDP的算法分为近似算法和精确算法,精确算法是构造近似算法的基础。介绍了POMDP模型后,对离散时间、有限状态集的POMDP精确算法和近似算法进行了综述,分析了造成POMDP难以求解的主要原因,提出了进一步的研究方向。相似文献

10.

基于强化学习的战时保障力量调度策略研究

曾斌王睿李厚朴樊旭《系统工程与电子技术》2022,44(1):199-208

智能化后装保障调度是当前军事领域的研究热点之一,其中复杂多变的战场环境要求战时保障具有良好的自适应性。针对此问题,提出了基于马尔可夫决策过程的强化学习模型,能够主动学习最佳派遣策略,根据历史数据和当前态势预判后续变化。为了考虑不确定事件的影响,在模型求解算法中增加了基于概率统计模型的仿真流程;为了减少随机事件带来的计算复杂性,利用决策后状态变量重新设计了贝尔曼迭代方程;为了解决状态空间的维度灾问题,提出了基于基函数组合的近似函数。仿真实验表明,强化学习能力的引入能够显著提高战时保障调度性能。相似文献

11.

部分可观条件下空对地打击中的动态资源分配

李远苏菲朱华勇沈林成《系统工程与电子技术》2010,32(9):1931-1936

针对静态分配模型的不足,基于部分可观的马尔可夫决策过程建立对单个目标的多阶段决策模型,以反映任务执行效果及反馈信息中的不确定性,进而提出对多个目标的动态资源分配模型。在离线优化阶段中,通过对偶分解法将其分解为一系列较易求解的子问题,并基于次梯度算法调整资源价格,以协调子问题所构造策略中资源的使用量。在实时决策中,根据所得策略及实际执行情况指定对目标的具体行动方案,确保约束条件得以满足。仿真结果表明了方法的有效性。相似文献

12.

面向目标跟踪的单平台主被动传感器长期调度 总被引：1，自引：0，他引：1

单甘霖张子宁《系统工程与电子技术》2014,36(3):458-463

以目标跟踪为背景,研究了单平台上主被动传感器的长期调度问题。通过合理、实时地切换主被动传感器,使得有限时域内的跟踪精度和辐射风险达到合理的平衡。将该调度问题构建成部分可观马氏决策过程(partially observable Markov decision process, POMDP)以同步实现目标跟踪和辐射控制。提出以容积采样法估算长期精度收益,以隐马氏模型滤波器推导长期辐射代价。最终将原问题转化成决策树并利用分枝定界法进行求解。仿真结果证明了本方法的有效性。相似文献

13.

HEAVY TRAFFIC LIMIT THEOREMS IN FLUID BUFFER MODELS

YINGang ZHANGHanqin 《系统科学与复杂性》2004,17(1):1-15

A fluid buffer model with Markov modulated input-output rates is considered.When traffic intensity is near its critical value, the system is known as in heavy traffic.It is shown that a suitably scaled sequence of the equilibrium buffer contents has a weakor distributional limit under heavy traffic conditions. This weak limit is a functional of adiffusion process determined by the Markov chain modulating the input and output rates.The first passage time of the reflected process is examined. It is shown that the mean firstpassage time can be obtained via a solution of a Dirichlet problem. Then the transitiondensity of the reflected process is derived by solving the Kolmogorov forward equation witha Neumann boundary condition. Furthermore, when the fast changing part of the generatorof the Markov chain is a constant matrix, the representation of the probability distributionof the reflected process is derived. Upper and lower bounds of the probability distributionare also obtained by means of asymptotic e 相似文献

14.

网络系统可靠性分析的马尔可夫过程法

冯海林刘三阳宋月《系统工程与电子技术》2004,26(11):1669-1671

针对网络系统状态空间的巨大问题,提出用最大概值状态生成法生成网络实际运行时最可能出现的状态,并定义数字0和1的一种运算,以生成网络的断集空间用于判断网络状态的正常与故障。从而在网络部件寿命以及修理时间均为指数分布时,可应用马尔可夫过程理论获得网络系统的稳态可用度,首次故障前平均时间,稳态故障频度等指标,并举例进行说明。相似文献

15.

针对无人潜航器的反潜策略研究

曾斌张鸿强李厚朴《系统工程与电子技术》2022,44(10):3174-3181

近年来无人潜航器对国家海洋国土安全带来的威胁逐渐增大,其低噪声特性和隐蔽入侵方式也给反潜行动带来极大困难。为此,提出了一种两阶段规划算法,用以学习优化反潜策略,在部署阶段,建立了基于不确定性马尔可夫决策过程的反潜资源分配模型,并设计了鲁棒性部署策略强化学习算法,用以求解不确定条件下分配模型的纳什均衡解。在搜索阶段,建立了基于部分可观察马尔可夫决策过程的搜潜模型,并设计了基于多智能体强化学习的搜潜策略学习算法。最后,通过仿真实验验证了本算法与比对算法相比具有更高的性能。相似文献

16.

基于核和灰度的灰色马尔可夫预测模型及应用

王建华查怡婷王雪熊峰《系统工程与电子技术》2020,42(2):398-404

在处理预测问题时,常有原始数据为区间数组成的随机波动性较大的区间数列的状况。为进一步提高区间灰数预测精度,提出基于核和灰度的灰色马尔可夫预测模型。该方法以区间灰数核序列为依托建立预测模型,实现区间灰数核的预测;又根据“灰度不减公理”,由灰数核为中心延伸得出区间灰数的上下界;在保持区间灰数独立完整的前提下,构建了区间灰数预测模型,在此基础上用马尔可夫预测模型修正预测结果。该模型在航空货运量的趋势预测中显示马式链修正结果较区间灰数预测数据呈低估状态。结果有助于加强市场参与者对航空货运市场的宏观认识,并为经济决策行为提供参考。相似文献

17.

Optimization of dynamic sequential test strategy for equipment health management

下载免费PDF全文

Shuming Yang Jing Qiu Guanjun Liu Peng Yang 《系统工程与电子技术(英文版)》2012,23(1):71-77

Testing is the premise and foundation of realizing equipment health management (EHM). To address the problem that the static periodic test strategy may cause deficient test or excessive test, a dynamic sequential test strategy (DSTS) for EHM is presented. Considering the situation that equipment health state is not completely observable in reality, a DSTS optimization method based on partially observable semi-Markov decision process (POSMDP) is proposed. Firstly, an equipment health state degradation model is constructed by Markov process, and the control limit maintenance policy is also introduced. Secondly, POSMDP is formulated in great detail. And then, POSMDP is converted to completely observable belief semi-Markov decision process (BSMDP) through belief state. The optimal equation and the corresponding optimal DSTS, which minimize the long-run expected average cost per unit time, are obtained with BSMDP. The results of application in complex equipment show that the proposed DSTS is feasible and effective. 相似文献

18.

BIT分析的三态马尔可夫模型 总被引：2，自引：0，他引：2

柳新民邱静刘冠军《系统工程与电子技术》2004,26(6):850-853

BIT虚警率高阻碍了BIT效能的充分发挥和更广泛、更深入的应用,如何在故障检测率一定的条件下,降低虚警率将成为一个亟待解决的问题。通过将系统状态划分为正常、间歇和故障三种状态,建立了三态马尔可夫模型。分析了三态模型的合理性、与两态(正常状态、故障状态)模型的关系,并对两者进行了对比。理论分析表明,基于三态模型的BIT与基于两态模型的BIT系统相比,其能力与性能得到了提高,在提高故障检测率的同时,还可以降低虚警率。相似文献

19.

基于动态规划的装配线物料搬运节能调度方法

胡理嫚李志伟刘雪垠陈鹏《系统工程理论与实践》2018,38(9):2424-2433

为有效提升混流装配线的生产效率与环境效益,提出了装配线多载量小车物料搬运节能调度方法.以最小化最大线边库存与总能耗为目标,建立了多目标混合整数规划模型.通过问题性质分析,将混合优化问题转为离散优化问题,降低了模型复杂度.针对动态规划算法维数灾问题,提出了基于剪枝规则的多目标规划算法:通过剪枝规则剪除被支配状态,缩减搜索空间以提高计算效率.其中,为满足动态规划的马尔可夫性,定义了新的状态表示方式.最后,仿真实验验证了所提出的调度方法的优越性与算法的有效性. 相似文献

20.

Fuzzy Q learning algorithm for dual-aircraft path planning to cooperatively detect targets by passive radars

下载免费PDF全文

Xiang Gao Yangwang Fang Youli Wu 《系统工程与电子技术(英文版)》2013,(5):800-810

The problem of passive detection discussed in this paper involves searching and locating an aerial emitter by dualaircraft using passive radars. In order to improve the detection probability and accuracy, a fuzzy Q learning algorithrn for dual-aircraft flight path planning is proposed. The passive detection task model of the dual-aircraft is set up based on the partition of the target active radar＇s radiation area. The problem is formulated as a Markov decision process （MDP） by using the fuzzy theory to make a generalization of the state space and defining the transition functions, action space and reward function properly. Details of the path planning algorithm are presented. Simulation results indicate that the algorithm can provide adaptive strategies for dual-aircraft to control their flight paths to detect a non-maneuvering or maneu- vering target. 相似文献