首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
针对基于强化学习的多功能雷达干扰决策方法训练周期长、收敛慢的问题,本文提出了基于先验知识的多功能雷达智能干扰决策算法。所提算法使用了基于势能函数的收益塑造理论,利用先验知识设置收益函数,相比于传统算法,具有更快的收敛速率。利用先验知识加速算法收敛速率的方法对强化学习在多功能雷达干扰决策中的实际应用具有重要的意义,对于强化学习在其他领域的应用也具有很好的参考价值。  相似文献   

2.
针对传统方法难以适用于动态不确定环境下的大规模协同目标分配问题,提出一种基于多智能体强化学习的协同目标分配模型及训练方法。通过对相关概念和数学模型的描述,将协同目标分配转化为多智能体协作问题。聚焦于顶层分配策略的学习,构建了策略评分模型和策略推理模型,采用Advantage Actor-Critic算法进行策略优化。仿真实验结果表明,所提方法能够准确刻画作战单元之间的协同演化内因,有效地实现了大规模协同目标分配方案的动态生成。  相似文献   

3.
认知无线电和动态频谱分配技术是解决频谱资源短缺问题的有效手段。随着近年来深度学习和强化学习等机器学习技术迅速发展, 以多智能体强化学习为代表的群体智能技术不断取得突破, 使得分布式智能动态频谱分配成为可能。本文详细梳理了强化学习和多智能体强化学习领域关键研究成果, 以及基于多智能体强化学习的动态频谱分配过程建模方法与算法研究。并将现有算法归结为独立Q-学习、合作Q-学习、联合Q-学习和多智能体行动器-评判器算法4种, 分析了这些方法的优点与不足, 总结并给出了基于多智能体强化学习的动态频谱分配方法的关键问题与解决思路。  相似文献   

4.
为满足未来无人系统通信智能抗干扰的实际需要,针对传统变换域通信系统(transform domain communication system, TDCS)自身开放性有限、干扰应对能力不足等问题,设计了基于认知引擎驱动的智能系统架构,并针对各认知引擎驱动子模块提出了3种改进方法,包括基于稀疏逼近的未知干扰处理、基于稀疏表示的变换学习干扰识别以及针对性的干扰变换稀疏分析方法。实验结果表明,识别子模块与传统的分类器相比,整体的干扰识别率提高了5.2%,并且可实现无监督的学习;同时,针对典型干扰的重构精度在90%以上,实现了不同干扰类型的最优变换处理,显著提高了系统的抗干扰性能,传输误码率逼近理想水平。  相似文献   

5.
在在线非线性自适应滤波应用中,由于基于多核学习的算法具有更高自由度并且能够利用更多数据特征,相比基于单核学习的算法在性能上有很大提升。首先给出具有相同“字典”的多核仿射投影算法,该算法是多核学习方法和仿射投影算法的结合。然后基于相干准则针对多核仿射投影算法的特例,对应不同高斯核带宽,利用相干稀疏准则构造不同“字典”,提出利用自适应l1范数正则项来解决归一化多核最小均方非线性自适应滤波算法在非平稳信号下“字典”存在冗余核函数的问题。最后数值仿真结果与比较验证了所提算法的有效性。  相似文献   

6.
针对由卫星光网络拓扑动态变化、业务多样化和负载不均引起的路由收敛慢和波长利用率低的问题, 提出了一种基于深度强化学习的卫星光网络波长路由分配方法。基于软件定义中轨/低轨(medium earth orbit/low earth orbit, MEO/LEO)双层卫星网络架构, 利用深度强化学习算法动态感知网络当前的业务负载和链路状况, 构造基于时延、波长利用率和丢包率的奖励函数进行选路决策。为了解决单跳链路对整个光路的影响, 引入链路瓶颈因子, 搜索符合服务质量(quality of service, QoS)约束的最优路径。研究结果表明, 与传统卫星网络分布式路由(satellite network distributed routing algorithm, SDRA)算法和Q-routing算法相比, 所提算法降低了网络的时延、丢包率, 提高了波长利用率, 同时也降低了高优先级业务的阻塞率。  相似文献   

7.
在1-Bit压缩感知(compressive sensing, CS)框架下,将信号的稀疏结构先验引入广义稀疏Bayesian学习(generalized sparse Bayesian learning, Gr-SBL),研究基于Gr-SBL的1-Bit CS重构。将广义线性模型与模式耦合稀疏Bayesian学习相结合,提出了一种基于广义模式耦合稀疏Bayesian学习1-Bit CS重构算法,简称为1-Bit Gr-PC-SBL算法。该算法将1-Bit CS重构问题迭代地分解成一系列标准CS重构问题,在信号稀疏模式未知的情况下,基于模式耦合稀疏Bayesian学习实现信号重构。进而,引入阈值自适应的二进制量化,设计了自适应阈值的1-Bit Gr-PC-SBL算法,进一步提升了算法的信号重构性能。  相似文献   

8.
在1-Bit压缩感知(compressive sensing, CS)框架下,将信号的稀疏结构先验引入广义稀疏Bayesian学习(generalized sparse Bayesian learning, Gr-SBL),研究基于Gr-SBL的1-Bit CS重构。将广义线性模型与模式耦合稀疏Bayesian学习相结合,提出了一种基于广义模式耦合稀疏Bayesian学习1-Bit CS重构算法,简称为1-Bit Gr-PC-SBL算法。该算法将1-Bit CS重构问题迭代地分解成一系列标准CS重构问题,在信号稀疏模式未知的情况下,基于模式耦合稀疏Bayesian学习实现信号重构。进而,引入阈值自适应的二进制量化,设计了自适应阈值的1-Bit Gr-PC-SBL算法,进一步提升了算法的信号重构性能。  相似文献   

9.
本文针对基于核的增量超限学习机(kernel based incremental extreme learning machine,KB-IELM)对非平稳动态系统的时变状态跟踪能力不足的问题,提出一种新型的状态预测方法。通过融合遗忘因子和自适应时变正则化因子构建新的目标函数。通过最小化字典的快速留一交叉验证(fast leave-one-out cross-validation, FLOO-CV)误差,选择具有预定规模的关键节点以构成字典。通过融合遗忘因子,为字典中各关键节点按时间顺序分配不同权重。基于FLOO-CV原则,使用天牛须搜索(beetle antennae search,BAS)算法为不同的非线性区域赋予不同的正则化参数。通过矩阵初等变换和分块求逆,实现核权重向量的在线递推更新。将模型应用于非平稳Mackey-Glass混沌时间序列预测和某型飞机发动机的状态预测。所提算法相比于最新的非平稳在线序列核超限学习机(non-stationary online sequential kernel extreme learning machine,NOS-KELM)和融合自适应正则化因子的在线稀疏核超限学习机(online sparse kernel extreme learning machine with adaptive regulation factor, OSKELM-ARF)两种方法,其训练精度分别提升了66.67%、50.72%、预测精度提升了67.02%、56.34%,最大预测误差减少了67.27%、51.09%,平均相对误差率分别减少了67.18%、59.62%。实验证明所提算法有效提升了在线预测的精度。  相似文献   

10.
本文针对基于核的增量超限学习机(kernel based incremental extreme learning machine,KB-IELM)对非平稳动态系统的时变状态跟踪能力不足的问题,提出一种新型的状态预测方法。通过融合遗忘因子和自适应时变正则化因子构建新的目标函数。通过最小化字典的快速留一交叉验证(fast leave-one-out cross-validation, FLOO-CV)误差,选择具有预定规模的关键节点以构成字典。通过融合遗忘因子,为字典中各关键节点按时间顺序分配不同权重。基于FLOO-CV原则,使用天牛须搜索(beetle antennae search,BAS)算法为不同的非线性区域赋予不同的正则化参数。通过矩阵初等变换和分块求逆,实现核权重向量的在线递推更新。将模型应用于非平稳Mackey-Glass混沌时间序列预测和某型飞机发动机的状态预测。所提算法相比于最新的非平稳在线序列核超限学习机(non-stationary online sequential kernel extreme learning machine,NOS-KELM)和融合自适应正则化因子的在线稀疏核超限学习机(online sparse kernel extreme learning machine with adaptive regulation factor, OSKELM-ARF)两种方法,其训练精度分别提升了66.67%、50.72%、预测精度提升了67.02%、56.34%,最大预测误差减少了67.27%、51.09%,平均相对误差率分别减少了67.18%、59.62%。实验证明所提算法有效提升了在线预测的精度。  相似文献   

11.
针对单轨双轮机器人在静止情况下存在的固有静态不稳定问题, 提出一种基于模糊强化学习(简称为Fuzzy-Q)的控制方法。首先,运用拉格朗日法建立带控制力矩陀螺的系统动力学模型。然后, 在此基础上设计表格型强化学习算法, 实现机器人的稳定平衡控制。最后,针对算法存在的控制精度不高和控制器输出离散等问题, 采用模糊理论泛化动作空间, 改善控制精度, 并使控制输出连续。仿真实验表明, 相较于传统强化学习方法, 所提方法能够显著提高控制精度, 且可以有效抑制外界干扰力矩对系统的影响, 保证系统具有一定的抗干扰能力。  相似文献   

12.
将跳频体制信号引入鱼雷电磁引信能有效拓展引信工作带宽、提高抗干扰能力, 但如何选取备选频点、避免跳频频率与干扰冲突, 是目前仍需解决的问题之一。本文分析研究了跳频鱼雷电磁引信工作原理及干扰特性, 基于认知无线电技术的频谱管理思想设计了一种干扰感知策略, 提出一种基于多分辨率频谱感知算法的干扰感知技术方案, 并采用双门限判决方法解决了跳频鱼雷电磁引信背景干扰与随机干扰的同步检测问题, 设计了备选频点选取算法。仿真结果表明, 提出的技术方案能够有效实现干扰感知, 采用高斯函数作为母小波函数可在信噪比(signal to noise ratio, SNR)为5 dB时, 使最高检测概率达0.995;在SNR为-15 dB时, 最高虚警概率低于0.25;当SNR高于-5 dB时, 应对应答干扰和扫频干扰的跳频干扰冲突概率均低于0.05%。  相似文献   

13.
网络化战争中,机载雷达在实现对目标信息持续获取的同时保证载机安全生存是亟待解决的问题。对此,以多机协同作战安全转场任务为背景,提出基于深度强化学习算法的智能传感器管理方法。首先,综合考虑信号辐射量与目标威胁因素,计算目标运动过程中的实时威胁隶属度。其次,在强化学习框架下对雷达-目标分派问题建模,利用神经网络逼近动作-值函数,并根据时序差分算法进行参数更新。仿真结果表明,相比于传统调度方法,所提算法有效提升了任务成功率,缩短了任务完成用时。  相似文献   

14.
为了提高稀疏度自适应贪婪迭代(sparsity adaptive greedy iterative, SAGI)算法的重构性能, 缩短重构时间, 提出了一种基于有限等距性质(restricted isometry property, RIP)的稀疏度预测自适应匹配追踪(RIP based prediction-sparsity adaptive matching pursuit, RSAMP)算法, 并成功将其应用于正交频分复用(orthogonal frequency division multiplexing, OFDM)系统信道估计。首先, 提出一种基于RIP的稀疏度预测方法, 可以在稀疏度未知的情况下快速精确地逼近真实稀疏度, 大大缩短了算法的运行时间。其次, 利用主成分分析法对观测矩阵采取了优化处理, 提高了算法的重构性能。仿真实验显示, 相较于SAMP、SAGI算法, 本文提出的RSAMP算法可以获取更好的估计性能和更短的运行时间。  相似文献   

15.
数字射频存储器(digital radio frequency memory, DRFM)通过截获雷达发射信号并对其进行调制和转发,在距离维上形成欺骗式干扰,严重影响了雷达对目标的检测与跟踪。针对这一问题,提出一种捷变频联合数学形态学的密集假目标干扰抑制算法。首先,采用最大类间方差法(Otsu)对脉冲压缩后的数据进行二值化处理。然后,通过数学形态学中的开运算抑制干扰和噪声。最后,通过二维稀疏重构获得距离-速度二维高分辨,实现对目标的检测。仿真实验与实际雷达和干扰机对抗实验表明,该方法可以获得良好的抗干扰性能和目标检测性能。  相似文献   

16.
智能化后装保障调度是当前军事领域的研究热点之一, 其中复杂多变的战场环境要求战时保障具有良好的自适应性。针对此问题, 提出了基于马尔可夫决策过程的强化学习模型, 能够主动学习最佳派遣策略, 根据历史数据和当前态势预判后续变化。为了考虑不确定事件的影响, 在模型求解算法中增加了基于概率统计模型的仿真流程; 为了减少随机事件带来的计算复杂性, 利用决策后状态变量重新设计了贝尔曼迭代方程; 为了解决状态空间的维度灾问题, 提出了基于基函数组合的近似函数。仿真实验表明,强化学习能力的引入能够显著提高战时保障调度性能。  相似文献   

17.
Crowdsourcing task assignment has become an important task assignment model in the Internet economy era. In this paper, we study the crowdsourcing task assignment problem based on employer net profit and employee satisfaction. First, the reliability and interest of employees are modeled, based on which the mathematical expressions for employer net profit and employee satisfaction are given. Then, a multi-objective optimization problem is formulated to maximize employer net profit and employee satisfaction by jointly optimizing the task assignment matrix and task offer vector.Since the considered problem contains discrete variables, it cannot be solved directly by traditional optimization methods. Therefore, two low-complexity high-performance algorithms are proposed. The first algorithm is based on a fast non-dominated ranking genetic algorithm with an elite, which is able to explore the Pareto bound of the considered problem. The second algorithm is based on a reinforcement learning framework, which is able to maximize the weighted sum of employer net profit and employee satisfaction. Numerical results show that the number of tasks assigned to employees affects both employee satisfaction and employer net profit. The Pareto bounds and Pareto optimal solutions based on the solutions of the two proposed algorithms are also presented numerically, which quantitatively characterize the tradeoff between employer net profit and employee satisfaction.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号