期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王强赵志诚桑博《太原科技大学学报》2014,(3):202-206

为获取精确的分数阶系统模型,本文利用惯性权值自适应律来改进基本粒子群算法,基于所改进的粒子群算法提出了一种分数阶系统辨识方法,并选取实际系统与辨识系统的输出误差平方和为目标函数,实现了分数阶模型参数和阶次的同时辨识,适用于成比例和不成比例分数阶系统辨识。仿真结果表明了算法的有效性,辨识结果精度较高。相似文献

2.

α 稳定分布噪声下基于EM算法的多径时延估计算法

邱天爽胡婷婷刘文红栾连毅赵勇《大连理工大学学报》2008,48(2):277-281

实际应用中大量非高斯信号和噪声具有显著的尖蜂脉冲特性.这类信号带宽较窄,采用传统高斯模型下基于相关运算的多径时间延迟方法进行时延估计时,会因各个峰值的相互重叠而带来较大的估计误差.为此,根据信号噪声特性,在α稳定分布模型下,提出一种基于EM方法的高分辨率多径时延估计算法(P-EM算法).新算法基于分数低阶统计量理论,采用p阶相关思想,具有在脉冲噪声环境下,比较准确估计多径时间延迟的能力.理论分析和计算机仿真表明了该算法的韧性. 相似文献

3.

改进的DDPG算法在机器人路径规划中的应用

张宁葛斌《佳木斯大学学报》2021,39(5):119-122

深度强化学习(DRL)在连续控制问题中具有优异的性能,被广泛用于路径规划等领域.为了实现移动机器人在未知环境中的智能路径规划,提出了一个路径规划的模型,基于深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)的自主路径规划模型.针对DDPG算法前期对环境没有先验知识,收敛速度慢和移动时会出现局部最优情况,提出了一种改进的DDPG算法.通过在DDPG算法中添加人工势场的引力场和斥力场,以加快收敛速度和移动机器人到达目标点的时间.对奖赏函数进行改进,增加直走奖励,以提高规划路径的稳定性. 相似文献

4.

一种深度强化学习的机械臂控制方法

《河南科技大学学报(自然科学版)》2021,42(3)

针对工业液压机械臂末端控制精度受惯性和摩擦等因素影响的问题,提出了一种基于深度强化学习的机械臂控制方法。首先,在机器人操作系统环境下搭建仿真机械臂并进行控制和通信模块设计。然后,对深度确定性策略梯度(DDPG)算法中的Actor-Critic网络进行设计,并基于机械臂逆运动学与深度强化学习奖励机制,设计了一种包含精度指标的分层奖励函数,促进DDPG算法收敛。最后,采用改进的DDPG算法与仿真机械臂交互训练,获得机械臂控制模型,从而实现对机械臂末端的精确控制。试验结果表明:改进的DDPG算法收敛速度提升了约14.54%,在仿真环境下机械臂可以达到6 mm的末端位置控制精度,多点测试完成率最高达到90%。相似文献

5.

心电信号波形保持的分数阶零相位滤波

《南通大学学报(自然科学版)》2016,(1)

针对经典滤波方法难以兼顾保真与去噪,易产生相位失真等问题,设计了一种基于分数阶Liouville和Weyl积分算子的并联型分数阶零相位滤波器.基于分数阶微积分的幅频特性与相频特性均受控于分数阶次的特点以及反向滤波的反向相频特性,将零相移滤波思想植入分数阶滤波器设计,提出适用于心电信号去噪的分数阶零相位滤波算法.基于MIT-BIH心律失常数据库的心电信号,分别从定性和定量两方面进行MATLAB仿真实验.仿真结果表明,分数阶零相位滤波器在滤除心电信号噪声的同时,能较好地保留原始信号的主要特征波形,有效避免相位失真,具有保真性能好、抗噪能力强、计算复杂度低的优点.验证了所提算法的有效性. 相似文献

6.

基于改进DDPG算法的机器人路径规划算法研究

周盛世单梁常路陈佳刘成林李军《南京理工大学学报(自然科学版)》2021,45(3):265-270,287

为解决深度强化学习训练时间长、收敛慢的问题,该文针对未知环境下的机器人路径规划,基于深度确定性策略梯度(DDPG)算法,结合人工势场法设计了回报函数.为了符合机器人运动学模型,设计连续的状态和动作空间.采用Python语言,在不同地图下分别使用人工势场法、原始DDP G和该文改进的DDP G算法进行仿真对比实验.改进的... 相似文献

7.

互连线高效时域多步积分模型降阶算法

郭倞杨帆曾璇《复旦学报(自然科学版)》2013,52(3):339-346

为了进一步提高现有互连电路模型降阶算法的精度和效率,提出一种基于时域多步积分的互连线模型降阶算法.首先对原始电路的时域方程进行多步积分得到关于状态变量的二阶递推关系,然后通过二次Arnoldi方法得到投影矩阵,再通过投影矩阵对原始时域方程进行投影得到降阶系统.该算法可以保证时域积分后降阶系统和原始系统的状态变量在离散时间点的匹配,保证时域降阶精度,同时继承了已有算法所具有的数值稳定性及降阶系统的无源性.该算法不仅比现有的时域模型降阶算法复杂度低和比现有的频域模型降阶算法精度高,而且与时域单步积分的模型降阶算法相比,可以在保证与其计算复杂度相当的基础上,达到更高的精度. 相似文献

8.

基于扫频滤波器线性调频信号的滤波算法

黄文玲杨鹏《同济大学学报(自然科学版)》2010,38(11):1656-1658

研究了白噪声环境下线性调频信号的自适应滤波问题.提出一种线性调频信号(LFM)自适应滤波算法.该算法利用分数阶傅里叶变换将LFM信号转化为正弦信号,在分数阶傅里叶域进行自适应滤波,利用分数阶傅里叶反变换得到滤波后的时域信号.分数阶的滤波器可以使用扫频滤波器替代.性能分析表明,该算法的滤波效果取决于自适应滤波器的效果,在使用最下均方(LMS)算法时,步长的选取决定了滤波器的性能,在实际应用中必须按需选取.仿真表明该算法效果明显,计算方便. 相似文献

9.

一种多新息分数阶的辨识算法

查琴王宏伟《科学技术与工程》2021,21(32):13765-13773

本文针对传统分数阶最小均方算法收敛性能较差的问题,提出了一种改进型分数阶最小均方算法。首先,利用分数阶微积分和多新息理论,从新息修正的角度提出了一种基于辅助模型多新息分数阶的最小均方算法(AM-MFLMSI)。该算法在每次迭代时既使用当前数据,又使用了历史的数据,提高了收敛速度,同时还改善了参数估计精度。其次,分析了AM-MFLMSI的收敛性。然后,通过选取不同的分数阶和新息长度,比较分析了两者对算法性能的影响。最后,通过仿真实例,将AM-MFLMSI与其他分数阶算法作比较,进一步验证了所提算法的有效性。相似文献

10.

脉冲噪声环境下基于最大相关熵准则的仿射投影算法

刘诚邱天爽李景春李蓉《大连理工大学学报》2018,58(1):86-91

在许多工程技术应用中,噪声常呈现较强的冲激性,在数学上可用稳定分布模型来表示.常规的自适应滤波算法对于稳定分布噪声的鲁棒性较差.最大相关熵准则的提出,可以有效地改善在稳定分布噪声条件下自适应滤波算法的性能.以对称α稳定分布噪声为脉冲噪声模型,使用最大相关熵准则作为代价函数,提出基于最大相关熵准则的仿射投影算法,将前一次迭代的计算误差作为自变量代入相关熵函数中,使得改进后的仿射投影算法在脉冲噪声环境下取得良好的收敛效果,并通过实验证明了新算法在强脉冲噪声以及广义信噪比较低的情况下有较快的收敛速度和较好的收敛性能. 相似文献

11.

具有优先级的深度确定性策略梯度算法在自动驾驶中的应用

下载免费PDF全文

金彦亮刘千红季泽宇《上海大学学报(自然科学版)》2023,29(1):105-117

深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在自动驾驶领域中应用广泛,但DDPG算法因采用均匀采样而导致低效率策略比例较高、训练效率低、收敛速度慢等.提出了基于优先级的深度确定性策略梯度(priority-based DDPD,P-DDPG)算法,通过优先级采样代替均匀采样来提升采样利用率、改善探索策略和提高神经网络训练效率,并且提出新的奖励函数作为评价标准.最后,在开源赛车模拟(The Open Racing Car Simulator,TORCS)平台上对P-DDPG算法的性能进行了测试,结果表明相对于DDPG算法,P-DDPG算法的累积奖励在25回合之后就有明显提升而DDPG在100回合之后训练效果才逐渐显现,提升约4倍.P-DDPG算法不仅训练效率提升且收敛速度加快. 相似文献

12.

MEC架构下基于DDPG的车联网任务卸载和资源分配

杨金松孙三山刘莉熊有志冯波涛陆凌蓉《重庆邮电大学学报(自然科学版)》2024,(2):259-267

为了缓解车联网中个体车辆计算资源配置过低而导致的任务处理时延较大的问题,提出了一种移动边缘计算(mobile edge computing, MEC)架构下的动态任务卸载策略和资源分配方案。以最小化全网任务处理时延为目标,将车联网中的任务卸载和资源分配问题建模为马尔可夫决策过程(Markov decision process, MDP),并利用深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法进行了问题求解。仿真结果表明,与执行者-评价者(actor-critic, AC)和深度Q网络(deep Q-network, DQN)这2种算法相比,DDPG算法以最快的算法收敛特性获得最小的全网任务处理时延。相似文献

13.

基于深度强化学习的无人机姿态控制器设计

王伟吴昊刘鸿勋杨溢《科学技术与工程》2023,23(34):14888-14895

为了能让四旋翼无人机的姿态控制器具有强大的目标值追踪与抗外部干扰的能力,提出了一种基于参考模型的深度确定性策略梯度的四旋翼无人机姿态控制器设计。该方法通过神经网络,将四旋翼无人机的状态直接映射到输出。本文的强化学习算法是结合深度确定性策略(deep deterministic policy gradient,DDPG)和深度神经网络所设计的。在DDPG算法结构中,进一步加入参考模型,规避控制量太大造成的系统超调,增强了系统的稳定性以及鲁棒性。同时,修改了强化学习中奖励的构成,成功消除了系统的稳态误差。经过研究实验表明,该控制方法可以对目标值进行快速地追踪且有着较强的鲁棒性,可见该控制器相比于传统的控制器,提高了其目标值追踪能力以及抗干扰能力。相似文献

14.

好奇心驱动的深度强化学习机器人路径规划算法

张永梅赵家瑞吴爱燕《科学技术与工程》2022,22(25):11075-11083

针对采用深度强化学习算法实现机器人路径规划任务中,训练前期随机性高导致奖励难获取问题,提出内在好奇心驱动的深度确定性策略梯度算法对连续型动作输出的端到端机器人路径规划进行研究。将环境获取的感知信息作为输入状态,输出机器人动作(线速度、角速度)的连续型控制量,在Gazebo仿真平台进行训练并验证。实验结果表明,基于内在好奇心驱动的深度确定性策略梯度路径规划算法可以较好地实现端到端的机器人路径规划,并且有利于解决训练前期奖励难获取问题,与离散型动作输出的深度Q学习网络模型进行了对比分析,结果表明本文算法决策控制效果更优越。在真实环境中进行了验证,在静态障碍和动态障碍的场景下,所提出算法可成功到达目标点。相似文献

15.

基于时空特征融合的端到端无人车控制

刘东杰赵津席阿行《科学技术与工程》2019,19(30):241-246

基于深度学习的端到端车辆控制器多是由二维卷积神经网络(2D convolutional neural netuark,2D CNN)训练得到的,因未考虑时间维度上的帧间运动信息,使得控制器的可解释性与泛化能力较差,而三维卷积神经网络(3D CNN)可以从连续视频帧中学习时空特征。深度确定性策略梯度强化学习(depth deterministic policy gradient,DDPG)常用于连续动作的控制优化,但DDPG算法仍存在采样方式不合理而导致的样本利用率低的问题。基于此,采用3D CNN与改进DDPG算法相结合的方法对车辆方向盘转角和速度进行预测。通过实车实验实现了车辆在所设置轨道上的自主驾驶,为基于深度学习和强化学习方法解决自动驾驶中的端到端控制问题提供了科学方法。相似文献

16.

基于改进的DDPG算法的蛇形机器人路径规划方法

下载免费PDF全文

郝崇清任博恒赵庆鹏侯宝帅白彤武晓晶樊劲辉《河北科技大学学报》2023,44(2):165-176

针对蛇形机器人执行路径规划任务时,面对复杂环境传统强化学习算法出现的训练速度慢、容易陷入死区导致收敛速度慢等问题,提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法。首先,在策略-价值(actor-critic)网络中引入多层长短期记忆(long short-term memory, LSTM)神经网络模型,使其控制经验池中信息的记忆和遗忘程度;其次,通过最优化特征参数将CPG(central pattern generators)网络融入强化学习模型,并设计新型网络状态空间和奖励函数;最后,将改进算法与传统算法分别部署在Webots环境中进行仿真实验。结果表明,相比于传统算法,改进算法整体训练时间平均降低了15%,到达目标点迭代次数平均降低了22%,减少了行驶过程中陷入死区的次数,收敛速度也有明显的提升。因此所提算法可以有效地引导蛇形机器人躲避障碍物,为其在复杂环境下执行路径规划任务提供了新的思路。相似文献

17.

基于改进双延迟深度确定性策略梯度法的无人机反追击机动决策

下载免费PDF全文

郭万春解武杰尹晖董文瀚《空军工程大学学报(自然科学版)》2021,22(4):15-21

针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法.新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,通过拟合策略函数与状态动作值函数,生成最优策略网络.仿真实验表明,在随机初始位置/姿态条件下,与采用纯追踪法的无人机对抗,该方法训练的智能无人机胜率超过93％;与传统的TD3、深度确定性策略梯度(DDPG)算法相比,该方法收敛性更快、稳定性更高. 相似文献

18.

一种改进的深度确定性策略梯度网络交通信号控制系统

刘利军王州余臻《四川大学学报(自然科学版)》2021,58(4):043003-043003-7

交通信号系统控制着城市车辆运行秩序,其效率高低直接影响了社会经济的发展.以十字路口的交通信号控制系统为研究对象,基于深度确定性策略梯度网络DDPG提出了一种改进算法.结合交通环境的特点设计了特征增强和样本去重算法提高算法的性能.通过对实际交通系统运行情况进行调研,基于SUMO仿真环境搭建了交叉路口交通仿真平台.利用FEPG算法控制交通信号,实现了车辆的高效通行.实验结果表明,该算法能够有效地降低车辆等待时间,减少车辆的污染排放. 相似文献

19.

基于动态延迟策略更新的TD3 算法

康朝海孙超荣垂霆刘鹏云《吉林大学学报(信息科学版)》2008,38(4):474-481

在深度强化学习领域中，为进一步减少双延迟深度确定性策略梯度TD3( Twin Delayed Deep Deterministic Policy Gradients) 中价值过估计对策略估计的影响，加快模型学习的效率，提出一种基于动态延迟策略更新的双延迟深度确定性策略梯度( DD-TD3: Twin Delayed Deep Deterministic Policy Gradients with Dynamic Delayed Policy Update) 。在DD-TD3 方法中，通过Critic 网络的最新Loss 值与其指数加权移动平均值的动态差异指导Actor 网络的延迟更新步长。实验结果表明，与原始TD3 算法在2 000 步获得较高的奖励值相比，DD-TD3 方法可在约 1 000步内学习到最优控制策略，并且获得更高的奖励值，从而提高寻找最优策略的效率。相似文献

20.

基于DDPG算法的风力发电机变桨距控制研究

张前何山黄嵩董新胜杨定乾胡帅《科学技术与工程》2023,23(18):7764-7771

风电机组模型的不确定性以及风速等外部干扰严重影响风电机组输出功率的稳定性,基于准确风机参数的传统控制策略难以满足系统控制需求。因此,本文提出一种基于DDPG算法的风机变桨距控制器。借助强化学习仅需与环境交互无需建模的优势,以风机模型为训练环境,功率为奖励目标,变桨角度为输出,采用深度神经网络搭建Actor-Critic单元,训练最优变桨策略。采用阶跃、低湍流、高湍流三种典型风况对算法进行检测。仿真结果表明,不同风况下基于DDPG算法控制器的控制精度、超调量、调节时间等性能均优于传统比例-积分-微分控制器效果。相似文献