共查询到20条相似文献,搜索用时 0 毫秒
1.
随着自动驾驶技术的发展,深度强化学习成为实现高效驾驶策略学习的重要手段。然而,实施自动驾驶面临着复杂多变的交通场景带来的挑战,并且现有的深度强化学习方法存在场景适应能力单一、收敛速度较慢的问题。针对此类问题,为提高自动驾驶车辆的场景适应能力和策略学习效率,文中提出了一种多任务辅助的驾驶策略学习方法。该方法首先基于深度残差网络构建了编码器-多任务解码器模块,将高维驾驶场景压缩为低维表征,并采用语义分割、深度估计和速度预测的多任务辅助学习,以提高低维表征的场景信息丰富程度;然后,以该低维表征作为状态输入,构建基于强化学习的决策网络,并设计多约束奖励函数来引导驾驶策略的学习;最后,在CARLA中进行仿真实验。结果表明:相较于DDPG、TD3等经典方法,文中方法通过多任务的辅助改善了训练进程,学习到更优的驾驶策略;在环岛、路口等多个典型城市驾驶场景中实现了更高的任务成功率和驾驶得分,具备优秀的决策能力和场景适应性。 相似文献
2.
针对深度确定性策略梯度算法存在的经验利用率不高和性能差的问题,提出一种基于深度确定性策略梯度算法的复合优先经验回放算法.利用样本的立即回报和基于样本时间差分误差分别构建优先级对样本排序,随后对经验进行复合平均排序并基于排序优先性机制求得优先级对经验采样,使用得到的样本训练学习网络.在仿真环境中进行的对比实验表明:与深度... 相似文献
3.
深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在自动驾驶领域中应用广泛,但DDPG算法因采用均匀采样而导致低效率策略比例较高、训练效率低、收敛速度慢等.提出了基于优先级的深度确定性策略梯度(priority-based DDPD,P-DDPG)算法,通过优先级采样代替均匀采样来提升采样利用率、改善探索策略和提高神经网络训练效率,并且提出新的奖励函数作为评价标准.最后,在开源赛车模拟(The Open Racing Car Simulator,TORCS)平台上对P-DDPG算法的性能进行了测试,结果表明相对于DDPG算法,P-DDPG算法的累积奖励在25回合之后就有明显提升而DDPG在100回合之后训练效果才逐渐显现,提升约4倍.P-DDPG算法不仅训练效率提升且收敛速度加快. 相似文献
4.
董小刚;韩元元;秦喜文 《东北师大学报(自然科学版)》2025,(1):29-34
为构建更加全面有效的投资组合,采用了深度确定性策略梯度算法,并在奖励函数中引入了风险衡量指标索提诺比率来实现风险与收益之间的权衡.除基本的股票数据外还将股票市场中的技术指标作为状态的输入,以捕捉股票市场的主要趋势.经数据检验,与其他强化学习算法对比,改进奖励函数的DDPG算法能够在控制风险的同时得到较高收益,有效地实现了风险的分散和投资组合的稳健性. 相似文献
5.
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。 相似文献
6.
光学乐谱识别是音乐信息检索中一项重要技术,音符识别是乐谱识别及其关键的部分.针对目前乐谱图像音符识别精度低、步骤冗杂等问题,设计了基于深度学习的端到端音符识别模型.该模型利用深度卷积神经网络,以整张乐谱图像为输入,直接输出音符的时值和音高.在数据预处理上,通过解析Music XML文件获得模型训练所需的乐谱图像和对应的标签数据,标签数据是由音符音高、音符时值和音符坐标组成的向量,因此模型通过训练来学习标签向量将音符识别任务转化为检测、分类任务.之后添加噪声、随机裁剪等数据增强方法来增加数据的多样性,使得训练出的模型更加鲁棒;在模型设计上,基于darknet53基础网络和特征融合技术,设计端到端的目标检测模型来识别音符.用深度神经网络darknet53提取乐谱图像特征图,让该特征图上的音符有足够大的感受野,之后将神经网络上层特征图和该特征图进行拼接,完成特征融合使得音符有更明显的特征纹理,从而让模型能够检测到音符这类小物体.该模型采用多任务学习,同时学习音高、时值的分类任务和音符坐标的回归任务,提高了模型的泛化能力.最后在Muse Score生成的测试集上对该模型进行测试,音符识别精度高... 相似文献
7.
为了解决车辆队列控制中的车辆连续精确控制问题和行驶过程中车辆队列纵向稳定性问题,提出了 一种在中等速度环境下基于深度强化学习(deep reinforcement learning,DRL)的车辆队列纵向控制策略.该策略充分考虑了影响队列安全的车辆距离、车辆速度和车辆加速度3个关键影响因素,并将车辆动力学和舒适性作为策... 相似文献
8.
优良的可靠性、学习效率和模型泛化能力是车辆自动驾驶系统研究的基本要求.基于深度强化学习理论框架提出了一种用于车辆自动驾驶决策的WGAIL-DDPG(λ)(Wasserstein generative adversarial nets-deep deterministic policy gradient(λ))模型.其中... 相似文献
9.
[目的]传统的蜻蜓目(Odonata)昆虫的鉴别算法是在标本图片上进行人工的特征提取来训练分类器,此类方法所用的数据集包含的蜻蜓目昆虫种类和数量均较少,并且样本背景单一,导致识别率低且只能识别标本图片.针对这些问题制作了一个同时包含蜻蜓目昆虫生态图片和标本图片的数据集,提出一种基于深度学习的蜻蜓目昆虫的识别算法.[方法... 相似文献
10.
基于深度学习的端到端车辆控制器多是由二维卷积神经网络(2D convolutional neural netuark,2D CNN)训练得到的,因未考虑时间维度上的帧间运动信息,使得控制器的可解释性与泛化能力较差,而三维卷积神经网络(3D CNN)可以从连续视频帧中学习时空特征。深度确定性策略梯度强化学习(depth deterministic policy gradient,DDPG)常用于连续动作的控制优化,但DDPG算法仍存在采样方式不合理而导致的样本利用率低的问题。基于此,采用3D CNN与改进DDPG算法相结合的方法对车辆方向盘转角和速度进行预测。通过实车实验实现了车辆在所设置轨道上的自主驾驶,为基于深度学习和强化学习方法解决自动驾驶中的端到端控制问题提供了科学方法。 相似文献
11.
围绕强化学习在自动驾驶领域的应用进行了多方面的概括和总结。对强化学习原理及发展历程进行了介绍;系统介绍了自动驾驶技术体系以及强化学习在自动驾驶领域的应用所需的基础;按不同的应用方向分别介绍了强化学习在自动驾驶领域中的应用案例;深入分析了现阶段强化学习在自动驾驶领域存在的挑战,并提出若干展望。 相似文献
12.
语音情感识别是实现自然人机交互的重要组成部分,传统语音情感识别系统主要集中于特征提取和模型构建.本文提出一种将深度神经网络直接应用于原始信号的语音情感识别方法.原始语音数据携带了语音信号的情感信息、二维空间信息和时序上下文信息.建立的模型以端到端的方式进行训练,网络自动学习原始语音信号的特征表示,无需手工特征提取步骤.... 相似文献
13.
汽车自动变道需要在保证不发生碰撞的情况下,以尽可能快的速度行驶,规则性地控制不仅对意外情况不具有鲁棒性,而且不能对间隔车道的情况做出反应.针对这些问题,提出了一种基于双决斗深度Q网络(dueling double deep Q-network, D3QN)强化学习模型的自动换道决策模型,该算法对车联网反馈的环境车信息处理之后,通过策略得到动作,执行动作后根据奖励函数对神经网络进行训练,最后通过训练的网络以及强化学习来实现自动换道策略.利用Python搭建的三车道环境以及车辆仿真软件CarMaker进行仿真实验,得到了很好的控制效果,结果验证了本文算法的可行性和有效性. 相似文献
14.
刘全;刘晓松;吴光军;刘禹含 《吉林大学学报(理学版)》2025,(3):885-894
针对深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic policy gradient based on progressive k-means clustering, MDDPG-PK-Means)算法.在训练过程中,对每一时间步下的状态进行动作选择时,根据k-means算法判别结果辅佐行动者网络的决策,同时随训练时间步的增加,逐渐增加k-means算法类簇中心的个数.将MDDPG-PK-Means算法应用于MuJoCo仿真平台上,实验结果表明,与DDPG等算法相比,MDDPG-PK-Means算法在大多数连续任务中都具有更好的效果. 相似文献
15.
为了满足综合能源微网运行优化及能量管理的需求,提出基于双延迟深度确定性策略梯度算法的综合能源微网运行优化方法;基于标准化矩阵建模理论,构建一个含冷、热、电供应的综合能源微网数学模型;考虑到综合能源微网中天然气、主电网供电等相关约束和电力价格的变化,提出以运行成本最小化为目标的双延迟深度确定性策略梯度算法,对各种能源设备的出力情况作出决策,形成合理的能源分配管理方案。仿真结果表明,所提出方法的性能优于非线性算法、深度Q网络算法和深度确定性策略梯度算法,在确保运行成本最小化的同时计算耗时较短。 相似文献
16.
为了应对计算机视觉中多目标追踪任务的挑战。针对网络中使用的锚点造成重识别训练模糊的问题,通过可生成参考点的可变形Transformer,提出了一个端到端的多目标追踪系统(tracker Transformer,TKTR)。由骨干网络模块提取特征图,将其送入可生成参考点的可变形Transformer架构,以检测目标并生成代表检测框中心的参考点;利用参考点对候选目标进行空间位置约束并计算检测框的交并比来关联目标。实验结果表明,TKTR利用Transformer的查询特征向量对目标进行位置约束,提高了追踪精度,并且降低了ID切换的指标。 相似文献
17.
针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法.新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,通过拟合策略函数与状态动作值函数,生成最优策略网络.仿真实验表明,在随机初始位置/姿态... 相似文献
18.
为了更好地研究语音合成在闽南语上的应用,建立了闽南语数据库,并验证了Tacotron2为有效的语音合成模型.数据库方面,建立起地方特色的闽南语词库和音素体系;模型框架方面,在Tacotron和Tacotron2以及结合了两者不同模块的融合框架上进行实验对比.在厦门大学自主采集的厦门口音闽南语数据集的基础上,使用闽南语识别模型对语音数据进行解码得到对应的带有标点符号的音素序列,通过专业定制的词典建立音素标注体系,进行多组实验,比较采样率、建模方式和模型结构对合成音质以及稳定性的影响,通过梅尔谱和编码解码对齐图等评测标准,得到了三者的最佳搭配方案. 相似文献
19.
3G多媒体业务的发展给UMTS的QoS保证机制提出更高的要求.从QoS需求出发,描述了无线接入网的网络结构以及3G核心网的承载业务类型,分析了网络组件、业务类型与协议栈之间的对应关系,讨论了UMTS QoS管理机制在各组件中的功能实现,引入因特网的区分服务模型在核心网中构建基于DiffServ的网络模型为不同业务提供QoS保证,最后指出UMTS端到端QoS机制有待发展的研究方向. 相似文献
20.
通过在分布式网络研究平台--CERNET2/PlanetLab--上部署端到端的测量与分析系统,对长期监控得到的丢包、延时、抖动等网络性能参数数据进行分析,提出了一个新的端到端网络性能和故障分析系统的体系结构;利用分布式探针集中-式中央处理分析的客户端-服务器通信机制,设计与实现了CERNET2上的分布式节点资源监控系统和网络端到端主动测量平台. 系统在进行分布式网络测量和性能分析的同时,提供了包括ping、traceroute在内的故障诊断工具,方便网络管理人员查找和排除问题. 相似文献