首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
2.
深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在自动驾驶领域中应用广泛,但DDPG算法因采用均匀采样而导致低效率策略比例较高、训练效率低、收敛速度慢等.提出了基于优先级的深度确定性策略梯度(priority-based DDPD,P-DDPG)算法,通过优先级采样代替均匀采样来提升采样利用率、改善探索策略和提高神经网络训练效率,并且提出新的奖励函数作为评价标准.最后,在开源赛车模拟(The Open Racing Car Simulator,TORCS)平台上对P-DDPG算法的性能进行了测试,结果表明相对于DDPG算法,P-DDPG算法的累积奖励在25回合之后就有明显提升而DDPG在100回合之后训练效果才逐渐显现,提升约4倍.P-DDPG算法不仅训练效率提升且收敛速度加快.  相似文献   

3.
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。  相似文献   

4.
光学乐谱识别是音乐信息检索中一项重要技术,音符识别是乐谱识别及其关键的部分.针对目前乐谱图像音符识别精度低、步骤冗杂等问题,设计了基于深度学习的端到端音符识别模型.该模型利用深度卷积神经网络,以整张乐谱图像为输入,直接输出音符的时值和音高.在数据预处理上,通过解析Music XML文件获得模型训练所需的乐谱图像和对应的标签数据,标签数据是由音符音高、音符时值和音符坐标组成的向量,因此模型通过训练来学习标签向量将音符识别任务转化为检测、分类任务.之后添加噪声、随机裁剪等数据增强方法来增加数据的多样性,使得训练出的模型更加鲁棒;在模型设计上,基于darknet53基础网络和特征融合技术,设计端到端的目标检测模型来识别音符.用深度神经网络darknet53提取乐谱图像特征图,让该特征图上的音符有足够大的感受野,之后将神经网络上层特征图和该特征图进行拼接,完成特征融合使得音符有更明显的特征纹理,从而让模型能够检测到音符这类小物体.该模型采用多任务学习,同时学习音高、时值的分类任务和音符坐标的回归任务,提高了模型的泛化能力.最后在Muse Score生成的测试集上对该模型进行测试,音符识别精度高...  相似文献   

5.
为了解决车辆队列控制中的车辆连续精确控制问题和行驶过程中车辆队列纵向稳定性问题,提出了 一种在中等速度环境下基于深度强化学习(deep reinforcement learning,DRL)的车辆队列纵向控制策略.该策略充分考虑了影响队列安全的车辆距离、车辆速度和车辆加速度3个关键影响因素,并将车辆动力学和舒适性作为策...  相似文献   

6.
优良的可靠性、学习效率和模型泛化能力是车辆自动驾驶系统研究的基本要求.基于深度强化学习理论框架提出了一种用于车辆自动驾驶决策的WGAIL-DDPG(λ)(Wasserstein generative adversarial nets-deep deterministic policy gradient(λ))模型.其中...  相似文献   

7.
[目的]传统的蜻蜓目(Odonata)昆虫的鉴别算法是在标本图片上进行人工的特征提取来训练分类器,此类方法所用的数据集包含的蜻蜓目昆虫种类和数量均较少,并且样本背景单一,导致识别率低且只能识别标本图片.针对这些问题制作了一个同时包含蜻蜓目昆虫生态图片和标本图片的数据集,提出一种基于深度学习的蜻蜓目昆虫的识别算法.[方法...  相似文献   

8.
基于深度学习的端到端车辆控制器多是由二维卷积神经网络(2D convolutional neural netuark,2D CNN)训练得到的,因未考虑时间维度上的帧间运动信息,使得控制器的可解释性与泛化能力较差,而三维卷积神经网络(3D CNN)可以从连续视频帧中学习时空特征。深度确定性策略梯度强化学习(depth deterministic policy gradient,DDPG)常用于连续动作的控制优化,但DDPG算法仍存在采样方式不合理而导致的样本利用率低的问题。基于此,采用3D CNN与改进DDPG算法相结合的方法对车辆方向盘转角和速度进行预测。通过实车实验实现了车辆在所设置轨道上的自主驾驶,为基于深度学习和强化学习方法解决自动驾驶中的端到端控制问题提供了科学方法。  相似文献   

9.
围绕强化学习在自动驾驶领域的应用进行了多方面的概括和总结。对强化学习原理及发展历程进行了介绍;系统介绍了自动驾驶技术体系以及强化学习在自动驾驶领域的应用所需的基础;按不同的应用方向分别介绍了强化学习在自动驾驶领域中的应用案例;深入分析了现阶段强化学习在自动驾驶领域存在的挑战,并提出若干展望。  相似文献   

10.
语音情感识别是实现自然人机交互的重要组成部分,传统语音情感识别系统主要集中于特征提取和模型构建.本文提出一种将深度神经网络直接应用于原始信号的语音情感识别方法.原始语音数据携带了语音信号的情感信息、二维空间信息和时序上下文信息.建立的模型以端到端的方式进行训练,网络自动学习原始语音信号的特征表示,无需手工特征提取步骤....  相似文献   

11.
汽车自动变道需要在保证不发生碰撞的情况下,以尽可能快的速度行驶,规则性地控制不仅对意外情况不具有鲁棒性,而且不能对间隔车道的情况做出反应.针对这些问题,提出了一种基于双决斗深度Q网络(dueling double deep Q-network, D3QN)强化学习模型的自动换道决策模型,该算法对车联网反馈的环境车信息处理之后,通过策略得到动作,执行动作后根据奖励函数对神经网络进行训练,最后通过训练的网络以及强化学习来实现自动换道策略.利用Python搭建的三车道环境以及车辆仿真软件CarMaker进行仿真实验,得到了很好的控制效果,结果验证了本文算法的可行性和有效性.  相似文献   

12.
为了满足综合能源微网运行优化及能量管理的需求,提出基于双延迟深度确定性策略梯度算法的综合能源微网运行优化方法;基于标准化矩阵建模理论,构建一个含冷、热、电供应的综合能源微网数学模型;考虑到综合能源微网中天然气、主电网供电等相关约束和电力价格的变化,提出以运行成本最小化为目标的双延迟深度确定性策略梯度算法,对各种能源设备的出力情况作出决策,形成合理的能源分配管理方案。仿真结果表明,所提出方法的性能优于非线性算法、深度Q网络算法和深度确定性策略梯度算法,在确保运行成本最小化的同时计算耗时较短。  相似文献   

13.
为了应对计算机视觉中多目标追踪任务的挑战。针对网络中使用的锚点造成重识别训练模糊的问题,通过可生成参考点的可变形Transformer,提出了一个端到端的多目标追踪系统(tracker Transformer,TKTR)。由骨干网络模块提取特征图,将其送入可生成参考点的可变形Transformer架构,以检测目标并生成代表检测框中心的参考点;利用参考点对候选目标进行空间位置约束并计算检测框的交并比来关联目标。实验结果表明,TKTR利用Transformer的查询特征向量对目标进行位置约束,提高了追踪精度,并且降低了ID切换的指标。  相似文献   

14.
针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法.新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,通过拟合策略函数与状态动作值函数,生成最优策略网络.仿真实验表明,在随机初始位置/姿态...  相似文献   

15.
3G多媒体业务的发展给UMTS的QoS保证机制提出更高的要求.从QoS需求出发,描述了无线接入网的网络结构以及3G核心网的承载业务类型,分析了网络组件、业务类型与协议栈之间的对应关系,讨论了UMTS QoS管理机制在各组件中的功能实现,引入因特网的区分服务模型在核心网中构建基于DiffServ的网络模型为不同业务提供QoS保证,最后指出UMTS端到端QoS机制有待发展的研究方向.  相似文献   

16.
通过在分布式网络研究平台--CERNET2/PlanetLab--上部署端到端的测量与分析系统,对长期监控得到的丢包、延时、抖动等网络性能参数数据进行分析,提出了一个新的端到端网络性能和故障分析系统的体系结构;利用分布式探针集中-式中央处理分析的客户端-服务器通信机制,设计与实现了CERNET2上的分布式节点资源监控系统和网络端到端主动测量平台. 系统在进行分布式网络测量和性能分析的同时,提供了包括ping、traceroute在内的故障诊断工具,方便网络管理人员查找和排除问题.  相似文献   

17.
为了更好地研究语音合成在闽南语上的应用,建立了闽南语数据库,并验证了Tacotron2为有效的语音合成模型.数据库方面,建立起地方特色的闽南语词库和音素体系;模型框架方面,在Tacotron和Tacotron2以及结合了两者不同模块的融合框架上进行实验对比.在厦门大学自主采集的厦门口音闽南语数据集的基础上,使用闽南语识别模型对语音数据进行解码得到对应的带有标点符号的音素序列,通过专业定制的词典建立音素标注体系,进行多组实验,比较采样率、建模方式和模型结构对合成音质以及稳定性的影响,通过梅尔谱和编码解码对齐图等评测标准,得到了三者的最佳搭配方案.  相似文献   

18.
链路状态的概率分布作为先验知识对于推断链路性能状态的准确度起着重要作用.文中主要研究了在树形拓扑下基于端到端测量的内部链路状态概率推断问题,并将该问题定义为极大似然估计问题.采用乘积模型描述路径与链路的状态概率之间的关系,将链路状态概率的推断归结为路径状态概率的估计,提出了一种通过计算路径状态概率进而获得链路状态概率的方法,并将该方法用于仿真实验.结果表明,该方法具有较高的有效性和实用价值,能够准确有效地推断网络内部链路状态概率.  相似文献   

19.
李立 《科技信息》2013,(7):91-92
智能终端的日益普及和移动互联网的快速发展,既为运营商的数据业务发展带来了机遇,又对无线数据业务的优化提出了挑战。为应对未来网络发展对智能化资源分配能力的需要,解决增量不增收的现实问题,研究基于用户分级和业务分类的无线资源动态调控在当前竞争日益激烈的通信业具有较大的实用价值。本文主要研究了端到端的策略协调,基于用户分级和业务分类的BSC综合调度优先级调控方法以及基于用户、业务、时间、位置的多维流量控制。经过理论研究和现网试点测试,证明该方法可以有效的通过核心网以及无线侧的配合,实现不同业务和用户情况下的业务服务等级调控。  相似文献   

20.
交通信号系统控制着城市车辆运行秩序,其效率高低直接影响了社会经济的发展.以十字路口的交通信号控制系统为研究对象,基于深度确定性策略梯度网络DDPG提出了一种改进算法.结合交通环境的特点设计了特征增强和样本去重算法提高算法的性能.通过对实际交通系统运行情况进行调研,基于SUMO仿真环境搭建了交叉路口交通仿真平台.利用FEPG算法控制交通信号,实现了车辆的高效通行.实验结果表明,该算法能够有效地降低车辆等待时间,减少车辆的污染排放.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号