首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
一种自适应概率规划规则抽取算法   总被引:3,自引:0,他引:3  
在已知状态迁移条件下,利用传统概率规划技术能够获得确定的规划规则,而强化学习技术能够在未知环境条件下,利用试错和奖赏函数在线学习动态环境的策略知识。因此一种自适应的概率规划规则抽取算法被提出。该算法首先在强化学习获得的最优状态-动作对值函数基础上,通过迭代得到有折扣无奖赏的值函数和无折扣无奖赏的值函数。然后通过子规划剪枝将大于指定规划步数的子规划去除,并得到子规划剪枝后的状态-动作对值函数。最后通过Beam search算法从值函数中抽取满足概率规划条件的规划知识,从而在规划模型变化的条件下。也可以获得确定的概率规划规则。实验证明,这种自适应概率规划规则抽取算法是有效的。  相似文献   

2.
采用双层强化学习的干扰决策算法   总被引:2,自引:0,他引:2  
为解决强化学习算法在干扰决策过程中收敛速度慢的问题,提出了一种采用双层强化学习的干扰决策算法(DRLJD)。首先对等效通信参数进行建模,模型减少了待学习参数的个数,降低了搜索空间的维度;然后利用降维后的搜索空间指导干扰参数选择,避免随机选择导致干扰性能差的缺点;最后利用选择的干扰参数施加干扰,并根据环境反馈进一步降低搜索空间的维度,通过不断交互的方式加快算法的收敛速度。此外,将以往的干扰经验以先验信息的形式加入到系统的学习进程中,进一步缩短了系统的学习时间。针对构造的干扰问题实验表明,DRLJD算法经过200次交互便学习到优异的干扰策略,小于现有算法所需600次交互,且先验信息的利用进一步降低了对交互次数的要求。以提出的新的奖赏标准作为奖赏依据,算法能够在未知通信协议情况下以牺牲交互时间为代价学习到最佳干扰策略。  相似文献   

3.
基于智能体 (Agent)系统强化学习原理和基于动态规划的Q -学习算法的基础上 ,提出了一种新的Agent强化学习算法 .该算法在Agent学习过程中不断调整Agent知识库的加权值 ,在强化学习的每个阶段 ,通过选取合适的信度分配函数来修正Agent强化学习动作的选取策略 .与标准的Q -学习方法相比 ,具有更加合理的物理结构 ,并且能保证算法收敛 .仿真实验说明该方法加快了标准Q -学习算法的收敛速度 ,具有较好的学习性能  相似文献   

4.
提出一种多智能体增强式学习方法,每个智能体在学习过程中将其他智能体和环境区分开来,并且通过维持其他智能体的替代传导径迹来预测它们的行为,从而也确定了自身的行为。该算法不需要知道其他智能体的Q函数结构和奖赏函数结构,适用条件宽松。仿真结果证明了所提出学习算法的有效性,而且相对于集中式Q学习效率有很大的提高。  相似文献   

5.
深度强化学习(DRL)在连续控制问题中具有优异的性能,被广泛用于路径规划等领域.为了实现移动机器人在未知环境中的智能路径规划,提出了一个路径规划的模型,基于深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)的自主路径规划模型.针对DDPG算法前期对环境没有先验知识,收敛速度慢和移动时会出现局部最优情况,提出了一种改进的DDPG算法.通过在DDPG算法中添加人工势场的引力场和斥力场,以加快收敛速度和移动机器人到达目标点的时间.对奖赏函数进行改进,增加直走奖励,以提高规划路径的稳定性.  相似文献   

6.
基于免疫进化算法的径向基函数网络   总被引:7,自引:1,他引:7  
基于免疫进化算法,提出了一种设计径向基函数(RBF)网络的新算法——免疫径向基函数网络(IRBF)训练算法.该算法通过提取RBF网络核函数宽度的先验知识作为疫苗构成免疫算子,缩小了标准进化算法搜索空间的范围,提高了算法的收敛速度.计算机仿真表明,采用这种算法训练的RBF网络达到了较好的性能.  相似文献   

7.
基于先验知识的强化学习系统   总被引:2,自引:0,他引:2  
针对强化学习算法收敛速度慢的主要原因为强化学习算法所用模型通常都假设系统参数未知、先验知识未知,由此造成该算法从没有任何基础开始搜索最优策略,搜索范围大的问题,提出将强化学习系统建立在先验知识的基础上,既有效利用了前人的工作成果,又加快了算法的收敛速度.通过解决电梯群控问题验证了所提出系统的合理性和有效性.  相似文献   

8.
在分析自组织特征映射(SOFM)神经网络基本学习算法的基础上.从提高算法收敛速度和性能出发.提出了一种改进算法:随机选择样本输入次序;根据实际应用并结合专家经验确定初始连接权值;采用高斯函数作为拓扑邻域函数;将算法分成排序和收敛两个阶段。并分别采用不同的学习率和邻域函数.采用改进后的SOFM算法对输入样本进行自组织聚类,再利用学习矢量量化(LVQ)算法解决样本分类中的交迭问题。提高了分类精度.仿真实验结果表明.该网络能够识别常用的数字(0~9)和英字母.特别是在有噪声污染的情况下.可以获得较好的效果。  相似文献   

9.
构造了一类新的高效分段活化函数,很好地解决了BP算法学习收敛速度慢的问题,并提出了一种自适应调整网络参数的新算法,从而大大提高了算法的学习效率和综合性能.  相似文献   

10.
一种总体最小二乘算法及在Volterra滤波器中的应用   总被引:5,自引:0,他引:5  
针对输入输出观测数据均含有噪声的滤波问题,提出了一种鲁棒的总体最小二乘自适应算法.该算法利用滤波器的增广权向量的瑞利商为损失函数,导出了其自适应迭代公式,并利用随机离散学习规律对权向量模的分析进行算法梯度修正,提高了算法的噪声鲁棒性,而且使得算法简单,稳定性好,收敛精度高.将该算法应用于Volterra滤波器,可使滤波器在非线性系统中的信噪比达到10dB,在学习因子为0.01时,算法仍然能够保持良好的收敛性.仿真结果表明,即使在高噪声环境或使用较大学习因子的情况下,该算法的鲁棒抗噪性能和稳态收敛精度均明显高于其他总体最小二乘方法.  相似文献   

11.
Pessiglione M  Seymour B  Flandin G  Dolan RJ  Frith CD 《Nature》2006,442(7106):1042-1045
Theories of instrumental learning are centred on understanding how success and failure are used to improve future decisions. These theories highlight a central role for reward prediction errors in updating the values associated with available actions. In animals, substantial evidence indicates that the neurotransmitter dopamine might have a key function in this type of learning, through its ability to modulate cortico-striatal synaptic efficacy. However, no direct evidence links dopamine, striatal activity and behavioural choice in humans. Here we show that, during instrumental learning, the magnitude of reward prediction error expressed in the striatum is modulated by the administration of drugs enhancing (3,4-dihydroxy-L-phenylalanine; L-DOPA) or reducing (haloperidol) dopaminergic function. Accordingly, subjects treated with L-DOPA have a greater propensity to choose the most rewarding action relative to subjects treated with haloperidol. Furthermore, incorporating the magnitude of the prediction errors into a standard action-value learning algorithm accurately reproduced subjects' behavioural choices under the different drug conditions. We conclude that dopamine-dependent modulation of striatal activity can account for how the human brain uses reward prediction errors to improve future decisions.  相似文献   

12.
通过对原ETLBO(elitist teaching learning based optimization)算法引入一种新的奖励机制, 提出一种新的结合奖励机制的ETLBO-reward算法, 并基于该算法提出一种简单自适应的精英个数算法RETLBO reward, 该算法保留了传统算法参数少、 易实现、 收敛快等优点, 进一步提升了传统算法的收敛能力. 对6个连续非线性优化问题的测试结果表明, 这两种算法均具有良好的性能, 求解效率较原ETLBO算法有明显提升.  相似文献   

13.
通过对原ETLBO(elitist teaching learning based optimization)算法引入一种新的奖励机制, 提出一种新的结合奖励机制的ETLBO-reward算法, 并基于该算法提出一种简单自适应的精英个数算法RETLBO reward, 该算法保留了传统算法参数少、 易实现、 收敛快等优点, 进一步提升了传统算法的收敛能力. 对6个连续非线性优化问题的测试结果表明, 这两种算法均具有良好的性能, 求解效率较原ETLBO算法有明显提升.  相似文献   

14.
针对现有的基于强化学习的无人机航迹规划方法因无法充分考虑无人机的航迹约束而使规划获得的航迹可用性较差的问题,提出一种更有效的无人机三维航迹规划算法.该算法利用无人机的航迹约束条件指导规划空间离散化,不仅降低了最终的离散规划问题的规模,而且也在一定程度上提高了规划获得的航迹的可用性,通过在回报函数中引入回报成型技术,使算法具有满意的收敛速度.无人机三维航迹规划的典型仿真结果表明了所提出算法的有效性.  相似文献   

15.
The goal in reinforcement learning is to learn the value of state-action pair in order to maximize the total reward. For continuous states and actions in the real world, the representation of value functions is critical. Furthermore, the samples in value functions are sequentially obtained. Therefore, an online sup-port vector regression (OSVR) is set up, which is a function approximator to estimate value functions in reinforcement learning. OSVR updates the regression function by analyzing the possible variation of sup-port vector sets after new samples are inserted to the training set. To evaluate the OSVR learning ability, it is applied to the mountain-car task. The simulation results indicate that the OSVR has a preferable con- vergence speed and can solve continuous problems that are infeasible using lookup table.  相似文献   

16.
针对模糊神经Petri网(fuzzy neural Petri net,FNPN)学习算法计算精度低、收敛性差及训练过程中网络震荡较大的问题,提出一种优化的FNPN算法.本算法采用两种S型连续函数分别表示变迁使能及变迁点燃后的新标记值,并在传统参数修正公式的基础上考虑修正前的数值进而增加新型的动量项,从而改善网络的收敛性.本文证明了优化后的参数修正算法可以保证FNPN网络的收敛性.  相似文献   

17.
研究了发育学习算法及其在机器人足球比赛技术动作学习问题中的应用。结合发育学习算法的优点,选用合适的强化学习算法,并将其应用于足球机器人动作技能的学习中。无需任何先验知识和环境模型,通过不断与环境交互获得知识,自主地进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视。最后,给出了试验结果分析,并验证了该算法的优越性和有效性,并且能够满足高水准机器人足球比赛的需要。  相似文献   

18.
 通过提出一种多方式进化遗传算法的途径改进了遗传算法,并用于求解汽车新型波纹薄壁管耐撞性优化问题。文中采用响应面法近似建立金字塔形波纹薄壁管的优化模型,在多方式进化遗传算法中采用多种编码方式、选择策略、交叉和变异操作,同时还设计了类似遗传学中染色体结构变异的倒位操作,有效改善了群体多样性。对于函数实例测试的结果显示,该算法克服了遗传算法有时局部收敛的缺陷,提升了收敛速度。在波纹薄壁管耐撞性优化问题上的应用研究表明了本算法在求解此类优化问题上的有效性和方便性。优化后波纹管吸能提高40%以上,显著改进了初始设计,进一步验证了多方式进化遗传算法求解此类优化问题的实用性。  相似文献   

19.
深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在自动驾驶领域中应用广泛,但DDPG算法因采用均匀采样而导致低效率策略比例较高、训练效率低、收敛速度慢等.提出了基于优先级的深度确定性策略梯度(priority-based DDPD,P-DDPG)算法,通过优先级采样代替均匀采样来提升采样利用率、改善探索策略和提高神经网络训练效率,并且提出新的奖励函数作为评价标准.最后,在开源赛车模拟(The Open Racing Car Simulator,TORCS)平台上对P-DDPG算法的性能进行了测试,结果表明相对于DDPG算法,P-DDPG算法的累积奖励在25回合之后就有明显提升而DDPG在100回合之后训练效果才逐渐显现,提升约4倍.P-DDPG算法不仅训练效率提升且收敛速度加快.  相似文献   

20.
为提高可降解高分子材料降解模型仿真的准确程度,结合高分子材料降解的实际原则和所要考虑的各种因素,建立了适合优化的参数优化模型,并将粒子群优化算法(PSO)用于模型的求解.针对标准粒子群算法存在的一些不足,提出了一种改进的粒子群优化算法来求解最优值,改进的算法引入了动态自适应惯性权重和异步时变学习因子.采用5个标准测试函数对改进的粒子群算法进行了测试,并将算法应用于参数优化模型的求解.测试与试验结果表明:新算法有效地避免了过早陷入局部最优,提高了收敛速度和收敛精度,并且采用优化所得参数显著地提高了高分子材料降解模型仿真的精准度,有利于揭示降解机理的科学意义和指导实际医用器件的设计与生产.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号