期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

程显毅李淑琴夏德深《江苏大学学报(自然科学版)》2005,26(5):437-439

以机器人足球比赛（RoboCup）为背景,基于主智能体和辅助智能体概念,提出了基于主智能体群体强化学习算法（GLBMA）,该算法通过主智能体和辅智能体的角色切换来实现整个团队的学习,改进了传统的群体强化学习算法。RoboCup仿真比赛试验表明,传统群体强化学习算法中的行为学习状态空间过大,连续状态空间的行为选择及多智能体合作求解等问题得到了解决．相似文献

2.

发育学习在足球机器人基本动作技能中的应用

朱智华《科学技术与工程》2010,10(8)

研究了发育学习算法及其在机器人足球比赛技术动作学习问题中的应用。结合发育学习算法的优点,选用合适的强化学习算法,并将其应用于足球机器人动作技能的学习中。无需任何先验知识和环境模型,通过不断与环境交互获得知识,自主地进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视。最后,给出了试验结果分析,并验证了该算法的优越性和有效性,并且能够满足高水准机器人足球比赛的需要。相似文献

3.

机器人足球学习机制的研究现状与发展

程显毅杨长瑀《江南大学学报(自然科学版)》2007,6(6):642-647

对机器人足球球员如何实现复杂任务中的行为学习理论、方法、技术和应用进行评述,指出其存在的局限性,以及在机器人足球领域的学习策略.机器人足球系统作为多智能体系统研究的测试床,许多研究者从不同的侧面对该项技术进行了研究并取得了一定的成果.对机器人足球系统的研究,目前包括足球机器人体系结构、多机器人的协作、动态环境下的推理和行动、传感器数据融合、复杂任务中的行为学习、对手建模等内容. 相似文献

4.

基于强化学习的多机器人编队导航

赵杰姜健臧希喆《辽宁工程技术大学学报(自然科学版)》2007,26(6):915-918

针对多机器人系统在未知环境编队导航过程中遇到较长障碍物时，顺时针绕障和逆时针绕障的不同选择会给导航效率带来很大影响的问题，提出了一种三层强化学习方法。由高层的基于“条件-行为对”的在线学习适应环境障碍物的动态变化，中层采用角色交叉包含式控制结构保持队形，底层采用离线式常规强化学习机制获得避碰规则。仿真实验结果表明，由于只在高层保持在线学习，使学习空间得以缩小，学习时间得以缩短。该方法为复杂环境下的多机器人编队导航提供了一种有效的自主学习策略。相似文献

5.

机器人足球学习机制的研究现状与发展

程显毅杨长瑀《江南学院学报》2007,6(6):642-647

对机器人足球球员如何实现复杂任务中的行为学习理论、方法、技术和应用进行评述，指出其存在的局限性，以及在机器人足球领域的学习策略．机器人足球系统作为多智能体系统研究的测试床，许多研究者从不同的侧面对该项技术进行了研究并取得了一定的成果．对机器人足球系统的研究，目前包括足球机器人体系结构、多机器人的协作、动态环境下的推理和行动、传感器数据融合、复杂任务中的行为学习、对手建模等内容。相似文献

6.

空间机器人抓捕非合作目标的自主强化学习控制

刘帅邬树楠刘宇飞吴志刚毛子铭《中国科学:物理学力学天文学》2019,(2)

近年来,空间机器人在轨服务已成为许多国家的研究热点.本文针对空间机器人抓捕非合作目标任务,提出了一种强化学习控制与PD控制组成的双回路控制方法,对空间机器人基座平台姿态与机械臂运动进行控制.首先,对空间机器人的空间任务进行分析,建立包含基座平台姿态与机械臂运动的空间机器人耦合动力学模型;然后,设计双回路控制系统分别对机械臂运动与基座平台姿态进行控制,内回路中将强化学习与模糊理论结合在一起设计控制器对机械臂末端运动进行控制,外回路中采用PD控制对基座平台姿态进行稳定控制;最后,使用所提控制方法进行数值仿真,并与传统PD控制方法作对比,验证所提控制方法的有效性.结果表明,强化学习控制下的机械臂运动过程平稳、控制精度高,与传统PD控制方法相比,具有一定的自主学习性,更加适应抓捕目标的非合作特性. 相似文献

7.

基于改进学习分类器的多机器人混合分层体系结构

邵杰杨静宇杜丽娟《南阳理工学院学报》2009,1(3):21-24

本文提出了一种基于改进学习分类器的多机器人混合分层体系结构。体系协作规划层中的人工势场栅格法、协调规划层的学习分类器广播操作及行为控制层的多机器人DSP控制系统,易于实现多机器人间的通信联络及系统的扩充,提高了整个多机器人系统的实用性、实时性和可靠性。相似文献

8.

基于情感认知的学习与决策算法在移动机器人行为协调中的应用 总被引：1，自引：0，他引：1

张惠娣刘士荣俞金寿《华东理工大学学报(自然科学版)》2008,34(3):399-404

基于情感和认知的学习与决策模型是一个新的强化学习算法,该模型将来自情感的内在奖励和来自认知的外部奖励作为学习和决策的动机.将该模型引入到基于行为的机器人控制体系中,构造了一个新的移动机器人导航控制系统.通过基于在线的情感认知学习,形成合理的行为协调机制,从而使机器人实现自主导航任务.仿真实验结果表明:将情感系统引入到机器人系统中能提高学习速度,所提出的控制策略能有效地改善机器人在未知的环境中自主导航的能力. 相似文献

9.

清华机器人足球队的结构设计与实现 总被引：26，自引：0，他引：26

李实陈江孙增圻《清华大学学报(自然科学版)》2001,41(7):94-97

为建立一套新型的机器人系统 ,以满足机器人足球比赛的要求 ,设计并实现了清华机器人足球队。在介绍国际机器人足球比赛 (Robo Cup)环境的基础上 ,按照智能程度由低到高的顺序 ,论述了从动作层到决策层的实现方法。包括机器人的整体结构 ,运用多层前馈神经元网络学习个人技术 ,运用优先级方法设计机器人的顶层决策算法来实现多个机器人的合作与对抗。机器人系统完全满足 Robo Cup比赛的要求 ,并在中国 Robo Cup2 0 0 0锦标赛中取得了好成绩。对国内相关领域的研究以及兄弟院校开发机器人足球队具有重要意义相似文献

10.

幼儿亲社会行为培养的研究分析

《大庆师范学院学报》2016,(4):119-121

亲社会行为不仅是道德发展中的一个重要课题,同时也是幼儿社会性发展的重要标志之一。影响亲社会行为的因素有:认知水平的发展、性别差异、父母和教师的教育方式、幼儿学习环境。培养幼儿亲社会行为的方法有:加强榜样示范的教育作用、强化幼儿积极行为、加强家庭和幼儿园的合作。相似文献

11.

The intellectualized architecture of the autonomous micro-mobile robot based-behavior

Yang Yu-jun Cheng Jun-shi Chen Jia-pin Li Xiao-hai 《武汉大学学报:自然科学英文版》2002,7(4):437-444

Given the difficulty in hand-coding task schemes, an intellectualized architecture of the autonomous micro-mobile robot based-behavior for fault-repair was presented. Integrating the reinforcement learning and the group behavior evolution simulating the human’s learning and evolution, the autonomous micro-mobile robot will automatically generate the suited actions satisfied the environment. However, the designer only devises some basic behaviors, which decreases the workload of the designer and cognitive deficiency of the robot to the environment. The results of simulation have shown that the architecture endows micro robot with the ability of learning, adaptation and robustness, also with the ability of accomplishing the given task. Foundation item: Supported by the National Natural Science Foundation of Chine (69889050) Biography: Yang Yu-jun (1975-), male, Ph.D. candidate,research direction: multi-agent system, machine learning and intelligent control. 相似文献

12.

基于替代传导径迹的多智能体增强式学习

杨玉君程君实陈佳品《上海交通大学学报》2003,37(8):1271-1274

提出一种多智能体增强式学习方法，每个智能体在学习过程中将其他智能体和环境区分开来，并且通过维持其他智能体的替代传导径迹来预测它们的行为，从而也确定了自身的行为。该算法不需要知道其他智能体的Q函数结构和奖赏函数结构，适用条件宽松。仿真结果证明了所提出学习算法的有效性，而且相对于集中式Q学习效率有很大的提高。相似文献

13.

论道德的行为规范作用

张宏伟田克俭《河北经贸大学学报(综合版)》2006,6(3):16-19

道德的现实意义在于规范和影响人们的行为,它要使整个社会更人道、更公正、更可人心、更合人意。道德对人们行为的影响表现为:规范约束、调整节制、鼓舞激励、自省完善。道德不仅具有弘扬人性、实现人的价值、使人不断自我发展完善的功能,道德行为还能同时促进个人利益和社会利益。它在社会活动中发挥降低交易成本、扩大合作范围、激励努力工作的作用。道德作为一种特殊的社会行为规范有以下特点:非制度性、非强制性、主体内化性、主观认同性。相似文献

14.

道德型领导与组织公民行为:社会学习与归因理论的交互视角

张光曦朱燕《科技与经济》2020,33(2):76-80

在归因理论与社会学习理论基础上提出一个有中介的调节模型,探讨道德型领导与组织公民行为间的作用机理。通过对278名下属的纵向研究发现:下属的利他归因强化了道德型领导与下属组织公民行为间的正向作用;上下级关系、道德氛围感知正向调节道德型领导与组织公民行为的关系;基于归因理论与社会学习理论的交互视角,上下级关系、道德氛围感知的调节作用均受到利他归因的中介。研究结果对道德型领导与下属组织公民行为的社会学习框架提出更完整和深入的解释。相似文献

15.

基于改进神经网络的预应力锚杆布置间距 总被引：1，自引：0，他引：1

张友葩高永涛吴顺川金爱兵《长安大学学报(自然科学版)》2003,23(3):5-10

以山东省境内的104国道界河立交桥加筋土档土墙的失稳加固为实例，根据预应力锚杆在拉拔过程中，不同的距离范围内应力增量的变化试验，利用改进的BP神经元网络对这一试验值进行了学习，经过检验发现网络的输出值与期望值之间的误差较小，所以网络具有比较强的推广能力。利用这一网络对试验数据作了进一步的推广得到了另一组试验数据。根据这一组数据，在给锚杆施加一定预应力的条件下，可以求出锚杆的作用范围。根据这一范围和挡土墙破坏状况以及外部载荷的分布情况，利用极限平衡理论得出了比较合理的锚杆布置间距。相似文献

16.

基于社会系统视角的团队成员创新行为研究 总被引：1，自引：0，他引：1

王双龙袁庆宏《科学管理研究》2010,28(2)

创新在组织当中扮演着非常重要的角色,从创新的社会系统视角分析了团队成员创新行为发生的团队情景,并提示了不同的成员创新阶段依赖于所在的人、场、域等社会系统。团队成员创新行为受到团队创新氛围、团队互动与团队学习等影响的持续而反复的过程。构建了团队成员创新行为社会系统模型,该模型有助于后续研究从多个层次上系统性地认识团队成员创新行为影响因素的作用路径。相似文献

17.

从群集到社会行为控制 总被引：12，自引：0，他引：12

程代展陈翰馥《科技导报(北京)》2004,(8):4-7

群集行为是目前复杂性科学研究的一个核心问题，生物学家及物理学家对些作了大量研究；计算机科学家通过人工生命等方面提揭示了其从主体的简单运动规则到整体的优化性质，即涌现现象。如何对这种群集行为数学建模，并将其应用于人造世界，如一组机器人、车流、机群等的协作、编队等社会行为控制，是目前复杂性科学的前沿课题。本文旨在对从群集行为建模到其对社会行为控制的应用的目前动身亻一综述介绍。相似文献

18.

多Agent协同设计系统学习机制

刘弘郑向伟王吉华《兰州大学学报(自然科学版)》2012,48(4):91-97

从认知的和社会的角度分析了协同设计活动,提出了一种面向协同设计的多Agent系统结构和设计Agent的感知模型,以及多Agent协同强化学习的方法.该方法采用动态小生境技术对设计Agent进行分组,并选出每组中的最优设计Agent,使其通过与设计人员交互进行强化学习,然后和其他组选出的Agent协同学习,并把学到的知识在组内进行传播.以齿轮减速器设计为例,介绍了多Agent协同设计系统的协同设计及学习过程. 相似文献

19.

一种多移动机器人协作围捕策略 总被引：8，自引：0，他引：8

苏治宝陆际联童亮《北京理工大学学报》2004,24(5):403-406

提出一种在连续未知环境中实现多移动机器人协作围捕移动目标的整体方案.围捕包括包围目标和靠近目标,包围目标行为由强化学习算法实现.用状态聚类减小状态空间,利用Q学习算法获得Q值表,根据学习后的Q值表选择动作.对各种行为的输出进行加权求和获得综合行为,实现对移动目标的围捕.仿真实验获得了在不同条件下的围捕结果.结果表明,环境、hunter与prey的速度关系以及prey的逃跑策略对围捕效果都有影响. 相似文献

20.

Adaptive swarm-based routing in communication networks

Lu Y Zhao GZ Su FJ Li XR 《浙江大学学报(自然科学英文版)》2004,5(7):867-872

Swarm intelligence inspired by the social behavior of ants boasts a number of attractive features, including adaptation, robustness and distributed, decentralized nature, which are well suited for routing in modern communication networks. This paper describes an adaptive swarm-based routing algorithm that increases convergence speed, reduces routing instabilities and oscillations by using a novel variation of reinforcement learning and a technique called momentum.Experiment on the dynamic network showed that adaptive swarm-based routing learns the optimum routing in terms of convergence speed and average packet latency. 相似文献