期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	34篇
免费	3篇
国内免费	5篇

专业分类

系统科学	9篇
丛书文集	1篇
现状及发展	1篇
综合类	31篇

出版年

2022年	5篇
2021年	4篇
2020年	3篇
2018年	1篇
2015年	1篇
2014年	1篇
2013年	5篇
2012年	2篇
2011年	2篇
2009年	2篇
2008年	5篇
2007年	2篇
2006年	4篇
2005年	1篇
2004年	1篇
2003年	1篇
2002年	1篇
2001年	1篇

排序方式： 共有42条查询结果，搜索用时 296 毫秒

[首页] « 上一页 [1] [2] [3] 4 [5] 下一页 » 末页»

31.

基于Q学习的星地融合协作传输中继选择策略

汪萧萧孔槐聪朱卫平林敏《应用科学学报》2021,39(2):250-260

协作网络中的中继技术能够实现空间分集,但中继选择会对系统性能产生较大影响.针对这一问题,本文提出了一种基于Q学习的星地融合协作传输中继选择策略.首先,所有中继节点在经过放大转发协议的情况下,在接收端得到最大比合并后的输出信噪比表达式.然后,设定Q学习的状态、动作和奖励函数,选择累积回报最大的中继节点.接着,为了遍历所有... 相似文献

32.

Q-learning强化学习制导律

张秦浩敖百强张秦雪《系统工程与电子技术》2020,42(2):414-419

在未来的战场中,智能导弹将成为精确有效的打击武器,导弹智能化已成为一种主要的发展趋势。本文以传统的比例制导律为基础,提出基于强化学习的变比例系数制导算法。该算法以视线转率作为状态,依据脱靶量设计奖励函数,并设计离散化的行为空间,为导弹选择正确的制导指令。实验仿真验证了所提算法比传统的比例制导律拥有更好的制导精度,并使导弹拥有了自主决策能力。相似文献

33.

基于信度分配函数的Agent强化学习算法

吴继伟萧蕴诗许维胜《同济大学学报(自然科学版)》2003,31(8):947-950

基于智能体 (Agent)系统强化学习原理和基于动态规划的Q -学习算法的基础上 ,提出了一种新的Agent强化学习算法 .该算法在Agent学习过程中不断调整Agent知识库的加权值 ,在强化学习的每个阶段 ,通过选取合适的信度分配函数来修正Agent强化学习动作的选取策略 .与标准的Q -学习方法相比 ,具有更加合理的物理结构 ,并且能保证算法收敛 .仿真实验说明该方法加快了标准Q -学习算法的收敛速度 ,具有较好的学习性能相似文献

34.

基于Q学习的无人机三维航迹规划算法

郝钏钏方舟李平《上海交通大学学报》2012,46(12):1931-1935

针对现有的基于强化学习的无人机航迹规划方法因无法充分考虑无人机的航迹约束而使规划获得的航迹可用性较差的问题,提出一种更有效的无人机三维航迹规划算法.该算法利用无人机的航迹约束条件指导规划空间离散化,不仅降低了最终的离散规划问题的规模,而且也在一定程度上提高了规划获得的航迹的可用性,通过在回报函数中引入回报成型技术,使算法具有满意的收敛速度.无人机三维航迹规划的典型仿真结果表明了所提出算法的有效性. 相似文献

35.

多Agent系统的Q值强化学习算法

尚艳玲肖文雅《河南师范大学学报(自然科学版)》2013,41(2):158-160

对多Agent系统的Q值强化学习算法进行研究,将历史信息因素的影响添加到Q值学习中,提出了一个新的基于多Agent系统的Q值学习算法.该算法在保证多Agent系统利益达到相对最大化的同时,也有效降低了Agent之间的冲突率.最后,通过仿真测试验证了该算法的有效性. 相似文献

36.

基于Q学习的区域交通控制方法

董友球刘智勇《五邑大学学报(自然科学版)》2008,22(2):15-18

利用Q学习优化整个区域的周期,把区域按重要程度划分为若干干线并编排顺序,按顺序对各干线相邻两路口协调相位间的相对相位差用Q学习进行优化,按同样顺序依次确定各路口的绿信比,并结合优化得到的相对相位差确定绝对相位差．TSIS仿真结果表明,相比定时控制方法,此方法能明显提高交通效率。相似文献

37.

智能主体情绪行为选择模型

王岚《兰州理工大学学报》2008,34(6)

提出受到情绪因素影响的智能主体行为选择模型,使智能主体的行为选择过程同时受到认知状态和情绪状态的影响,从而产生更加类人的自主行为表现.建立一个交互式电子宠物狗系统.在用户与宠物狗的交互过程中,宠物狗表现出了比一般电子宠物狗相比更加生动的行为动画, 结果验证了所提出模型的合理性. 相似文献

38.

一种基于代理的动态价格模型及算法

赵永翼王光兴《东北大学学报(自然科学版)》2002,23(8):726-729

利用回归树算法作为一种函数近似方法,发挥回归树在进行数值预测上的准确性及快速性,将Q学习和回归树算法组合在一起,改善单纯Q学习所需要的培训时间过长的缺点·详细分析了实际市场模型中使用基于回归树的Q学习算法来确定商品销售价格的策略·最后利用数值分析方法来说明此算法在实际应用中所获得的平均利润和培训时间两个参数的关系,并给出它们的关系曲线图· 相似文献

39.

基于Q-学习的卫星姿态在线模糊神经网络控制 总被引：1，自引：0，他引：1

王华崔晓婷刘向东张宇河《北京理工大学学报》2006,26(3):226-229

将模糊神经网络控制引入到三轴稳定卫星的姿态控制中,结合Q-学习和BP神经网络来解决模糊神经网络参数在线调整问题,在无需训练样本的前提下实现控制器的在线学习. 仿真结果表明,这种基于Q-学习的模糊神经网络控制不仅可以满足对姿态控制精度的要求,还有效地抵制了外界干扰,提高了姿态稳定度,对卫星的不确定性有较强的鲁棒性. 相似文献

40.

基于Q学习参数辨识的动物学习能力评价方法

冯浩然尚志刚杨莉芳靳富丽马佐豪《科学技术与工程》2022,22(27):11842-11849

动物在特定环境下对行为决策的学习能力是其生存的重要基础,因此,如何准确地评价动物在马尔科夫决策任务中利用过去经验与重视未来奖励的学习能力,对于动物行为学与心理学研究至关重要。设置了含有状态转移概率的马尔科夫决策任务,训练家鸽在不同状态下从两个选项中做出选择,并考虑未来收益,以最大化累计奖励。实验结束后,对家鸽的行为决策进行Q-learning建模,用学习率α评估其利用过去积累经验做出选择的能力,用折扣因子γ评估其对未来奖励的重视程度。结果表明,家鸽在马尔科夫决策任务中利用过去经验与重视未来奖励的学习能力可以通过Q-learning模型参数进行评价。相似文献

[首页] « 上一页 [1] [2] [3] 4 [5] 下一页 » 末页»