首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于Bandit反馈的分布式在线对偶平均算法
引用本文:朱小梅.基于Bandit反馈的分布式在线对偶平均算法[J].四川理工学院学报(自然科学版),2020,33(3):87-93.
作者姓名:朱小梅
作者单位:重庆师范大学数学科学学院,重庆 401331
摘    要:为解决梯度信息难以获取的分布式在线优化问题,提出了一种基于Bandit反馈的分布式在线对偶平均(DODA-B)算法。首先,该算法对原始梯度信息反馈进行了改进,提出了一种新的梯度估计,即Bandit反馈,利用函数值信息去近似原损失函数的梯度信息,克服了求解复杂函数梯度存在的计算量大等问题。然后,给出了该算法的收敛性分析,结果表明,Regret界的收敛速度为O(T~(max{k,1-k})),其中T是最大迭代次数。最后,利用传感器网络的一个特例进行了数值模拟计算,计算结果表明,所提算法的收敛速度与现有的分布式在线对偶平均(DODA)算法的收敛速度接近。与DODA算法相比,所提出算法的优点在于只考虑了函数值信息,使其更适用于梯度信息获取困难的实际问题。

关 键 词:分布式在线优化  对偶平均算法  Bandit反馈  Regret界

Distributed Online Dual Average Algorithm Based on Bandit Feedback
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号