基于Bandit反馈的分布式在线对偶平均算法 Distributed Online Dual Average Algorithm Based on Bandit Feedback期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于Bandit反馈的分布式在线对偶平均算法

引用本文：	朱小梅.基于Bandit反馈的分布式在线对偶平均算法[J].四川理工学院学报(自然科学版),2020,33(3):87-93.

作者姓名：	朱小梅

作者单位：	重庆师范大学数学科学学院,重庆 401331

摘要：	为解决梯度信息难以获取的分布式在线优化问题,提出了一种基于Bandit反馈的分布式在线对偶平均(DODA-B)算法。首先,该算法对原始梯度信息反馈进行了改进,提出了一种新的梯度估计,即Bandit反馈,利用函数值信息去近似原损失函数的梯度信息,克服了求解复杂函数梯度存在的计算量大等问题。然后,给出了该算法的收敛性分析,结果表明,Regret界的收敛速度为O(T~(max{k,1-k})),其中T是最大迭代次数。最后,利用传感器网络的一个特例进行了数值模拟计算,计算结果表明,所提算法的收敛速度与现有的分布式在线对偶平均(DODA)算法的收敛速度接近。与DODA算法相比,所提出算法的优点在于只考虑了函数值信息,使其更适用于梯度信息获取困难的实际问题。
关键词：	分布式在线优化对偶平均算法 Bandit反馈 Regret界
Distributed Online Dual Average Algorithm Based on Bandit Feedback

Abstract:

Keywords:
本文献已被 CNKI 万方数据等数据库收录！