基于Bandit反馈的分布式在线对偶平均算法 |
| |
引用本文: | 朱小梅.基于Bandit反馈的分布式在线对偶平均算法[J].四川理工学院学报(自然科学版),2020,33(3):87-93. |
| |
作者姓名: | 朱小梅 |
| |
作者单位: | 重庆师范大学数学科学学院,重庆 401331 |
| |
摘 要: | 为解决梯度信息难以获取的分布式在线优化问题,提出了一种基于Bandit反馈的分布式在线对偶平均(DODA-B)算法。首先,该算法对原始梯度信息反馈进行了改进,提出了一种新的梯度估计,即Bandit反馈,利用函数值信息去近似原损失函数的梯度信息,克服了求解复杂函数梯度存在的计算量大等问题。然后,给出了该算法的收敛性分析,结果表明,Regret界的收敛速度为O(T~(max{k,1-k})),其中T是最大迭代次数。最后,利用传感器网络的一个特例进行了数值模拟计算,计算结果表明,所提算法的收敛速度与现有的分布式在线对偶平均(DODA)算法的收敛速度接近。与DODA算法相比,所提出算法的优点在于只考虑了函数值信息,使其更适用于梯度信息获取困难的实际问题。
|
关 键 词: | 分布式在线优化 对偶平均算法 Bandit反馈 Regret界 |
Distributed Online Dual Average Algorithm Based on Bandit Feedback |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 CNKI 万方数据 等数据库收录! |
|