在市场均衡计算中实现基于一阶梯度的学习

了解并分析市场至关重要,但分析均衡解决方案仍然很难实现。最近均衡计算的突破依赖于零阶策略梯度估计。这些方法通常存在高方差,并且计算成本很高。使用全可微模拟器将使梯度估计更加高效。然而,经济模拟中商品的离散分配是一个不可微分的操作。这使得一阶蒙特卡罗梯度估计器不适用,学习反馈系统地误导。我们提出了一种新颖的平滑技术,创建了一个代理市场游戏,可以应用一阶方法。我们提供了有关其引起的偏差的理论界限,证明了解决平滑的游戏比原始游戏更加合适。这些界限还允许预先选择平滑强度,以使得结果估计具有低方差。此外,我们通过众多实证实验验证了我们的方法。我们的方法在近似质量和计算效率方面在理论上和经验上都优于零阶方法。

论文链接:http://arxiv.org/pdf/2303.09500v1

更多计算机论文:http://cspaper.cn/

Related posts