针对连续时间马尔科夫决策过程的Ω正则规范的强化学习

连续时间马尔可夫决策过程(CTMDPs)是用于表示在密集时间和随机环境下的顺序决策的经典模型。当环境的随机演变仅能通过抽样来得知时,无模型强化学习(RL)是计算最优决策序列的选择算法。另一方面,RL需要将学习目标编码为标量奖励信号。由于手动进行这种翻译既繁琐又容易出错,因此已经提出了许多技术来将高级目标(用逻辑或自动机形式表达)转换为标量奖励,用于离散时间马尔可夫决策过程(MDPs)。不幸的是, CTMDPs还没有自动翻译。

我们考虑用omega-regular语言表示的学习目标的CTMDP环境。 Omega-regular语言将常规语言推广到无限时域规范,并能够表达在流行的线性时间逻辑LTL中给出的属性。为了适应CTMDP的密集时间性质,我们考虑omega-regular目标的两种不同语义:1)满足语义,其中学习者的目标是最大化在“良好状态”中花费积极时间的概率;2)期望语义,其中学习者的目标是优化自动机的“良好状态”中长期预期平均时间。我们提出了一种方法,使得正确将其转换为标量奖励信号,以便于商店卖的RL算法用于CTMDP。我们通过评估其在一些带有omega-regular目标的流行CTMDP基准测试中的效果来展示所提出算法的有效性。

论文链接:http://arxiv.org/pdf/2303.09528v1

更多计算机论文:http://cspaper.cn/

Related posts