TransformerLight - 学习笔记
TransformerLight - 学习笔记
1. 文章摘要
交通信号控制 (TSC) 仍然是交通领域最重要和最具挑战性的研究问题之一。在线强化学习 (RL) 在 TSC 中取得了巨大成功,但由于过多的试错学习过程,在实际应用中的学习成本非常高。离线 RL 是一种很有前途的降低学习成本的方法,然而,离线强化学习主要面对数据分布偏移问题,这些问题仍然悬而未决。为此,在本文中,我们将交通控制表述为一个序列建模问题,其中包含由交通环境中的状态、动作和奖励描述的马尔可夫决策过程序列。从而引入了一种新的框架,即 TransformerLight,它的目的不是通过平均所有可能的回报来拟合值函数(过往的模型常用方法,神经网络用于拟合RL中的V值或Q值),而是使用门控 Transformer 产生最佳动作。此外,TransformerLight 的学习过程通过用动态的引起的门控Transformer(Gated Transformer)块替换残差连接而更加稳定。通过对离线数据集的数值实验,证明了TransformerLight模型(1)无需动态规划即可构建高性能自适应的信号控制模型(2)与BCQ、CQL等离线强化学习模型相比展现了更好的性能(3)相比传统的离线强化学习,性能更加稳定。
论文:https://dl.acm.org/doi/10.1145/3580305.3599530
代码:https://github.com/Smart-Trafficlab/TransformerLight
2. 模型结构
- 模型状态动作奖励的定义
由于和DT一样都是离线强化学习模型,这里输入都是(s,a,r)一样的轨迹,区别在于输入的状态变成了由多个特征组成的交通状态。这些状态的特征包括:车辆数 (NV), 排队长度 (QL), 有效流向压力 (一般就是进出口道的车辆数相减EP), 行驶中的车辆数 (ERV), 交通流向压力 (TMP), 以及更多指标.同时,奖励𝑟𝑡 包括了排队长度、交通流向压力和平均行程时间(ATT)三个指标。动作则是在给定的相位集中{ABCD}中选择一个相位。
需要指出的是原始的Decision Transformer模型中使用的是return-to-go,也就是未来剩余的回报,作为奖励的指引。但是在交通信号控制任务上,奖励是无穷无尽的,奖励的获取不会像玩游戏一样具有终止条件。基于此,文章将模型输入的奖励改为直接优化算法的指标,也就是最小化平均行程时间。
- 网络结构
TransformerLight的模型网络结构如图所示,可以看到和Decision Transformer的模型结构是非常相似的,其唯一的区别在于将DT中的Transformer模型替换成了门控Transformer模块(Gated Transformer Module)。
文章对于Transformer模块的改进如图所示
将原Transformer中的add操作 替换成了gated操作。
其中,多头注意力层替换后公式是:
X是输入的embedding,根据状态、动作、奖励token序列进行嵌入和位置编码后的矩阵
FFN层替换后的公式是:
这里对应的是模型中的FFN层,把多头注意力的输出隐向量Z经过FFN,再来和原来的张量进行门控运算。
门控运算可以用下面的公式表示,这个公式是一种门控融合函数,常见于神经网络中用于动态融合两种信息(如向量、特征等)。核心思想是通过门控机制自适应调节两个输入的权重,从而实现控制信息的保留与融合。
其中o和r表示两个待融合的输入向量,σ通常是sigmoid函数(输出范围是0,1),用于生成门信号。
通过σ的值,可以决定两个信号o和r之间的信息保留程度。
- 伪代码
模型伪代码如下图所示,伪代码用红框标记的两行的位置就是代码改进的地方,其实也就是把原来应该 X+attn(X)的地方替换成了门控的计算方式。
文章指出,这么做的好处是:
(1) 改进的梯度流向:我们的 GT 中的门控机制可在反向传播期间实现更好的梯度流。
(2) 增强的表现力:门控机制为 GT 提供了额外的表现力,使其能够学习更丰富、更复杂的表示。
(3) 更好的噪声处理:我们的 GT 可以通过选择性地抑制不相关的信息来更好地处理嘈杂的输入数据
文章还指出,使用序列决策对信号控制算法进行建模的方式,好处在于:
(1) 获得更好的决策结果:序列建模模型已经证明它们能够做出可能与当前离线 RL 方法相匹配或优于的决策。我们的 TransformerLight 还可以在 TSC 中实现 SOTA 结果。
(2) 为了稳定的训练过程:研究表明,在高方差 RL 设置中,transformers 的训练更稳定。此外,大量成熟的研究对 transformer 模型的稳定训练技术进行了研究。
(3) 避免 OOD 问题:离线 RL 的 OOD 问题仍然悬而未决,而 TransformerLight 避免了目标的正则化或保守性需求,因为没有必要使用复杂的目标函数进行优化。
3.实验部分
对比模型:
BC(Behavior Cloning (BC): We employ Behavior Cloning (BC) to provide the performance of a pure imitative method.)纯模仿学习的方法
Offline RL Methods: We apply the latest offline RL method CQL [16], TD3+BC [8] , and BEAR [15] for comparison.
Transformer-based Methods: We use Decision Transformer [4] , Trajectory Transformer [14], and Algorithm Distillation [17] to train on our historical trajectory dataset for final results of ATT.
实验评测的数据集:济南3×4路网、杭州4×4路网,纽约路网,对比在线和离线等多个模型。