TransformerLight - 学习笔记

1. 文章摘要

交通信号控制（TSC）仍然是交通领域最重要和最具挑战性的研究问题之一。在线强化学习（RL）在 TSC 中取得了巨大成功，但由于过多的试错学习过程，在实际应用中的学习成本非常高。离线 RL 是一种很有前途的降低学习成本的方法，然而，离线强化学习主要面对数据分布偏移问题，这些问题仍然悬而未决。为此，在本文中，我们将交通控制表述为一个序列建模问题，其中包含由交通环境中的状态、动作和奖励描述的马尔可夫决策过程序列。从而引入了一种新的框架，即 TransformerLight，它的目的不是通过平均所有可能的回报来拟合值函数（过往的模型常用方法，神经网络用于拟合RL中的V值或Q值），而是使用门控 Transformer 产生最佳动作。此外，TransformerLight 的学习过程通过用动态的引起的门控Transformer（Gated Transformer）块替换残差连接而更加稳定。通过对离线数据集的数值实验，证明了TransformerLight模型（1）无需动态规划即可构建高性能自适应的信号控制模型（2）与BCQ、CQL等离线强化学习模型相比展现了更好的性能（3）相比传统的离线强化学习，性能更加稳定。

论文：https://dl.acm.org/doi/10.1145/3580305.3599530

代码：https://github.com/Smart-Trafficlab/TransformerLight

2. 模型结构

模型结构

模型状态动作奖励的定义
由于和DT一样都是离线强化学习模型，这里输入都是（s,a,r）一样的轨迹，区别在于输入的状态变成了由多个特征组成的交通状态。这些状态的特征包括：车辆数 (NV), 排队长度 (QL), 有效流向压力 (一般就是进出口道的车辆数相减EP), 行驶中的车辆数 (ERV), 交通流向压力 (TMP), 以及更多指标.同时，奖励𝑟𝑡 包括了排队长度、交通流向压力和平均行程时间（ATT）三个指标。动作则是在给定的相位集中{ABCD}中选择一个相位。
需要指出的是原始的Decision Transformer模型中使用的是return-to-go，也就是未来剩余的回报，作为奖励的指引。但是在交通信号控制任务上，奖励是无穷无尽的，奖励的获取不会像玩游戏一样具有终止条件。基于此，文章将模型输入的奖励改为直接优化算法的指标，也就是最小化平均行程时间。

优化目标

网络结构

TransformerLight的模型网络结构如图所示，可以看到和Decision Transformer的模型结构是非常相似的，其唯一的区别在于将DT中的Transformer模型替换成了门控Transformer模块（Gated Transformer Module）。

网络结构

文章对于Transformer模块的改进如图所示

改进部分

将原Transformer中的add操作替换成了gated操作。
其中，多头注意力层替换后公式是：

门控多头注意力公式

X是输入的embedding，根据状态、动作、奖励token序列进行嵌入和位置编码后的矩阵
FFN层替换后的公式是：

门控FFN层公式

这里对应的是模型中的FFN层，把多头注意力的输出隐向量Z经过FFN，再来和原来的张量进行门控运算。

门控运算可以用下面的公式表示，这个公式是一种门控融合函数，常见于神经网络中用于动态融合两种信息（如向量、特征等）。核心思想是通过门控机制自适应调节两个输入的权重，从而实现控制信息的保留与融合。

门控运算

其中o和r表示两个待融合的输入向量，σ通常是sigmoid函数（输出范围是0,1），用于生成门信号。
通过σ的值，可以决定两个信号o和r之间的信息保留程度。

伪代码
模型伪代码如下图所示，伪代码用红框标记的两行的位置就是代码改进的地方，其实也就是把原来应该 X+attn(X)的地方替换成了门控的计算方式。

伪代码

文章指出，这么做的好处是：
（1）改进的梯度流向：我们的 GT 中的门控机制可在反向传播期间实现更好的梯度流。
（2）增强的表现力：门控机制为 GT 提供了额外的表现力，使其能够学习更丰富、更复杂的表示。
（3）更好的噪声处理：我们的 GT 可以通过选择性地抑制不相关的信息来更好地处理嘈杂的输入数据

文章还指出，使用序列决策对信号控制算法进行建模的方式，好处在于：
（1）获得更好的决策结果：序列建模模型已经证明它们能够做出可能与当前离线 RL 方法相匹配或优于的决策。我们的 TransformerLight 还可以在 TSC 中实现 SOTA 结果。
（2）为了稳定的训练过程：研究表明，在高方差 RL 设置中，transformers 的训练更稳定。此外，大量成熟的研究对 transformer 模型的稳定训练技术进行了研究。
（3）避免 OOD 问题：离线 RL 的 OOD 问题仍然悬而未决，而 TransformerLight 避免了目标的正则化或保守性需求，因为没有必要使用复杂的目标函数进行优化。

3.实验部分

对比模型：
BC（Behavior Cloning (BC): We employ Behavior Cloning (BC) to provide the performance of a pure imitative method.）纯模仿学习的方法
Offline RL Methods: We apply the latest offline RL method CQL [16], TD3+BC [8] , and BEAR [15] for comparison.
Transformer-based Methods: We use Decision Transformer [4] , Trajectory Transformer [14], and Algorithm Distillation [17] to train on our historical trajectory dataset for final results of ATT.

实验评测的数据集：济南3×4路网、杭州4×4路网，纽约路网，对比在线和离线等多个模型。

对比实验

信号控制

TransformerLight - 学习笔记

https://runsstudio.github.io/2025/05/28/TransformerLight学习笔记/

发布于

2025年5月28日

许可协议

Linux常用命令及操作备忘上一篇

一种简单且实用的单点自适应信号控制模型：OPAC 下一篇