
文章信息论文题目为《Spatial-Temporal Large Language Model for Traffic Prediction》文章来自MDM2024由新加坡南洋理工大学刘晨曦博士主笔完成是一篇交通预测领域论文文中提出了一种新颖的空间-时间大型语言模型ST-LLM用于交通预测它将位置上的时间步长定义为一个token并通过空间-时间嵌入层对每个token进行嵌入。文中将这些token的空间-时间嵌入均匀地融合并调整了LLM以捕获全局空间-时间依赖关系。本文通过在大量真实交通数据集上进行实验实验结果表明本文的交通预测模型取得了良好的效果展示了本文的ST-LLM在各种设置下取得的卓越性能。此外少样本和零样本预测结果突显了ST-LLM在域内和跨域知识转移方面的能力。摘要交通预测是智能交通系统的重要组成部分它努力使用历史数据以预测特定位置的未来交通特征。虽然现有的交通预测模型往往强调发展复杂的神经网络结构其精度没有得到提高。最近大型语言模型表现出色时间序列分析能力。与现有模型不同LLM主要通过参数扩展和扩展预训练来实现同时保持其基本结构。受这些发展的启发我们提出了一种时空用于交通预测的大型语言模型ST-LLM。在ST-LLM中我们将每个位置的时间步长定义为token设计一个时空嵌入来学习空间位置以及这些token的全局时间模式。此外我们通过融合卷积将这些嵌入整合到每个嵌入中用于统一时空表示的token。此外我们创新了一种部分冻结的注意力策略以适应LLM捕捉流量的全局时空依赖关系。我们在真实交通数据集上进行综合实验实验结果表明ST-LLM是一种强大的模型其表现优于最先进的模型。值得注意的是ST-LLM在小样本和零样本两种情况下也表现出强劲的性能。贡献1本文提出了一种用于交通预测的时空大语言模型ST-LLM该模型将一个位置上的时间步定义为token并通过时空嵌入层嵌入每个标记。本文均匀地研究这些标记的时空嵌入并适应llm以捕获全局的时空依赖性。2在LLM中提出了一种新的策略称为部分冻结注意力以增强交通预测中的模型。通过部分冻结多头注意力ST-LLM适于捕获不同流量预测任务的令牌之间的全局时空依赖关系。3在真实交通数据集上进行了大量的实验以显示我们的ST-LLM在各种设置下取得的优越性能。此外少样本和零样本的预测结果展示了ST-LLM进行域内和域间知识转移的能力。问题定义定义1交通特征本文将交通数据表示为张量其中T是时间步长数N是站点数量C是特征。例如C1 表示交通流量的进出流量。定义2交通预测考虑到历史P个时间步长的交通量目标是学习一个参数为θ的函数f· 以预测后面S个时间步的流量。如下面公式所示方法5.1 概况如图所示为时空大语言模型ST-LLM的框架概况时空大语言模型ST-LLM框架集成了时空嵌入层、融合卷积层、LLM层和回归卷积层。开始历史交通数据表示为XP其中包含N个空间站点的标记。XP通过时空嵌入层进行处理从中提取历史P时间步长、空间嵌入和时间嵌入的标记嵌入分别为、和。然后通过一个融合卷积将三个嵌入整合为。随后EF被输入到一个包含L U层的PFA LLM中在那里多头注意力机制和前馈层在前F层中被冻结以保存预先训练好的知识对最后U层的多头注意层进行解冻结以增强模型对捕获时空依赖关系能力。最后通过回归卷积层预测未来的流量数据。5.2 时空嵌入与融合层本文的目标是修改已经训练过的交通预测任务的llm。将每个交通数据位置上的时间步长定义为token。时空嵌入层将token转换为与llm对齐的时空表示。这些表示包括空间相关性、周模式、日模式和token信息。5.2.1 token嵌入本文通过点态卷积嵌入token其中输入数据XP被转换为嵌入的其中EP表示token嵌入。PConv表示使用核大小为1×1的滤波器的点态卷积操作。XP为输入数据D为隐藏维度。θ表示点态卷积的参数。5.2.2 时间嵌入为了保留token中的时间信息本文利用一个线性层将输入数据编码到单独的嵌入层中包括日模式和周模式的时间嵌入。具体如下其中和分别为日模式和周模式的可学习参数嵌入。通过添加这两个嵌入本文得到了时间嵌入.5.2.3 空间嵌入为了挖掘token对之间的空间相关性本文设计了一个自适应的token嵌入其中σ为激活函数和为可学习参数。5.2.4 信息融合随后本文引入了一个融合卷积FConv来将交通特征投影到LLM的所需维度上。具体来说FConv集成了token、空间和时间嵌入以一致地表示每个token其中||表示连接θ表示FConv的可学习参数。5.3 部分注意力冻结策略在FPT框架中多头注意力层和前馈层在训练过程中都被冻结这些层包含了LLM中学习知识的最重要部分。FPT和本文的PFA之间的区别主要在于冻结的注意层。在PFA中保持前F层与FPT相同但最重要的是本文解冻了后U层的多头注意力层因为注意层有效地处理了数据中的时空依赖性。因此本文的PFA LLM可以在保持基础知识的同时适应交通预测在训练前获得。此外本文的PFA LLM将传统的计算维数从时间转换为空间。这种反转是有意的并与部分冻结层的操作相一致。通过焦点在空间维度上本文的模型比本文只关注时间方面更有效地捕获全局依赖关系。这种转变与交通预测尤其相关在这里空间动力学在决定流体模式中起着关键的作用。PFA LLM是使用基于transformer的架构构建的本文选择了GPT2 。GPT2在很大程度上遵循了OpenAI GPT模型的细节并进行了一些修改。值得注意的是归一化层模块化定位于每个子块的输入端类似于剩余网络中的预激活。此外在最后的多头注意之后还添加了一个额外的层标准化。此外本文引入了一种PFA策略来适应GPT2来捕获融合张量HF的时空依赖性。在PFA LLM之后本文设计了一个回归卷积RConv来预测以下S个时间步长上的交通量ST-LLM的损失函数建立如下实验6.1 总体效果与基线的比较结果见下表。标粗的结果是最好的带下划线的结果是第二好的。ST-LLM中的LLM是GPT2。本文得到如下结论(1)基于llm的方法具有优越的预测结果其中ST-LLM的性能最好。ST-LLM在四个数据集上流量预测效果都优于其他llm (2) OFA和LLAMA2是合格的但被STLLM超越STLLM的平均MAE比OFA提高了22.5%比LLAMA2提高了20.8%。这可能是由于OFA的流量数据嵌入效率低下使得LLM难以理解数据之间的时空依赖关系。尽管LLAMA2的尺寸和复杂性更大但它并不能直接转化为比ST-LLM更好的流量预测。GATGPT和GCNGPT不会提取交通数据的时间表示以影响LLM捕获时空依赖关系。(3)基于注意力的模型如ASTGNN和GMAN在不同的数据集上表现出不同的性能。他们在某些情况下表现得很好但不如ST-LLM。这种可变性可能归因于传统的注意机制在处理复杂的时空嵌入方面的局限性。(4)基于GNN的模型如GWN和DGCRN表现出了具有竞争力的性能特别是在特定的指标方面但仍然不能超过ST-LLM。这表明虽然GNN为了捕获空间依赖性它们的时间分析能力可能没有ST-LLM那样先进这限制了它们的整体性能。综上所述实验结果在不同类型的模型之间显示出明显的性能差别。基于llm的方法成为表现最好的方法展示了它们处理不同交通预测任务的能力。在基于llm的模型之后基于注意的模型占据了第二。最后基于GCN的模型虽然仍然有效但排名较低与上述模型相比。这个层次结构突出了模型功能的不断发展的格局基于llm的方法在交通预测任务中处于领先地位。6.2 消融实验6.2.1 模型组建消融ST-LLM由几个关键组件组成每个组件都有助于其在交通预测中的整体有效性。本节比较ST-LLM各组件变化以证明不同组成部分的有效性。w/o LLM删除LLM的ST-LLM的变体。w/o ST去掉ST-时空嵌入的llm的变体。w/o T去除时间嵌入。w/o S去掉了空间嵌入。下图展示了在NYCTaxi数据集上的消融实验分析了ST-LLM模型中不同组件的影响。没有使用LLM的变体w/o LLM在所有指标上的误差都有显著增加。移除LLM导致性能下降表明ST-LLM的预测能力很大程度上依赖于LLM从交通数据中学习复杂依赖关系的能力。移除时空嵌入w/o ST也导致了显著的性能下降这突显了时空嵌入在理解交通数据中时空依赖关系的重要性。实验结果显示移除时间w/o T或空间w/o S组件都会对模型的预测误差产生类似的影响。去掉这些嵌入中的任意一个都会导致误差增加表明它们都是准确预测所必需的。特别地移除时间组件会带来更大的预测误差这进一步强调了本文精心设计的时间小时和周天嵌入的重要性。这一观察进一步说明了平衡的空间和时间嵌入在提升模型预测性能中的关键作用。当所有组件都整合在一起时即完整的ST-LLM模型本文在所有指标上都观察到最低的误差率。这表明结合LLM、空间和时间嵌入对于处理交通预测中的时空依赖关系具有显著的效果。6.2.2 注意力冻结消融部分冻结注意力LLM的消融实验。在本小节中本文进行了消融实验评估本文提出的部分冻结注意力PFALLM的有效性。PFA与几种变体进行了对比冻结预训练TransformerFPT、未使用预训练的模型No Pretrain、使用GPT-2全部十二层的模型Full Layer以及没有冻结层、完全微调的模型Full Tuning。PFA LLM的消融结果展示在下表中。PFA在所有数据集的所有指标上表现出优越的性能这表明部分冻结注意力显著提升了预测准确性。虽然FPT表现出较为出色的性能但仍稍逊于PFA。这表明部分冻结策略在利用预学习特征和适应新数据之间达到了更佳的平衡。Full Layer和Full Tuning模型表现出竞争力但它们的效率和准确性仍不及PFA模型。这强调了选择性冻结在管理模型适应性方面的优势。与No Pretrain模型的对比突出了预训练对模型性能的重要性。虽然No Pretrain模型表现得还算不错但很明显预训练特别是结合部分冻结策略对于实现更高精度至关重要。欢迎关注微信公众号《当交通遇上机器学习》如果你和我一样是轨道交通、道路交通、城市规划相关领域的也可以加微信Dr_JinleiZhang备注“进群”加入交通大数据交流群希望我们共同进步往期回顾重磅发布 | 《Artificial Intelligence for Transportation》新刊上线团队研究成果|大型活动期间城轨短时客流预测团队研究成果|城市轨道交通短时交通客流OD预测团队研究成果|城市轨道交通新线客流预测团队研究成果|城市轨道交通疫情期间短时客流预测团队研究成果|基于物理信息引导的突发事件期间的城市轨道交通短时OD需求预测我知道你在看哟