IEEEICDE2025 | TimeKD:融合大语言模型与知识蒸馏的时间序列预测方法

发布时间:2026/5/25 13:41:28

IEEEICDE2025 | TimeKD:融合大语言模型与知识蒸馏的时间序列预测方法 文章信息论文题目为《Efficient Multivariate Time Series Forecasting via Calibrated Language Models with Privileged Knowledge Distillation》发表于数据工程领域的CCF-A会议IEEEICDE2025。该研究针对传统时间序列预测模型在跨变量依赖建模能力有限、难以利用外部知识以及预测性能受限等问题提出了一种融合大语言模型与知识蒸馏的预测框架。摘要多变量时间序列预测MTSF致力于在给定历史数据的前提下预测未来观测值在时间序列数据管理系统中扮演着关键角色。随着大语言模型的发展近期研究通过文本提示调优的方式将大语言模型的知识注入到多变量时间序列预测任务中。然而大语言模型的部署在推理阶段往往面临效率低下的问题。为解决这一问题文章提出了TimeKD一个高效的多变量时间序列预测框架该框架融合了校准语言模型与特权知识蒸馏技术。TimeKD的目标是从所提出的跨模态教师模型中生成高质量的未来表征并训练出一个高效的学生模型。受特权信息学习范式的启发跨模态教师模型采用了带有真实标签提示的校准语言模型。此外文章设计了一种减法式交叉注意力机制用于对这些表征进行精细化处理。为训练出高效的学生模型文章提出了一种创新的特权知识蒸馏PKD机制其中包含相关性蒸馏与特征蒸馏两个模块。PKD能够让学生模型复刻教师模型的行为同时最小化二者的输出差异。在真实数据集上开展的大量实验充分验证了所提TimeKD模型的有效性、高效性与可扩展性。贡献1文章是首个将特权知识蒸馏应用于时间序列预测的系统性研究。文章提出了TimeKD一个基于校准语言模型的高效时序预测框架。2文章构建了一个跨模态教师模型该模型由校准语言模型和减法式交叉注意力机制组成能够有效提取未来时序表征。3文章提出了特权知识蒸馏PKD该方法包含基于特权信息的相关性蒸馏与特征蒸馏能够让学生模型学习教师模型的行为模式同时最小化二者的输出差异。4文章在真实数据集上开展了大量实验为所提TimeKD模型的有效性、高效性与可扩展性提供了充分的实验证据。整体框架TimeKD由跨模态教师模型和学生模型组成并通过特权知识蒸馏将教师模型的知识迁移到学生模型从而训练出一个高性能的学生模型。①跨模态教师模型该模型主要由校准语言模型CLMs、减法式交叉注意力SCA以及用于重建任务的特权Transformer编码器构成。真实值提示PGT和历史数据提示PHD作为特权信息分别输入校准语言模型以辅助生成有效的未来表征。减法式交叉注意力SCA的设计目的是去除未来时序表征中掺杂的文本信息。随后文章将这些特征输入轻量级Pre-LNTransformer编码器以重建时序真实值。文章训练一个基于大语言模型LLM的跨模态教师模型用于重建时间序列的真实值以学习高质量的未来表示。①校准语言模型校准语言模型CLMs基于提示词的跨模态和模态内相关性对大语言模型LLMs中的掩码多头自注意力机制进行修改。CLMs由分词器tokenizer、层归一化layernormalization、校准注意力机制、前馈网络feed-forwardnetworks以及最后一个token提取器组成如图1所示。随后文章设计了校准注意力机制CalAtt以增强LLM在处理多模态数据如时间序列与文本时的掩码多头自注意力MMSA能力。传统MMSA难以区分跨模态与模态内交互的重要性导致表示纠缠。例如如图4所示原始注意力掩码底部在下三角区域呈现均匀分布。相比之下校准注意力机制顶部增强了模态内交互同时降低跨模态交互的权重例如时间序列token“10”与文本token“were”之间的关系。其形式如下②减法式交叉注意力文章设计了一种减法式交叉注意力SCA机制用于去除最后token表示中的文本信息从而保留与时间序列预测最相关的表示。在SCA中文章首先对真实值和历史数据进行层归一化和投影随后计算通道级相似度矩阵接着通过MC对LHD进行逐通道加权聚合。最终通过从LGT中减去融合后的信息并经过层归一化和前馈网络得到精炼后的真实值提示嵌入②学生模型学生模型通过可逆实例归一化层RevIN处理历史数据随后接入逆嵌入层。逆嵌入层独立嵌入每个变量的完整时序序列。接着一种名为TSTEncoder(·)的时序Transformer编码器处理这些嵌入以捕捉多变量间的长期时序依赖从而预测时序真实值。学生模型用于处理历史时间序列数据整体结构包括RevIN归一化模块倒置嵌入层invertedembedding时间序列Transformer编码器以及投影层用于预测给定历史时间序列数据。首先模型通过RevIN对输入进行归一化处理目的是缓解时间序列中的分布漂移问题。然后将归一化后的数据输入到倒置嵌入层中。其作用是在不同变量之间建立更强的依赖关系。捕捉多变量时间序列的全局相关性。嵌入后的表示会送入一个Transformer编码器其作用是捕获时间依赖关系以及变量之间的交互。③特权知识蒸馏该模块通过两种损失函数将教师模型的未来表征迁移到学生模型相关性蒸馏损失和特征蒸馏损失。相关性蒸馏损失用于对齐教师与学生模型中Transformer的特征相关性引导学生模型模仿教师的行为模式同时特征蒸馏损失用于最小化教师与学生模型之间的输出差异。实验1.总体效果①长期预测性能对比文章在表I中报告了各方法的MSE和MAE指标。优于现有方法的结果以下划线标出最佳结果用粗体表示。主要观察如下TimeKD在所有数据集和所有预测长度FH∈{24,36,48,96,192}上都取得了最佳结果。相比当前最强基线方法TimeKD在MSE和MAE上分别提升了9.11%和7.52%。这一提升归因于TimeKD的特权知识蒸馏机制该机制利用校准后的LLM从文本模态中提取嵌入并通过蒸馏将这些知识迁移到学生模型中。文章还观察到在ETTm2数据集上的提升超过其他数据集因为ETTm2具有更高的采样频率和更细粒度的数值记录。这说明TimeKD能够在高频数据场景下学习更鲁棒的表示。总体而言基于LLM的方法在大多数情况下优于Transformer方法。这表明LLM具有更强的知识迁移能力。Transformer在所有数据集上的表现最差尤其是在ETTh数据集变量较少上更明显这与其结构简单、缺乏参数有关。TimeCMA在现有方法中表现较优这得益于其能够捕捉抽象的全局时间趋势以及通过跨模态对齐设计来获取更稳健的时间序列表示。②短期预测性能对比如表II所示TimeKD在PEMS04和PEMS08数据集上取得了所有基线方法中的最佳性能。具体而言在PEMS04数据集上MSE降低10.81%MAE降低10.26%在PEMS08数据集上MSE降低11.38%MAE降低11.39%这些优异表现TimeKD、TimeCMA、iTransformer主要归因于使用了倒置嵌入invertedembedding能够有效捕捉交通传感器之间的空间依赖关系。相比之下Time-LLM、UniTime、OFA和PatchTST将每个传感器独立处理未考虑空间交互关系因此它们的性能相对较低2.消融实验为了分析TimeKD各个组成部分的作用包括特权信息、校准注意力、语言模型、减法交叉注意力、相关性蒸馏和特征蒸馏文章设计了以下消融版本lw/o_PI去除特权信息例如真实值提示教师模型仅输入历史数据。lw/o_CA去除校准注意力使用原始的多头注意力机制。lw/o_CLM去除校准语言模型即教师模型不再使用LLM提取文本嵌入。lw/o_SCA去除减法交叉注意力改为直接对嵌入进行减法操作。lw/o_CD去除相关性蒸馏不再对齐特权Transformer与时间序列Transformer之间的注意力关系。lw/o_FD去除特征蒸馏不再对齐教师与学生的特征表示。实验结果如图2所示表明在ETTm1、ETTh2、Weather和Exchange数据集上的平均结果显示去除相关性蒸馏CD和特权信息PI会显著降低性能说明它们对时间序列预测至关重要。当教师模型只使用历史数据去掉真实值提示时TimeKD性能明显下降说明未来信息作为特权知识非常重要在ETTm1数据集上去除SCA后MSE和MAE分别提升变差约8.2%和6.5%说明SCA对性能提升有重要作用同时TimeKD相比w/o_CA分别提升8.9%MSE和8.4%MAE说明校准注意力CA有效结论本文提出了TimeKD这是一种新颖的多变量时间序列预测MTSF框架将校准语言模型与特权知识蒸馏相结合。TimeKD 由两个关键组成部分构成跨模态教师模型和轻量级学生模型。在跨模态教师模型中文章提出了校准语言模型和减法交叉注意力机制。校准语言模型利用大语言模型的预训练知识以及特权文本提示提取鲁棒的未来表示减法交叉注意力则用于净化表示使其更好地对齐时间序列数据。此外文章提出了一种创新的特权知识蒸馏方法包括相关性蒸馏和特征蒸馏用于将教师模型中的表示迁移到轻量级学生模型中。在来自不同领域的真实数据集上的大量实验结果表明TimeKD 在有效性和效率方面均表现出色。

相关新闻