Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivari

发布时间:2026/6/23 22:47:41

Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivari 一、研究背景与问题背景大型预训练模型在NLP和CV领域展现出强大的零样本/少样本学习能力但在多变量时间序列TS预测领域由于数据来源多样、分辨率不同、通道数各异预训练模型的构建面临巨大挑战。现有问题现有的TS预训练模型如TimesFM、Moirai、Chronos等规模庞大数亿至数十亿参数计算资源消耗高推理速度慢。大多数模型忽略通道间相关性和外生变量的影响而这些在实际业务场景中至关重要。模型部署门槛高不适合资源受限的环境。二、核心贡献与创新点本文提出Tiny Time MixersTTM一种极轻量级最小仅1M参数的多变量TS预测预训练模型主要创新包括轻量级架构设计基于高效的TSMixer架构MLP 门控注意力避免Transformer的二次时间复杂度。支持CPU-only部署推理和微调速度快资源占用极低。多分辨率预训练增强技术自适应分块Adaptive Patching, AP不同层使用不同分块长度适应不同数据集特性。多样本分辨率采样Diverse Resolution Sampling, DRS增加训练数据的分辨率多样性提升泛化能力。分辨率前缀微调Resolution Prefix Tuning, RPT在输入中显式加入分辨率信息帮助模型区分不同频率的数据。多层级建模策略预训练阶段通道独立channel-independent方式专注于时序模式学习。微调阶段启用通道混合channel mixing捕捉通道间相关性并支持外生变量注入Exogenous Mixer。灵活的预测长度适配FLA支持通过剪枝pruning或递归预测recursive将预训练模型适配到不同的预测长度无需重新训练。三、实验与性能表现预训练数据使用约10亿样本来自 Monash 和 LibCity 仓库涵盖多种分辨率秒级至天级和领域。评估数据集11个公开数据集包括ETT、Weather、Electricity、Traffic等分为无外生变量D1和含外生变量D2两组。主要结果零样本预测TTM1M~5M参数在MSE上相比Moirai14M~311M提升4%~10%相比TimesFM200M提升19%。少样本5%数据微调优于GPT4TS和Time-LLM提升幅度达10%~15%。全样本头探针Head Probing优于Moment提升3%~4%。计算效率推理时间、GPU内存占用均显著低于所有对比模型支持CPU执行。外生变量建模在BS、CC等数据集上TTM-CM带通道混合优于TSMixer、GPT4TS等提升15%~44%。四、关键洞察与设计哲学数据质量 数据数量高分辨率多样性的预训练数据比单纯扩大数据量更有效。轻量级也可具备强泛化能力通过合理的架构设计和预训练策略小模型同样能在多分辨率、多领域数据上取得SOTA效果。实用性优先支持外生变量、通道相关性、快速微调和低资源部署满足工业场景需求。五、局限性与未来工作当前仅支持点预测point forecasting不支持概率预测。对上下文长度敏感不同长度需训练不同模型。仅专注于预测任务尚未扩展到分类、异常检测等其他TS任务。未来计划扩展到更多下游任务如分类、回归、异常检测。支持动态上下文长度自适应。引入概率预测头支持不确定性量化。TTM是首个在TS预测领域验证“微型预训练模型”有效性的工作通过精巧的架构设计、创新的预训练策略和多层级微调机制在极小模型规模下实现了优于大型模型的零/少样本预测性能同时具备极高的计算效率和部署灵活性为资源受限场景下的TS预测提供了切实可行的解决方案。这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示项目地址在这里如下所示预训练模型发布地址在这里如下所示摘要大型预训练模型在自然语言和视觉任务的零样本/少样本学习中表现出色但在多变量时间序列TS预测中由于数据特征的多样性它们面临挑战。因此近年来的研究工作集中在开发预训练的时间序列预测模型上。这些模型无论是从头构建还是从大型语言模型LLM改编而来在零样本/少样本预测任务中表现出色。然而它们受限于性能缓慢、计算需求高并且忽略了跨通道和外生相关性。为解决此问题我们介绍了 Tiny Time MixersTTM这是一种紧凑型模型从 1M 参数起步具有有效的迁移学习能力且仅使用公开的 TS 数据集进行训练。TTM 基于轻量级的 TSMixer 架构并融入了诸如自适应分块adaptive patching、多样本分辨率采样diverse resolution sampling和分辨率前缀微调resolution prefix tuning等创新以最小的模型容量处理不同分辨率数据集的预训练。此外它采用多层级建模来捕捉通道相关性并在微调期间注入外生信号。TTM 在零样本/少样本预测中优于现有的主流基准模型 (4−40%)同时显著降低了计算需求。此外TTM 轻量级甚至可以在仅 CPU 的机器上执行增强了可用性并促进了在资源受限环境中的更广泛应用。用于可复现性和研究用途的模型权重可在此处获取而 Apache 许可下的企业用途权重可通过以下方式访问初始的 TTMQ​ 变体在此处最新的变体TTM TTME​ TTMA​ 权重在此处推荐使用。TTM 模型的源代码及使用脚本可在此处获取。1 引言多变量时间序列TS预测是指根据多个相互关联的时间序列的历史值来预测其未来值。被预测的通道称为目标变量而影响预测结果的通道则称为外生变量。该领域通过应用统计和机器学习ML方法在气象、交通、零售和能源等多个领域取得了显著进展。相关工作多变量预测的最新进展以 Transformer [31] 方法的出现为标志例如 PatchTST [22]、Autoformer [38] 和 FEDFormer [45] 等模型。这些模型相比传统的统计和机器学习方法展现了显著的改进。此外基于 MLP-Mixer [30] 的架构如 TSMixer [6] 和 TimeMixer [33]已成为高效的 Transformer 替代方案与 Transformer counterparts 相比计算需求降低了 2-3 倍且精度无损。图 1\(\mathrm{TTM}_B\) 与开源预训练 TS 基准模型在规模、时间和准确性方面的概览。我们根据模型规模和每批次 CPU 推理时间绘制了每个模型。每个基线标注的 \(X\%\) 表示在评估基准中该基线的预测精度比 TTM 的预测精度低 \(X\%\)。详细信息请参见表 [1-5]。近来研究界对构建用于 TS 预测的通用预训练或基础模型FM表现出了浓厚的兴趣这些模型能够成功地将学习成果迁移到未见过的目标 TS 数据集类似于 NLP 和视觉任务的成功。然而由于公开数据集的有限性和跨应用领域的多样性TS 领域的预训练尤其具有挑战性。2024 年初这种兴趣最终促成了数个用于预测的“大型”和“海量”TS 预训练模型的发布在研究界引起了相当大的兴奋。这些发布的模型包括 Moment[10]、TimesFM [3]、Chronos[2]、Moirai[35] 和 Lag-llama[26]它们成功地在零样本预测中建立了强大的基准。此外还出现了一种趋势即利用预训练的大型语言模型LLM进行 TS 预测将预测任务视为一种跨领域迁移学习。这些通用的跨迁移方法以近期的工作如 LLM-Time [11]、Time-LLM [15] 和 GPT4TS [46] 为代表在零样本/少样本预测场景中展现出了有前景的结果。然而这些“大型”TS 预训练模型中的大多数需要极高的计算资源因为它们的规模从数亿到数十亿参数不等。鉴于近来“小型”语言模型[1][29][39]在解决实际工业环境中的资源和成本限制方面日益流行本研究考虑了以下问题在 TS 领域“微型”预训练模型能否也取得成功如果可以它们能否在显著降低计算资源和运行时间的情况下超越“大型”TS 预训练模型的零样本/少样本预测结果令人惊讶的是正如我们在本工作中所展示的答案是肯定的。然而这些大型 TS 预训练模型中的大多数需要极高的计算资源因为它们的规模从数亿到数十亿参数不等。鉴于近来“小型”语言模型[1][29][39]在解决实际工业环境中的资源和成本限制方面日益流行本研究考虑了以下问题在 TS 领域“微型”预训练模型能否也取得成功如果可以它们能否在显著降低计算资源和运行时间的情况下超越“大型”TS 预训练模型的零样本/少样本预测结果令人惊讶的是正如我们在本工作中所展示的答案是肯定的。为此我们提出了多层级 Tiny Time MixersTTM这是一种显著更小的预训练模型从 1 百万M参数起步用于有效的零样本/少样本多变量预测。特别是TTM 支持通道相关性和外生信号这是多变量预测背景下关键且实际的业务需求而许多现有的 TS 预训练模型缺乏这些功能。TTM 基于轻量级的 TSMixer 架构该架构使用 MLPMixer 模块与简单的门控注意力交错作为 Transformer 中二次时间复杂度的自注意力模块的替代方案这使得 TTM 的预训练和微调极其快速。TTM 使用来自 Monash 和 LibCity 数据仓库的多个公共数据集约 10 亿B个样本进行预训练。请注意这些数据集在特征上表现出相当大的多样性例如不同的领域、时间分辨率sup4/sup从秒到天不等、长度和通道数量。在如此异构的数据集上使用极小的模型进行预训练需要专门的架构改进。因此TTM 对 TSMixer 架构提出了以下增强以适应资源受限的预训练/微调i自适应分块AP考虑到不同数据集对分块长度的不同适用性ii多样本分辨率采样DRS以增强数据增加不同分辨率的覆盖范围iii分辨率前缀微调RPT以在第一个分块中显式嵌入分辨率信息便于在多样化数据集上训练时进行分辨率条件建模。此外我们的方法利用多层级建模其中 TTM 首先以通道独立的方式进行预训练然后通过通道混合进行微调以结合目标域中目标和外生通道之间的相关性。TTM 关键能力概述1在“大型”预训练模型占据主导地位、需要大量计算和训练时间的背景下我们的工作是首个展示使用“微型”TS 预训练模型进行零样本/少样本预测的迁移学习能力的模型。2在具有极有限模型容量的异构多分辨率数据集上预训练微型模型具有挑战性。为此我们提出了各种架构和训练增强方法如 AP、DRS 和 RPT用于稳健且资源受限的预训练/微调工作流如上定义。3TTM 采用多层级建模策略以显式建模通道相关性并整合外生信号——这是现有大多数预训练模型所缺乏的关键能力。4通过对 11 个数据集进行广泛的零样本/少样本预测评估我们证实了 TTM 模型小至 1M 参数在提供显著计算优势的同时其预测结果持续优于“大型”TS 预训练模型。图 1 突出显示了 TTM 在三个主要维度规模、运行时间和准确性上均优于主流基准模型。5鉴于其紧凑的规模TTM 的零样本推理和微调可以轻松地在单个 GPU 或仅 CPU 环境中执行。这极大地促进了我们预训练模型的实际采用和易用性扩展了其覆盖范围。图 2TTM 概述 (a) 参见第 2 节和第 3 节(b) 参见第 3.1 节(c) 参见第 3.2 节2 TTM 组件2.1 多层级建模TTM 遵循一个由四个关键组件组成的多层级架构见图 2(a)1TTM 主干网络backbone由源自高效 TSMixer 架构 [6] 的构建块组装而成。TSMixer 基于 MLP 模块与门控注意力交错能够在最小计算需求下实现补丁内、补丁间和通道间特征的混合超越了现有的基于 Transformer 的 TS 方法。由于 TSMixer 并非为处理具有有限容量的多分辨率数据而设计我们对其引入了各种新颖的增强如下所述。2TTM 解码器遵循与主干网络相同的架构但规模显著更小约为主干网络大小的 10−20%3预测头forecast head由一个线性头组成用于产生预测输出以及4可选的外生混合器Exogenous mixer用于将外生数据融合到预测过程中。TTM 解码器和预测头共同构成 TTM 头TTM head其权重在微调过程中会被更新。这种多层级模型重构是为了根据工作流类型动态改变不同组件的工作行为详见第 3 节。除上述主要组件外还有一个预处理组件如下所述。2.2 预处理3 TTM 方法论3.1 预训练工作流3.1.1 通过 TTM 主干网络进行多分辨率预训练在 TTM 中我们的目标是创建极其微小但能够很好地泛化到具有不同分辨率的各种数据集的模型。这是一个重大的挑战因为模型由于其较小的规模而容易欠拟合。为了应对这些资源受限的预训练挑战我们对 TSMixer 主干网络引入了以下增强。通过多样本分辨率采样Diverse Resolution Sampling, DRS进行增强TS 预训练数据集中的一个重大挑战是缺乏具有多种分辨率的公共数据集。通常高分辨率数据集由于其更精细的采样分辨率会占据样本的更大比例。如果不调整训练策略这可能导致模型偏向于更精细分辨率的数据。为了克服这一点对高分辨率数据集应用了不同的策略以平衡较低分辨率下的样本量从而实现更均匀的覆盖。使用的策略包括1在连续的、不重叠的窗口中对 k 个样本进行平均以生成一个较低分辨率的数据集2传统的抽取decimation方法即仅保留第 k 个样本。在这两种情况下整数 k 的选择旨在根据基础数据集的分辨率达到所需的分辨率。例如从一个 4 秒分辨率的数据集我们推导出分钟级k15和小时级k900分辨率的多个数据集。请注意原始的高分辨率数据集仍保留在预训练数据池中。这种方法增加了每个分辨率的数据集数量极大地提高了模型性能。分辨率前缀微调Resolution Prefix Tuning, RPT该技术根据输入分辨率明确地学习并在输入数据中并入一个新的分块嵌入作为可学习的前缀见图 2(b) 和表 8。类似于前缀微调 [16] 的概念这种方法向模型提供了一个关于分辨率的明确信号用于进行分辨率条件建模。首先我们将每个分辨率映射到一个唯一的整数然后通过一个嵌入层将其投影到隐藏维度 hf。随后我们跨所有通道扩展该嵌入使其具有形状为 c×1×hf 的表示。这种基于分辨率的可学习嵌入在有限的建模容量下对快速建模大量不同分辨率的数据集特别有益因为模型可以轻松地将来自不同分辨率的数据解耦进行分辨率条件建模。此外当上下文长度sl较短时RPT 也有所帮助。在这些场景中自动检测分辨率对模型来说成为一个挑战。因此通过将分辨率信息作为前缀显式融合我们可以在不增加模型规模的情况下增强模型跨分辨率有效学习的能力。3.2 微调工作流在微调工作流中我们处理来自目标域的数据这些数据与预训练数据集没有重叠。我们有以下三种选择a在零样本预测中我们直接使用预训练模型对目标数据的测试部分进行评估b在少样本预测中我们仅使用目标数据训练部分的一小部分5-10%来快速更新 TTM 头的预训练权重然后在测试部分上进行评估c在全样本预测中我们在目标数据的整个训练部分上微调 TTM 头的预训练权重然后在测试部分上进行评估。在微调期间主干网络被冻结并且仍然以通道独立的单变量方式运行。然而TTM 头中的精简解码器可以利用通道混合或通道独立性进行微调分别用于多变量或单变量目标数据。如果需要纯多变量建模则解码器中所有 TSMixer 组件见图 2(b)的通道混合器模块将被启用以显式捕捉跨通道相关性。预测头和逆归一化执行与预训练阶段类似的操作。微调也使用 MSE 损失来优化预测目标。这种深思熟虑的多层级设计选择确保了我们的主干网络在通道独立预训练方面表现出色能够在不同数据集上实现有效的时序相关性建模。同时解码器处理目标数据特定任务如通道相关性建模和微调。此外如果目标数据包含外生变量则会对实际预测应用外生混合器模块如下所述。4 实验与结果4.1 数据集与指标4.2 SOTA 基准我们将 TTM 与 24 个最新的开源 SOTA 预测模型进行基准测试这些模型分类如下aTS 预训练模型Lag-Llama [26]TimesFM [3]Moirai [35]Chronos [2] 和 Moment [10]。b基于 LLM 的 TS 预训练模型GPT4TS [46]LLMTime [11]Time-LLM [15]UniTime [18]c自监督预训练模型SimMTM [5]Ti-MAE [17]TST [42]LaST [34]TF-C [43]CoST [36] 和 Ts2Vec [40]d其他架构PatchTST [22]TSMixer [6]TimeMixer [33]iTransformer [19]DLinear [41] 和 TimesNet [37]FEDFormer [45] 和 Autoformer [38]。4.3 TTM 模型细节虽然 TTM 模型需要针对特定的预测长度FL进行预训练但我们提供了两种预测长度适配FLA技术在第 4.7 节中解释使预训练的 TTM 能够适应不同的 FL。用户既可以为特定 FL 构建直接预训练的模型来自上述变体之一也可以使用 FLA 技术将现有的 TTM 模型适配到其应用场景。主要结果使用直接方法报告并提供了详细的消融研究来比较各种 FLA 技术的有效性。在直接方法中模型参数大小随 FL 变化我们在结果表中报告平均参数大小。TTM 的微调和推理非常高效和快速仅需 1 个 GPU 甚至 CPU 即可执行。所有模型超参数均基于验证性能选择并报告最终测试结果。有关详细的模型规格和超参数请参阅附录 D。表 1TTM 相对于 Moirai (ICML24) 和 TimesFM (ICML24) 的零样本预测改进 (f−imp) 和模型规模改进 (s−imp)。MSE 在 FL∈{96,192,336,720}上取平均。Electricity 和 Weather 的结果未报告 TimesFM因为它们被 TimesFM 用于预训练。类似地Traffic 被 Moirai 和 TimesFM 用于预训练。完整表格见附录 F.2。4.4 TTM 的零样本性能和推理成本最近流行的预训练模型如 TimesFM、Moirai、Chronos、Lag-llama 和 LLMTime 因其零样本ZS预测能力而受到关注。其中Chronos、Lag-llama 和 LLMTime 的 ZS 推理时间较长在测试集的所有滑动窗口上进行测试存在实际挑战。为解决此问题LLMTime建议使用最后一个测试窗口进行基准测试我们也采用这种做法来与这组 SOTA 模型进行比较。另一方面TimesFM 和 Moirai 显示出相对更快的 ZS 推理速度可以在测试集的所有滑动窗口上进行测试。表 1 展示了 TTM 与 Moirai 和 TimesFM 的性能比较。尽管参数显著减少TTM 的变体在大多数基准变体上表现出一致的优越性。值得注意的是TTMA​ 比所有 Moirai 变体小 3-62 倍比 TimesFM 小 40 倍但性能优于 Moirai 变体 4-10%优于 TimesFM 19%。即使是只有 1M 参数的 TTMB也以相当大的幅度优于大多数基准凸显了 TTM 的有效性。此外如附录 F.4 所示在短上下文长度设置下TTM 的零样本结果持续优于流行架构的全样本结果。类似地表 2 展示了 TTM 与 Chronos 和 Lag-llama 在最后一个测试窗口集上的性能比较。如图所示比 Chronos 小 8-709 倍的 TTMB​ 优于它 17-32%。类似地比 Lag-llama 小 2-3 倍的 TTMBTTMB​ 优于它 40%。此外如附录 F.3 所报告TTM 也优于大规模模型 LLMTime 和 UniTime 超过 25%。表 3 展示了不同 TS 预训练模型每批次的推理时间和最大 GPU 内存需求。值得注意的是TTM 在它们之中表现出最低的推理时间和内存使用量。4.5 TTM 的少样本和全样本头探针Head Probing性能在运营部署中用户通常利用少量目标数据进行微调以提升模型性能。在这方面TTM 提供了一个高效的快速微调过程使用户能够通过仅训练模型头部来迅速提高预测准确性。GPT4TS 和 Time-LLM 是两个展示了少样本训练结果的 SOTA 预训练模型。如表 4 所示在仅使用 5% 训练数据进行微调的 5% 少样本设置下TTMB​ 超越 GPT4TS 15%超越 Time-LLM 10%。此外我们还在表 4 中报告了几个流行 SOTA 架构的 5% 少样本结果TTM 展现了优越的性能。这突显了 TTM 预训练权重的重要性这些权重在数据受限的场景下对其有效性有显著贡献。同样TTM 在少样本跨迁移学习任务中也表现出色优于流行的 SOTA 方法包括 SimMTM [5]如附录 F.6 所示。或者如果目标数据集的完整训练集可用则使用整个数据集进行头探针是可行的。这涉及在保持主干网络权重不变的情况下使用所有可用数据微调模型头部。最近Moment [10] 模型在头探针方面取得了 SOTA 结果优于 GPT4TS 和 Time-LLM。然而如表 5 所示TTM 进一步优于 Moment 报告的结果 3-4%。此外如附录 F.7 所描述TTM 头探针结果与流行架构的完整端到端训练结果相比非常有竞争力。因此TTM凭借其显著减小的模型规模和缺乏计算密集型组件如自注意力使得模型能够快速微调而大规模 Transformer 模型则需要繁琐的过程。请注意Moment 未包含在零样本/少样本预测结果的比较中因为它没有报告这些结果。表 3TTM 相对于现有 TS 预训练模型的计算改进。报告了每批次在 GPU 和 CPU 上的推理时间、总参数Params和最大 GPU 内存使用量MEM。nX 表示 TTM 改进的缩放因子。设置细节见附录 D.3。表 5全样本头探针在完整数据上微调预训练模型头部冻结主干网络权重。MSE 在 FL96FL96 720 上取平均如 [10] 所报告。由于计算挑战Time-LLM 在大型数据集上的结果未在 [10] 中报告附录 F.7。表 6解码器混合和外生融合的效果。使用 (sl,fl) 值报告 MSE 结果对于 BS 数据集为 (512,96)对于其他 D2 数据集为 (96,24)。4.6 TTM 在跨通道和外生建模中的有效性由于先前实验中使用的数据集D1不包含外生变量我们在另外4个数据集D2如第4.1节所述上评估TTM的有效性以量化其优势。由于这些数据集本身已经非常小我们使用其完整数据进行微调。表6展示了预训练的TTM_Q模型在目标数据上进行微调并启用了外生混合器模块和解码器通道混合TTM-CM后的性能。我们将TTM-CM与普通TTM微调以及其他从头开始训练的主要SOTA模型PatchTST、TSMixer变体和GPT4TS进行了比较。具体来说我们与启用了通道混合的TSMixerTSMixer-CM和带有跨通道协调头TSMixer-CC[6]的TSMixer进行了比较因为它们是通道相关性建模方面的最新SOTA方法。从表6可以看出TTM-CM以显著的优势15-44%优于所有竞争模型从而证明了TTM在捕捉通道间相关性方面的强大能力。4.7 消融研究本节分析了 TTM 中使用的各种技术的影响。预训练数据质量 vs 数量图 3 展示了预训练数据和多样本分辨率采样DRS的关键作用。最初当使用较小的 Monash 数据集即 PT(M)预训练 TTM 时零样本结果不理想。为了提升性能我们在 Monash 数据上引入了 DRS 技术以增加多样性和覆盖范围2.5 亿 PT 样本。这显著地改善了结果提升了 37%。此外将数据集大小从 2.5 亿扩展到 10 亿进一步将结果提高了 6%。这些实验突显了虽然预训练数据的数量很重要但数据的质量尤其是在分辨率多样性和覆盖范围方面对于提升模型性能更为关键。分辨率前缀微调RPT和自适应分块AP的效果RPT 增强了预测性能尤其是在使用大量且多样化的预训练PT数据时。添加可学习的分辨率前缀令牌使模型能够轻松地解耦不同分辨率下的权重在 10 亿 PT 数据设置中带来了 3% 的提升表 7。RPT 在上下文长度非常短的场景下也有益将性能提升了 8%附录 F.9。另一方面AP 通常在所有设置下都能提高预测性能但在 PT 数据较少的设置中影响始终较大提升了 3%。更多细节见附录 F.8。4.8 TTM 模型洞察与可解释性图 5 使用 PCA 投影展示了来自不同数据集weather、traffic 和 electricity的 TTM 嵌入每个数据集用不同颜色表示。从每个数据集中选择了三个时间上不相邻、不重叠的固定长度时间段S-1, S-2, S-3每个用独特的标记形状表示。可视化使用了 TTM 嵌入的第一和第二主成分。插图聚焦于 weather 数据集本身揭示了 TTM 架构学习到的更深层结构。嵌入中的循环轨道反映了数据中的季节性模式。两个小时级数据集traffic 和 electricity由于相似的模式形成同心轨道而具有独特季节性模式的 weather 数据则在不同的子维度上显示出循环轨道。此外微调后模型的通道混合层中的跨通道注意力揭示了跨通道的特征重要性。如图 5 所示模型关注诸如天气状况、季节、假日和温度等通道来预测自行车租赁数量。这些注意力模型权重与一般数据特征相关其中自行车租赁需求受天气和假日的强烈影响从而为微调模型的预测提供了解释。更多细节见附录 G。4.9 关于 TTM 设计选择的讨论在本节中我们直观地解释 TTM 的重要设计选择这些选择极大地提高了其预测准确性和迁移学习能力尽管其模型容量极小所有现有的预训练模型都使用了非常大量的预训练数据例如TimesFM 使用了 300BMoirai 使用了 270 亿个时间点因此自然需要庞大的模型规模。然而如图 3 所示我们观察到“有限”的预训练数据与“高分辨率多样性”大大有助于时间序列模型的泛化而不仅仅是增加预训练数据的大小。这是一个重要的观察和发现即预训练数据中的分辨率多样性对时间序列 FM 至关重要。基于这些发现我们采用了经过良好精简的数据集10 亿样本该数据集具有高分辨率多样性这自然减小了我们的模型规模相比于需要使用数千亿时间序列进行预训练的 counterparts。我们通过多样本分辨率采样技术DRS在数据中引入了高多样性而我们的 counterparts 未能做到这一点。其次我们选择基于 TSMixer 的模型而非基于 Transformer 的模型这进一步大幅减小了模型规模。TSMixer 架构过去已成功证明将简单的门控注意力与跨补丁、通道和特征的混合组件交错使用能够在模型容量非常有限的情况下显著提高预测精度因为可以完全避免自注意力的二次时间复杂度。继 TSMixer 之后其他几种混合器架构 [33][24] 已经发布重申了这些简单架构的强大功能。因此避免使用复杂的 Transformer 架构进一步显著减小了我们的模型规模。此外我们通过引入几个创新组件如自适应分块、多样本分辨率采样和分辨率前缀微调在不显著增加模型规模的情况下进一步增强了 TSMixer 的建模能力。这些增强对于有效地处理跨不同分辨率数据集的大规模预训练至关重要同时保持模型容量极小。最后将预训练目标设定为直接预测任务相比于传统的基于掩码的预训练方法显示出更好的零样本性能。我们假设这种方法使模型能够在预训练期间有效地学习固定上下文和预测窗口之间复杂的非线性映射这些映射能够很好地泛化到未见过的数据集。5 结论与未来工作我们提出了 TTM一个极其轻量级的预训练模型用于多变量时间序列预测。与现有的大型模型不同TTM 显著更小、更快并具有高效的预训练和微调工作流。结果表明尽管模型容量有限TTM 在异构数据集上的预训练非常有效。它在零样本/少样本预测中达到了 SOTA 结果提供了显著的计算效率同时捕捉跨通道关系和外生变量——这些关键特征在流行方法中常常缺失。此外TTM 支持 CPU 和 GPU 部署大大增强了其采用率和易用性。展望未来我们计划将我们的方法推广到支持预测之外的其他下游任务。

相关新闻