Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

发布时间:2026/5/28 9:18:27

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction 文章核心内容、创新点总结及关键部分翻译一、主要内容总结本文提出了一种名为视觉自回归建模(Visual AutoRegressive, VAR)的新型图像生成框架,重新定义了图像上的自回归学习范式。传统自回归模型采用“逐token预测”(如光栅扫描顺序),而VAR创新性地采用“逐尺度预测”(next-scale/next-resolution prediction),遵循从粗到细的生成逻辑,先构建图像全局结构,再逐步补充局部细节。研究通过两阶段训练实现:第一阶段训练多尺度VQVAE,将图像编码为多尺度token图;第二阶段基于GPT-2类Transformer架构,训练模型根据前序尺度token图预测下一更高分辨率的token图。在ImageNet数据集上的实验表明,VAR在256×256和512×512图像生成任务中表现优异,不仅大幅超越传统自回归模型,还在图像质量(FID/IS指标)、推理速度、数据效率和可扩展性上优于扩散Transformer(DiT)等主流模型。此外,VAR展现出类LLM的幂律缩放特性和零样本泛化能力,可直接应用于图像修复、扩展和编辑等下游任务。二、核心创新点范式革新:将图像自回归学习从“逐token预测”转变为“逐尺度预测”,以完整token图为自回归单元,契合人类视觉感知的层级特性,解决了传统方法破坏图像空间局部性和双向依赖的问题。性能突破:首次使GPT式自回归模型在图像生成上超越强扩散模型,ImageNet 256×256任务中FID从传统AR模型的

相关新闻