OpenVE-3M: 面向指令引导视频编辑的大规模高质量数据集)
OpenVE-3M: 面向指令引导视频编辑的大规模高质量数据集paper title:OpenVE-3M: A Large-Scale High-Quality Dataset for Instruction-Guided Video Editingpaper是浙江大学发布在arxiv 2025的工作Code:链接摘要基于指令的图像编辑数据集在质量和多样性方面不断提升然而面向基于指令的视频编辑的大规模、高质量数据集仍然十分稀缺。为弥补这一差距我们推出OpenVE-3M一个面向基于指令的视频编辑的开源、大规模、高质量数据集。它包含两大类别空间对齐编辑全局风格、背景更换、局部更改、局部移除、局部添加和字幕编辑和非空间对齐编辑多机位编辑和创意编辑。所有编辑类型均通过精心设计的数据流水线和严格的质量过滤生成。OpenVE-3M在规模、编辑类型多样性、指令长度和整体质量方面超越了现有的开源数据集。此外为解决该领域缺乏统一基准的问题我们构建了OpenVE-Bench包含431个视频-编辑对涵盖多种编辑任务并设置三个与人类判断高度一致的关键指标。我们提出OpenVE-Edit一个在我们数据集上训练的5B模型展现了显著的效率和有效性在OpenVE-Bench上创下新的最先进水平超越了所有先前的开源模型包括14B基线模型。1 引言最近基于指令引导的图像编辑IIE模型如FLUX-Kontext [21]、Qwen-Image-Edit [42]和Nano Banana [10]已展现出强大的编辑能力。越来越多的数据驱动开源图像编辑模型的成功可归因于高质量开源IIE数据集[28, 49]的日益丰富。然而基于指令引导的视频编辑IVE模型和数据集仍处于探索不足的状态。这主要是由于构建高质量IVE数据集面临重大困难。一个关键挑战是不仅需要保持空间一致性还需保持时间一致性这显著增加了构建难度。此外缺乏有效的数据过滤策略导致大量低质量样本难以完全消除。现有的IVE数据集如InsViE-1M [44]、Senorita-2M [56]和Ditto-1M [2]存在四个主要问题规模小、编辑类型有限、指令短以及编辑质量差。表1展示了现有开源IVE数据集的定量分析。尽管VIVID [14]包含1000万样本但由于仅提供视频掩码而非编辑后的视频不能直接用于训练。相比之下InsViE-1M [44]、Senorita-2M [56]和Ditto-1M [2]仅包含100-200万样本且编辑类型种类有限。图2(a)展示了指令长度分布。[44]和[56]中的平均指令长度仅约4个词这不足以提供精确的编辑引导从而对性能产生负面影响。为评估数据集质量我们将原始视频、编辑后的视频和指令输入Gemini 2.5 Pro [10]在三个维度上进行1-5分评估指令遵循度、一致性与细节保真度、视觉质量与稳定性。对于每个数据集我们从每个类别中随机抽取50对编辑样本。最终得分分布如图2(b)所示。尽管[44]和[56]有相当数量的5分样本但它们也有大量1分的低质量案例导致平均质量分数较低。[2]展现了不错的质量但其编辑主要集中在风格转换缺乏多样性。总之迫切需要一个大规模、高质量且多样化的IVE数据集。因此我们引入OpenVE-3M一个大规模、高质量、多类别的IVE数据集。它包含300万样本分为两大类型空间对齐SA和非空间对齐NSA。SA编辑确保编辑后的视频在空间和时间上与原始视频保持运动一致性。SA编辑包括六个子类型全局风格、背景更换、局部更改、局部移除、局部添加和字幕编辑。NSA编辑保持主体一致性但引入新的创意运动包括两个子类型多机位编辑和创意编辑。所有类别的视觉示例如图1所示。此外OpenVE-3M具有最长的平均指令长度40.6词和表1中现有IVE方法中最高的平均视频编辑质量分数3.86。表1 与当前IVE数据集的比较。Cat./Avg. Ins. Lgth分别指类别数/平均指令长度。数据集数量类别平均指令长度帧数分辨率ERVD [54]150K4N/A8512x512InsV2V [9]400K4N/A16256x256VIVID-10M [14]10M3N/A301280x720InsViE-1M [44]1M44.4251024x576Senorita-2M [56]2M63.633-64338x502 / 1120x1894Ditto-1M [2]1M317.11011280x720OpenVE-3M(Ours)3M840.665-1291280x720OpenVE-3M数据集的构建包含3个阶段每个阶段利用多种模型和API实现高质量生成1)数据预处理通过使用多模态大语言模型MLLM[3]、检测和分割模型[32]、深度和边缘估计模型[4, 8]以及局部描述器[24]等模型为特定类别的生成准备数据。2)分类引导的视频对生成利用多种模型创建编辑视频对包括IIE模型[21]、图像到视频模型[36]等。3)高质量对过滤使用先进的MLLM [3, 10, 34, 37]过滤生成的对仅保留高质量样本。详细的构建流水线在第2节中描述。我们还提出OpenVE-Edit一个由三个主要组件组成的IVE模型MLLM、混合专家MoE连接器和扩散TransformerDiT。MLLM同时处理视频和文本指令。与仅使用文本编码器处理指令的方法不同我们的MLLM旨在提取高层指令表示同时捕获视频内的时空关系。我们引入MoE连接器利用不同的专家网络处理对应不同编辑类型的特征。为提高训练效率我们将专家网络最后一层线性层初始化为零。该策略防止随机特征在训练早期扰乱生成过程从而提高训练稳定性和效率。详细的模型设计在第3节中描述。目前没有与人类评估高度一致的通用IVE基准。因此我们提出OpenVE-Bench一个精心策划的基准包含431个视频对涵盖8个类别。对于每个类别我们设计了针对三个关键维度的特定评估提示指令遵循度、一致性与细节保真度、视觉质量与稳定性。最终分数通过将原始视频、编辑后的视频和指令输入MLLM获得。总结来说我们的贡献如下我们引入OpenVE-3M一个大规模、高质量、多样化的IVE数据集。它包含300万样本涵盖两大类别SA和NSA和8个子类别。我们提出一个鲁棒且可扩展的流水线用于构建高质量、多类别的IVE数据旨在促进社区的进一步研究。我们开发OpenVE-Edit一个高效且有效的IVE模型。仅用5B参数即可达到SOTA性能超越现有14B开源模型。我们建立OpenVE-Bench一个通用的、多类别且具有挑战性的IVE基准。它沿三个关键维度评估模型性能并展现与人类判断的高度一致性。2 OpenVE-3M高质量指令引导视频编辑数据集我们介绍OpenVE-3M一个面向IVE的大规模、高质量、多类别且均衡的数据集。它包含八个类别分为六种空间对齐SA和两种非空间对齐NSA类型。完整的构建流水线如图4所示。2.1 视频片段预处理我们从三个开源高质量数据集建立了100万视频的基础视频库Open-Sora-Plan [26]、OpenViD-HD [30]和UltraVideo [45]。对于每个源视频我们随机提取65到129帧的片段并调整为720P分辨率。使用Qwen2.5-VL-72B [3]为视频片段生成长文本描述同时提取可检测物体的名称以供后续处理。同时使用Video DepthAnything [8]和OpenCV [4]分别为片段生成深度图和Canny边缘图。对于提取的物体名称我们使用Grounded SAM2 [32]进行检测和分割获得所有已识别物体的边界框和掩码视频。同时边界框和视频片段被输入DAM [24]为每个物体生成局部描述。此过程应用于每个源视频生成的信息在第二阶段用于构建不同类别的视频编辑对。2.2 分类引导的视频编辑和指令生成OpenVE-3M数据集包含八大视频编辑类别六种SA全局风格转换、背景更换、局部更改、局部移除、局部添加、字幕编辑和两种NSA多机位编辑、创意编辑。SA编辑保持原始视频和编辑视频之间运动和细节的完美一致性。相比之下NSA编辑保持主体一致性但引入新的创意运动。每个类别的构建过程详述如下。各自的流程图见附录C。全局风格。此类别涉及转换视频的全局风格同时保留原始运动和细节。包括18种常见风格如吉卜力、油画、四种时间段如清晨、蓝调时刻和三种天气条件如晴天、雨天、雪天。对于数据生成流水线视频的初始帧输入GPT-4o通过精心设计的提示生成图像编辑指令和对应的正向/反向视频编辑提示。初始帧和图像编辑指令随后使用FLUX-Kontext-dev [21]模型进行风格化图像编辑。编辑后的初始帧连同原始片段的Canny或深度视频一起输入Wan2.1-Fun-V1.1-14B-Control [36]模型在Canny图的结构引导下生成最终的风格化视频。背景更换。对于具有清晰前景-背景区分的视频此任务涉及将背景更换为各种场景。由于鲁棒的视频前景检测算法尚不成熟我们采用基于图像的方法。首先将图像前景检测算法应用于初始帧以生成前景掩码。然后计算该掩码与所有可能的物体掩码组合通过Grounded SAM2 [32]获得之间的交并比IoU。如果某个组合的IoU超过0.95则该组合掩码被视为视频的最终前景掩码。然后流水线使用GPT-4o为背景编辑生成图像级和视频级提示。FLUX-Kontext-dev [21]模型编辑初始帧的背景。我们通过遮挡背景创建仅含前景的Canny/深度视频。最后将遮挡后的Canny/深度视频和编辑后的初始帧输入Wan2.1-Fun-V1.1-14B-Control [36]模型生成具有新背景的最终视频。局部更改。包括物体变换、风格修改、颜色改变和年龄变化等一系列编辑。初始帧及其局部物体描述来自DAM [24]被输入GPT-4o通过精心设计的提示生成。由此产生多种丰富的局部图像和视频编辑提示。FLUX-Kontext-dev [21]模型随后在初始帧上执行局部编辑。最后编辑后的帧连同原始Canny或深度视频输入Wan2.1-Fun-V1.1-14B-Control [36]模型生成编辑后的视频片段。局部移除/添加。对于局部物体移除和添加我们设计了两个不同的数据生成流水线。为创建用于局部添加的训练数据我们首先利用视频修复模型DiffuEraser [23]基于给定掩码从原始视频片段中移除物体。移除物体后的修复视频作为添加任务的源视频。然后使用GPT-4o从物体描述[24]生成对应的局部添加指令而原始未编辑视频作为真实目标。反之为生成局部移除的数据我们使用GPT-4o合成一个包含新物体的视频的图像级添加指令用于视频的首帧然后由FLUX-Kontext-dev [21]模型编辑。随后Wan2.2-I2V-A14B [36]模型从这单一编辑帧生成完整视频我们使用Grounded SAM2 [32]分割新添加的物体。包含该物体的掩码区域随后粘贴到原始视频帧上生成最终编辑片段。这个添加了物体的合成视频作为移除任务的源视频由GPT-4o生成局部移除指令而没有物体的原始视频作为对应的目标视频。字幕编辑。此类别包括添加、移除和修改字幕的任务具有九种变体三个位置顶部、中间、底部。流水线使用GPT-4o为视频生成适当的文本。渲染工具随后用于在各种位置渲染不同风格的字幕。最后GPT-4o为添加、移除和修改任务生成编辑指令。多机位编辑。此NSA任务涉及将视频在同一主体的近景、中景和远景之间切换包括六种转场类型。我们利用Seedance [12]的原生多机位功能。GPT-4o生成三段式序列的提示然后用于I2V生成。在生成具有一致主体、视觉风格和氛围的多机位视频后镜头检测模型分割不同镜头。这些片段随后用于创建镜头切换编辑对和对应的指令。创意编辑。此NSA编辑涉及按照创意指令编辑物体其中主体的动作可能发生显著变化。对于给定的源视频我们使用GPT-4o基于其初始帧生成多个创意I2V指令。Seedance [12]模型随后为每条指令生成高质量视频。最后任意两个生成的视频可组成一个编辑对由GPT-4o生成描述它们之间转换的创意编辑指令。2.3 数据过滤和策展我们设计了一个细致的数据过滤流水线用于所有合成数据对字幕编辑除外。该过程基于三个主要评估指标每个在1到5的量表上评分1) 指令遵循度、2) 一致性与细节保真度、3) 视觉质量与稳定性。关键的是指令遵循度的分数作为其他两个指标的上限。我们将指令遵循作为首要评估标准因为许多生成的视频尽管视觉质量高但可能无法遵循编辑指令。然后我们将编辑指令、原始视频和编辑后的视频输入各种VLM进行自动评分。为了对VLM进行基准测试我们首先手动标注了300个视频对将平均分数3的定义为正样本≤3的定义为负样本。各VLM的准确率为Qwen3-VL-30B-A3B [3] (61%)、InternVL3.5-38B [37] (66%)、Seed1.6-VL [34] (70%)和Gemini2.5-Pro [10] (69%)。由于Seed1.6-VL和Gemini2.5-Pro的API速率限制(TPM)我们最终选择InternVL3.5-VL-38B [37]模型对整个数据集评分保留所有分数≥3的对。我们最终的OpenVE-3M数据集包含300万个视频编辑对涵盖八个类别。如表1所示OpenVE-3M在任务多样性、数据规模、分辨率、帧数和提示细节方面超越了现有IVE数据集。具体而言我们的数据集具有更多类别和更高的平均指令长度。其视频帧数和分辨率也是同类中最高质量的。此外如图3所示不同编辑类型之间的分布均衡使OpenVE-3M成为一个全面、高质量的大规模IVE数据集。3 OpenVE-Edit一种有效的指令引导视频编辑方法如图5所示OpenVE-Edit由三个主要模块组成MLLM、MoE连接器和DiT。输入的编辑指令和视频被联合输入MLLM以捕获指令和视觉内容之间的语义关系。随后任务感知的MoE连接器处理来自MLLM的隐藏特征将其解耦到多个专家网络中。处理后的特征沿token维度与umT5编码的指令特征拼接。同时原始视频通过VAE得到的潜变量特征沿通道维度与噪声拼接。这个复合潜变量表示随后通过DiT模型中的交叉注意力机制与组合的语义编辑特征交互。3.1 通过MLLM注入编辑知识基线视频生成模型如Wan [36]仅依赖umT5编码的文本特征通过交叉注意力与噪声潜变量特征交互。然而仅使用umT5特征提供的是编辑指令的字面表示无法捕获指令和视觉内容之间更高层次的语义和空间关系。因此我们将原始视频和编辑指令联合输入MLLM。这使模型能够捕获这些更高层次的语义和空间关系。此外为了强调与编辑相关的语义我们丢弃与前缀如系统提示相关的token嵌入。此过滤过程确保仅保留与编辑信息直接对应的token使后续处理集中于特定编辑任务。3.2 通过专家门控解耦任务线索用单一模型处理多样化编辑任务的需求带来了任务异质性的挑战可能导致参数低效。共享参数可能内化来自不同任务的冲突表示导致专业化不足和参数量增加。因此我们设计了一个任务感知的MoE连接器模块来处理图像和视频的不同编辑类型。由于不同帧数和分辨率的视频从MLLM产生不同数量的token我们使用可学习查询从隐藏状态中提取不同编辑任务的关键信息。这通过激活特定的稀疏专家子网络实现允许为每个任务精确分配容量。给定输入X i n ∈ R b × s × d \mathbf{X}_{in} \in \mathbb{R}^{b \times s \times d}Xin∈Rb×s×d其中b bb是批量大小s ss是序列长度d dd是MLLM隐藏维度整体模型的前向过程为Y W o ( MoE-Dec ( Q l , MoE-Enc ( F l ( X i n ) ) ) ) , \mathbf{Y} \mathbf{W}_o\Big(\text{MoE-Dec}\big(\mathbf{Q}_l, \text{MoE-Enc}(\mathbf{F}_l(\mathbf{X}_{in}))\big)\Big),YWo(MoE-Dec(Ql,MoE-Enc(Fl(Xin)))),其中Q l ∈ R b × L q × D h \mathbf{Q}_l \in \mathbb{R}^{b \times L_q \times D_h}Ql∈Rb×Lq×Dh是可学习的解码器查询L q L_qLq为可学习查询长度D h D_hDh为隐藏维度W o \mathbf{W}_oWo是用于维度映射的输出线性变换矩阵F l \mathbf{F}_lFl是前馈网络FFNMoE-Enc和MoE-Dec分别是MoE编码器和解码器模块每个包含一个自注意力层、一个交叉注意力层和一个MoE-FFN。对于输入x ∈ R D h \mathbf{x} \in \mathbb{R}^{D_h}x∈RDhMoE-FFN的计算过程为y ∑ i ∈ S w i ⋅ ( W i , 2 ⋅ GELU ( W i , 1 x b i , 1 ) b i , 2 ) , \mathbf{y} \sum_{i \in S} w_i \cdot \Big(\mathbf{W}_{i,2} \cdot \text{GELU}(\mathbf{W}_{i,1}\mathbf{x} \mathbf{b}_{i,1}) \mathbf{b}_{i,2}\Big),yi∈S∑wi⋅(Wi,2⋅GELU(Wi,1xbi,1)bi,2),其中S topk ( softmax ( W g x ) , k ) S \text{topk}(\text{softmax}(\mathbf{W}_g\mathbf{x}), k)Stopk(softmax(Wgx),k)是top-k选择的专家索引集合W g \mathbf{W}_gWg是门控权重矩阵W i , j \mathbf{W}_{i,j}Wi,j和b i , j \mathbf{b}_{i,j}bi,j是第i ii个专家网络的权重和偏置w i w_iwi是专家i ii的归一化权重。3.3 在统一模型中加速收敛与大型预训练模型不同我们的MoE连接器是随机初始化的这有引入噪声和不稳定训练的风险。为缓解此问题我们借鉴ControlNet [53]的思路将连接器最后MLP层W o \mathbf{W}_oWo的权重零初始化。然后将其输出与原始umT5指令特征拼接。这种设计有效地使模块在训练开始时不可见因为其零输出保持了umT5特征的完整性。随着训练推进模块通过梯度下降逐渐学习贡献有用信息确保稳定高效的收敛。4 OpenVE-Bench一个鲁棒的指令引导视频编辑基准4.1 基准构建我们的OpenVE-Bench包含两大类别SA和NSA编辑。进一步分为八个细粒度子类别共计431个IVE对每个子类别平均包含50个以上的视频片段。对于全局风格我们精心选择58个视频片段并设计涵盖18种不同风格、3种时间段和4种天气条件的指令。对于背景更换我们手动选择59个适合背景更换的片段并设计从和谐到高度风格化的多样指令。对于局部更改我们选择65个包含显著主体如人、动物或车辆的片段设计物体变换、风格修改和年龄操作的指令。对于局部添加我们选择67个不同难度的片段设计从小物体如风筝到大物体如汽车的添加指令。对于局部移除我们选择59个包含不同大小和类型主体的视频设计对应的移除指令。对于字幕编辑我们从不同场景和风格中选择50个片段设计在顶部、中部或底部位置添加、删除或替换文字的指令。对于多机位编辑我们选择43个包含显著主体的片段设计在长、中、近景之间转换的指令。对于创意编辑我们选择30个独特的视频片段使用GPT-4o生成多样且富有想象力的指令。4.2 评估指标遵循已建立的IIE评估标准[27, 46, 47]我们使用三个重要指标在1到5的量表上评估IVE指令遵循度、一致性与细节保真度、视觉质量与稳定性。关键的是我们规定指令遵循度分数作为其他两个的上限。此设计将指令遵循作为首要标准惩罚忽视编辑指令的高质量视频。5 实验5.1 实现细节我们使用Wan2.2-T12V-5B作为视频生成基础模型。Qwen2.5VL-3B [3]处理输入视频和编辑指令。对于MoE连接器编码器和解码器模块均有2层。每层包含6个专家每次前向传播激活2个。可学习查询的序列长度为512。我们采用两阶段训练策略。首先在480P分辨率下以全局批量大小512和学习率1e-5训练模型一个epoch。随后在720P分辨率下以降低的学习率1e-6再微调一个epoch。5.2 与最先进模型的比较我们将模型与现有最先进的开源模型进行比较包括VACE [17]、OmniVideo [33]、InsViE [44]、ICVE [25]、Lucy-Edit [35]和DITTO [2]以及闭源模型Runway Aleph [1]。在我们用80GB显存的单GPU复现开源模型时我们观察到几个限制。OmniVideo [33]只能在640x352分辨率下生成17帧视频其他设置会产生视频伪影。ICVE [25]模型在480x768分辨率下最多生成41帧生成更多帧会导致OOM。因此我们对ICVE使用384x240分辨率以确保所有帧都能编辑。其他模型使用各自的官方训练分辨率和输入帧数进行评估。此外由于Runway Aleph的成本限制我们仅从每个评估类别中选择30个样本进行基准测试。表2 在OpenVE-Bench上使用Seed1.6-VL [34]的定量比较。白色、黄色、灰色和蓝色背景分别表示闭源、开源和我们的方法。#Params和#Reso分别指参数量和分辨率。方法#参数#分辨率总体全局风格背景更换局部更改局部移除局部添加字幕编辑创意编辑多机位编辑Runway Aleph-1280x7203.503.472.843.883.882.793.503.234.48VACE [17]14B1280x7201.411.161.431.001.051.021.131.16OmniVideo [33]1.3B640x3521.021.001.001.001.001.161.001.00InsViE [44]2B720x4801.402.251.231.001.001.231.221.681.02Lucy-Edit [35]5B1280x7041.952.172.203.301.032.371.062.351.09ICVE [25]13B384x2402.252.351.862.912.682.272.041.941.38DITTO [2]14B832x4802.063.702.232.291.002.081.012.611.51OpenVE-Edit(Ours)5B1280x7042.493.112.723.191.422.412.562.011.24表3 在OpenVE-Bench上使用Gemini 2.5 Pro [10]的定量比较。方法#参数#分辨率总体全局风格背景更换局部更改局部移除局部添加字幕编辑创意编辑多机位编辑Runway Aleph-1280x7203.653.722.624.184.162.783.623.644.53VACE [17]14B1280x7201.571.492.071.461.461.261.181.471.62OmniVideo [33]1.3B640x3521.311.111.141.141.361.171.002.261.00InsViE [44]2B720x4801.532.201.061.481.361.172.182.021.09Lucy-Edit [35]5B1280x7042.152.271.573.201.752.901.612.861.61ICVE [25]13B384x2402.072.221.622.572.511.972.092.411.11DITTO [2]14B832x4801.984.011.682.031.531.412.811.231.32OpenVE-Edit(Ours)5B1280x7042.613.162.362.981.852.152.912.312.02定量比较。表2和3展示了所有指令遵循视频编辑模型在OpenVE-Bench上的评估结果。闭源模型Runway Aleph在Seed-1.6VL [34]和Gemini 2.5 Pro [10]两个评估器上均取得最佳性能显著超越现有开源模型。开源模型VACE [17]、OmniVideo [33]和InsViE [44]由于模型规模或训练数据的限制表现有限。拥有5B参数的Lucy-Edit [35]取得中等性能。ICVE [25]拥有13B参数取得了不错的结果但其高分辨率编辑能力受限于较少的帧数。Ditto [2]在全局风格指标上得分较高因为其训练数据集主要由此编辑类型组成。我们的模型OpenVE-Edit仅用5B参数就达到了2.41的总体分数超越了所有参数量更小的现有开源模型。定性结果。图6展示了我们方法与现有开源SOTA方法之间的定性比较。我们选择该比较中表现最好的三个开源模型。在左侧的背景更换示例中尽管Lucy-Edit [35]成功更换了背景但未能保持狗与原始视频的一致性。ICVE [25]错误地擦除了女人并改变了男人的外观。Ditto [2]错误地将墙上的画当作前景物体并使狗的毛色变深。相比之下我们的方法按照指令更换背景同时保持所有前景主体的一致性。在右侧的局部更改示例中Lucy-Edit [35]错误地编辑了三个人的服装。ICVE [25]错误地修改了左边两人并改变了他们的身份。Ditto [2]不仅编辑了错误的主体还错误地改变了背景。而我们的方法精确遵循指令仅改变指定女性的服装同时保持其他人和背景的一致性。更多结果见附录E。表4 模型设计和训练数据集的消融实验。结构训练数据集总体MLLMMoE连接器Senorita-2M✓✓✓✓✓✓5.3 额外消融和解释性分析控制信号对数据构建的消融。我们使用从原始视频提取的深度图和Canny边缘图作为Wan2.1-Fun-V1.1-14B-Control [36]的不同控制条件。在图7中当视频首帧和末帧之间存在显著差异时使用深度控制会导致细节生成质量差。相比之下Canny边缘控制更好地保留了原始视频的细节。此外如果深度图在连续帧间一致生成视频的背景往往保持静态。因此我们选择Canny边缘图作为流水线的控制条件。数据构建加速。在数据构建阶段有三个任务需要使用Wan2.1-Fun-V1.1-14B-Control模型进行推理。单个81帧720P视频在单GPU上的平均推理时间为50分钟。对于大规模数据生成来说这太慢了。因此我们采用两个策略来加速过程。首先我们将FlashAttention-2 [11]替换为更快的SageAttention-2 [51]。其次我们将推理步数从50减少到10。这些优化将平均生成时间减少到6分钟实现8倍加速。大量样本的人工检查确认加速后数据生成的质量满足要求且未出现退化。此外对于图像到视频I2V生成我们将原始Wan2.2-I2V-A14B模型替换为其4步蒸馏版本Wan2.2-I2V-A14B-NFE4-V1也显著提高了生成效率。模型设计的消融。我们对模型结构进行了消融研究。与仅使用umT5指令相比将视频和指令联合输入MLLM使模型能更好地理解指令并执行相应编辑。在图8中仅使用T5特征可能导致编辑结果与指令之间的不匹配而来自MLLM的特征缓解了这一问题。这得到了定量指标的证实分数从2.12提升到2.310.19↑见表4。此外与使用共享参数的简单MLP连接器相比MoE连接器通过将不同编辑类型的特征路由到专业化专家能更有效地处理这些特征。这反映在平均分数从2.31提升到2.410.1↑证明了我们方法在处理多样化和复杂编辑任务方面的有效性。训练数据集的消融。我们使用公开的Senorita-2M [56]数据集作为基线进行训练数据的消融研究。得到的平均分数1.54显著低于在我们OpenVE-3M数据集上训练得到的2.41见表4。这表明Senorita-2M数据集存在潜在的质量问题这一结论进一步得到图2中大量1分样本的支持。6 结论我们介绍了OpenVE-3M一个面向指令遵循视频编辑的大规模、高质量数据集。它包含两大类别——空间对齐和非空间对齐共计八个子类别。详细的数据构建和过滤流水线已开源以促进社区的进一步研究。我们还提出了OpenVE-Edit模型在OpenVE-3M上训练。仅用5B参数我们的模型即超越了14B参数基线。为了标准化评估我们引入了OpenVE-Bench其与人类判断展现出高度相关性。在此基准上我们的方法在开源指令遵循视频编辑模型中达到了SOTA性能。局限性和未来工作。虽然我们的OpenVE-3M数据集是多样化的但它省略了某些类别如基于参考的风格迁移。此外计算限制将我们的实验约束在较小规模的模型架构上。我们计划探索能更好统一空间对齐和非空间对齐编辑的架构可能通过在token维度上采用噪声拼接等计算密集型图像编辑范式来适应视频。我们还将研究统一模型关注模型理解、生成和编辑能力相互增强的双向协同。