GCAgent: Long-Video Understanding via Schematic and Narrative Episodic Memory)
【Video Agent】ArxivGCAgent: Long-Video Understanding via Schematic and Narrative Episodic Memory论文简介 一、论文阅读1.1 引言Introduction1.2 方法Method1.2.1 A.框架概述A. Framework Overview1.2.2 B. 记忆构建B. Memory Construction1.2.3 C. 感知-行动-反思流程C. Perception–Action–Reflection Pipeline1.2.4 结论Conclusion1.2.5 讨论Discussion1.3 实验Experiments1.3.1 评测基准Benchmark1.3.2 实施细节Implication Details1.3.3 对比实验Comparison with State-of-the-arts1.3.3 消融实验Ablation Study1.4 补充材料Additional Results二、论文理解总结三、代码学习写在最后写在前面如果想了解更多关于长视频理解和视频智能体新工作可以关注笔者的Github仓库Awesome-Video-Agent。论文简介 题目GCAgent: Long-Video Understanding via Schematic and Narrative Episodic Memory 来源ICCV 2025 单位未说明 主页https://arxiv.org/pdf/2511.12027 代码无✒️ 摘要由于固有的token限制以及捕捉长期时间依赖关系的复杂性长视频理解对于多模态大语言模型MLLMs而言仍然是一项重大挑战。现有方法往往无法捕捉深度视频推理所必需的全局上下文和复杂事件关系。为了解决这一问题论文提出了GCAgent这是一种新颖的全局上下文感知智能体框架能够实现全面的长视频理解。其核心创新是图式与叙事情节记忆。这种记忆将事件及其因果关系和时间关系结构化地建模为简洁且有组织的上下文从根本上解决了长期依赖问题。GCAgent在多阶段的感知-行动-反思循环中运行并利用记忆管理器检索相关的情节上下文以实现稳健且具备上下文感知能力的推理。大量实验表明GCAgent显著提升了长视频理解能力在Video-MME Long划分上相比一个强基线MLLM准确率最高提升了23.5%。此外该框架在同等7B规模的MLLM中建立了当前最优性能在Long划分上取得了73.4%的准确率并在Video-MME基准上取得了最高的总体平均分71.9%从而验证了其基于智能体的推理范式以及结构化记忆对于受认知启发的长视频理解的有效性。一、论文阅读1.1 引言Introduction随着基于视频的社交媒体和平台的爆炸式增长视频已成为论文日常生活中的主导媒介塑造着交流、娱乐和教育。随着每天都有数以百万计的新视频被生成和分享高效而准确的视频处理如今对于从这类庞大且快速扩张的内容中提取并分析有意义的信息至关重要。在这一背景下多模态大语言模型MLLMs的兴起受到了越来越多的关注。通过将视频感知直接集成到LLM中这类模型为理解复杂视频内容并与之交互提供了一种很有前景的解决方案。尽管MLLMs已经取得了显著进展但在处理长视频方面仍然存在重大挑战主要原因在于对长期时间上下文进行建模所带来的计算负担。为了解决这一问题较早的研究工作主要聚焦于提升MLLMs的内在能力具体做法主要包括扩展上下文长度或通过在特征层面压缩视觉嵌入来减少token使用量。这些方法旨在通过优化MLLMs的内部效率使其能够在单个模型上下文窗口内处理更长的视频输入。近年来的研究则越来越多地转向基于智能体的范式这类方法整合了外部推理机制、检索模块和协同规划以更有效地处理长视频。在这一范式中智能体会自主规划如何检索和组织与查询相关的信息从而缓解上下文长度限制。尽管检索与查询相关的信息能够更高效地实现长视频理解但这种能力仍然有限。具体而言与人类在整个视频范围内维持和组织全局上下文、同时选择性关注与查询相关的信息的方式相比这种能力仍有明显差距因此仍有清晰的改进空间。近期的视频理解研究也强调了时间结构建模和长期动作推理的重要作用。认知心理学和认知科学表明人类通过构建图式结构和叙事结构来理解并记忆事件。其中图式结构指的是抽象的事件模板例如角色、典型情境框架而叙事结构则表示在时间和因果上有序排列的事件序列。这些结构使人类能够更高效地整合新信息并执行下游任务。将这一洞见扩展到长视频理解如果MLLMs能够在利用查询相关信息生成答案的同时构建并利用对全局上下文的全面理解那么它们很可能以更接近人类的方式展现出更强的任务表现。将这种认知洞见与计算模型连接起来为更具人类特征的视频理解提供了一条清晰路径。论文提出了GCAgent这是一种面向长视频理解的全局上下文感知智能体框架。具体而言GCAgent将全局上下文表示建立在图式结构和叙事结构之上以映射人类构建并维持情境层面理解的方式。同时它保留了传统基于智能体方法在检索查询相关信息方面的优势。通过结合这些优势论文框架显著增强了MLLMs在查询驱动的交互场景中理解和推理长视频的能力。为了实现这种感知能力GCAgent由两个互补的智能体组成i记忆管理智能体基于LLM负责在任何查询到来之前构建并维护全局上下文。为此它主要使用语音转录文本作为输入。该智能体首先检测事件边界并将转录文本分割为事件级单元。随后对每个事件单元进行抽象以提取角色和情境层面的模式从而得到图式结构。最后进一步推断这些离散事件之间的时间关系和因果关系以构建叙事结构形成视频的情景记忆。具体来说每个事件级单元都会成为情景记忆中的一个情节条目。当语音不可用或不足时也可以选择性地将视觉描述作为补充证据引入。ii推理智能体基于MLLM负责同时利用已构建的叙事结构和与查询相关的多模态信息进行具备上下文感知能力的推理并回答用户查询。一旦情景记忆被结构化完成这些智能体就会通过一个三阶段范式协同处理用户查询i感知用于定位与查询相关的片段ii行动用于在全局上下文条件下执行推理iii反思用于根据推理结果更新记忆。当查询到来时记忆管理智能体会从全局上下文构建切换到以查询为条件的检索。在感知阶段记忆管理智能体首先从语音转录文本中检索与查询最相关的关键片段将其映射到时间边界以提取相应的视频片段并将裁剪后的视频片段与对应的转录文本摘录一起传递到下一阶段。在行动阶段推理智能体以情景记忆中维护的全局图式和叙事上下文为基础进行推理同时基于前一阶段检索得到的转录文本片段及其对应的视频片段生成答案。最后在反思阶段记忆管理智能体通过整合推理结果以及在行动阶段生成的文本描述来更新情景记忆从而丰富已存储的叙事上下文以支持后续查询。论文的贡献可以概括如下。第一论文提出了GCAgent这是首个在查询到来之前就将全局上下文构建为情景记忆的长视频理解智能体框架。这弥合了全局上下文建模与以查询为条件的检索之间的鸿沟。第二论文使用图式结构和叙事结构来实例化情景记忆从而实现显式的全局上下文组织而不是停留于浅层的片段级摘要。第三论文的情景记忆设计在性能上带来了显著提升与原始Qwen2.5-VL基线相比GCAgent在Video-MME的Long划分上将准确率最高提升了23.5%其中该基线指使用相同骨干MLLM、但不包含论文智能体框架的模型。相关工作补充基于智能体的长视频理解Agentic AI旨在通过将复杂查询分解为子任务、进行决策、执行面向目标的规划并使用外部工具执行动作从而构建尽量减少人工干预的自主系统。在这一背景下面向长视频理解的基于智能体的方法遵循了类似范式在接收到查询后智能体会确定所需信息制定检索计划并按顺序调用外部工具来收集和验证相关证据。通过这一过程智能体在取得强性能的同时也有效缓解了LLM上下文窗口受限的问题。具体而言面向长视频理解的基于智能体方法之间的差异主要体现在它们如何在这一框架内设计算法以识别并精炼与查询相关的信息。第一条研究路线聚焦于查询—信息匹配即模型显式地将文本查询与视觉表征对齐。特别是CLIP已被广泛用于定位与给定查询最相关的视频区域从而实现对证据的精确定位。另一条互补方向则强调检索策略。检索增强生成RAG是这一范式的代表它引入了记忆库和搜索引擎等外部工具从而显著提升了信息获取的全面性。近年来相关方法进一步发展为由MLLM智能体驱动的多轮协作流程其中多个智能体通过迭代交换信息并采用多数投票或基于置信度的机制以提高最终输出的可靠性。然而这些方法主要聚焦于检索与查询相关的信息而对构建连贯的视频全局理解关注有限。相比之下论文旨在弥合这一差距即使智能体能够组织并利用同时捕获图式语境和叙事语境的情节记忆从而实现全面的长视频理解。1.2 方法Method现在描述论文提出的方法该方法在查询之前为模型配备了显式情景记忆并在查询时推理期间利用它。Section A。然后论文方法形式化了基于图式和叙事结构的情景记忆表征并描述了记忆管理器代理如何从语音转录中构建它Section B。最后论文介绍了完整的管道Section C它分为三个阶段感知行动和反思。1.2.1 A.框架概述A. Framework Overview论文提出了GCAgent这是一种面向长视频理解的全局上下文感知智能体框架。如图1所示它由两个互补的智能体组成。记忆管理智能体负责构建结构化的情节记忆并在查询到达时检索与查询最相关的转录文本片段并将其映射到对应的视频片段。推理智能体以该情节记忆为条件进行推理验证检索到的证据并通过逻辑推理得出答案。下文将详细介绍论文框架。图1. GCAgent框架概述。该框架包括一个处理内存构建和检索的内存管理器智能体以及一个执行上下文感知推理的推理智能体。该过程遵循四个步骤记忆构建感知动作和反思以将全局上下文与查询相关的证据相结合。1.2.2 B. 记忆构建B. Memory Construction为了组织图式和叙事结构论文利用语音转录作为记忆管理智能体的输入。具体而言论文的框架优先考虑从原始音频中获取的基于音频的字幕转录。这一设计选择的动机来自于先前的研究这些研究表明与视频输入相比语音转录可以用少得多的文本标记来表示因为视频特征的标记数量会随着空间分辨率和时间持续时间的增加而迅速增长。1) 基于语音转录的情节记忆语音转录是通过两种基于音频的技术从原始音频中获取的。首先语音活动检测模块将连续的音频流分割成不同的语音区间。然后自动语音识别系统为每个区间生成时间对齐的转录为口语内容提供准确的文本表示。在论文的框架中这些转录构成了后续记忆构建的基础。在情节记忆构建过程中智能体执行两个关键功能。首先它通过清理和抽象语音转录来形成图式结构。具体来说口语自然包含重复、填充词和语篇标记这使得它本质上比视觉流更具可压缩性。因此论文首先检测事件边界将流划分为连贯的事件级单元即主题转换。然后对每个事件单元进行抽象以提取其情境层面的含义。其次智能体构建跨事件的叙事结构。在这个过程中重点不再是事件内部的总结而是事件之间的推理。智能体根据周围的语篇和时间流推断每个事件级单元的叙事角色例如引言、冲突、解决方案。它还识别跨单元的因果依赖关系以将它们组织成一个连贯的故事情节 。一旦分配了这些角色和关系每个事件级单元最终将作为情节条目确定在情节记忆中。2) 音频不可用场景论文将记忆构建设计为在两种模态条件下运行i音频可用和ii音频不可用。上一小节描述了音频可用的路径。在这里论文描述了补充性的纯视觉路径该路径适用于视频本质上缺乏音频的情况例如没有解说的体育转播、无声监控录像。在这种情况下记忆构建模块切换到视觉路径对视频帧进行采样并通过图像字幕生成文本描述。在音频不可用的条件下这些字幕作为记忆构建的文本骨干。1.2.3 C. 感知-行动-反思流程C. Perception–Action–Reflection Pipeline本小节详细介绍了GCAgent由查询驱动的推理过程该过程以感知-行动-反思流程展开。在详细说明每个过程之前论文首先定义本小节中使用的符号。论文将输入查询表示为Q QQ将候选答案集合表示为O { o 1 , . . . , o K } O\{o_{1},...,o_{K}\}O{o1,...,oK}。语音转录文本记为T { t 1 , . . . , t N } T\{t_{1},...,t_{N}\}T{t1,...,tN}情节记忆记为M { m 1 , . . . , m L } M\{m_{1},...,m_{L}\}M{m1,...,mL}其中每个m i m_{i}mi代表一个结构化的片段编码了图式和叙事信息。1)感知最近的研究表明在感知阶段检索与查询相关的视频片段可以有效减少冗余信息的干扰。基于这一发现论文通过使智能体能够有选择地关注最具视觉信息量的片段将这种基于检索的优势整合到论文的框架中。为此记忆管理智能体从全局上下文构建切换到以查询为条件的检索。具体而言它首先在语音转录文本中定位与查询相关的片段并提取其时间边界然后使用这些时间索引来获取相应的视频片段及其匹配的文本证据形式上感知步骤可以写为V ∗ , T ∗ A p e r c ( Q , O , T , M ) ( 1 ) V^{*},T^{*}\mathcal{A}_{perc}(Q,O,T,M) \quad(1)V∗,T∗Aperc(Q,O,T,M)(1)其中A p e r c ( ⋅ ) \mathcal{A}_{perc}(\cdot)Aperc(⋅)是记忆管理智能体的感知模块。给定Q QQ、O OO、T TT和M MM它返回与查询相关的视频片段V ∗ V^{*}V∗及其对齐的语音转录文本T ∗ T^{*}T∗。该感知输出作为后续行动和反思阶段的输入。2)行动行动阶段的目标是回答查询。此时情节记忆M MM提供全局上下文而感知阶段已经准备好与查询相关的视频片段V ∗ V^{*}V∗及其文本对应物T ∗ T^{*}T∗。然后推理代理对这种多模态证据进行联合推理以评估每个候选答案O OO与检索到的上下文的契合程度。形式上行动过程可以表示为a ∗ , E ∗ A a c t ( Q , O , V ∗ , T ∗ , M ) ( 2 ) a^{*},E^{*}\mathcal{A}_{act}(Q,O,V^{*},T^{*},M)\quad(2)a∗,E∗Aact(Q,O,V∗,T∗,M)(2)其中A a c t ( ⋅ ) \mathcal{A}_{act}(\cdot)Aact(⋅)表示推理代理的行动函数。这里a a^{}a是预测的答案E E^{}E表示支持该答案的视觉解释即证据。然后将该证据传递到下一阶段用于更新情节记忆。3)反思反思阶段侧重于根据行动阶段产生的视觉解释E ∗ E^{*}E∗来更新情节记忆。此时记忆管理代理将预测的答案a ∗ a^{*}a∗、相应的证据E ∗ E^{*}E∗、输入查询Q QQ、候选答案O OO以及当前的情节记忆M MM作为输入。它将简明的视觉摘要整合回记忆中从而提高模型在未来查询中保留视觉观察结果并将其置于上下文中理解的能力。形式上反思过程可以表示为M ′ A r e f l ( Q , O , a ∗ , E ∗ , M ) M^{\prime}\mathcal{A}_{refl}(Q,O,a^{*},E^{*},M)M′Arefl(Q,O,a∗,E∗,M)其中A r e f l ( ⋅ ) \mathcal{A}_{refl}(\cdot)Arefl(⋅)表示记忆管理智能体的反思函数M ′ M^{\prime}M′表示更新后的情节记忆。1.2.4 结论Conclusion在这项工作中论文提出了GCAgent这是一种用于长视频理解的全局上下文感知智能体框架它在查询之前构建情节记忆。与以往要么扩展模型上下文要么完全依赖按需检索的长视频多模态大语言模型流程不同GCAgent显式地构建了图式和叙事结构模拟了人类的事件认知。它还在感知-行动-反思范式中将其可操作化。这种设计弥合了全局上下文建模与条件查询交互之间长期存在的鸿沟记忆管理智能体从转录文本中形成结构化的情节记忆而推理代理则基于检索到的多模态证据和全局叙事上下文进行推理。大量实验表明这种全局-局部协同作用持续提高了推理准确性并且随着视频时长的增加而变得越来越有益。论文认为将计算推理建立在认知驱动的事件结构之上为超越单纯的标记扩展或代理编排走向类人的长视频理解开辟了一条更普遍的道路。1.2.5 讨论Discussion论文的框架在长视频理解方面表现出了很强的有效性但它仍然存在一些局限性。(i)在多语言领域性能提升不太明显。这种局限性可能源于在将多语言字幕转换为情节记忆的过程中引入的语义失真在该过程中进行了英语翻译。(ii)当前框架构建情节记忆主要基于语音转录文本或视觉字幕而不是同时整合这两种模态。将框架扩展为多模态记忆构建方法可以进一步增强长篇视频内容的叙事连贯性和整体理解。(iii)计算开销主要由记忆管理智能体主导。尽管有效但对于极长的视频来说成本仍然很高。开发轻量级的记忆管理器可以在保持记忆质量的同时降低整体成本。1.3 实验Experiments1.3.1 评测基准Benchmark对于实验论文利用了两个视频理解基准测试。为了评估所提出的方法在长视频理解上的表现论文采用了Video-MME和LongVideoBench这些数据集包含长达一小时的长视频专门用于评估模型在长期时间推理方面的能力。在接下来的小节中论文将描述数据集的细节和实现细节。1)Video-MMEVideo-MME由900个手工整理的视频组成总时长254小时附带2700个经过人工标注的问答对每个视频三个问题。该数据集被平均分为300个短视频、300个中等视频和300个长视频涵盖了从11秒到1小时平均1024秒的广泛时间范围。它跨越了六个主要类别生活记录、知识、体育竞技、影视和艺术表演并包含少部分多语言内容。每个视频都包含多模态输入如视频帧、字幕和音频允许跨多种模态评估多模态大型语言模型。2)LongVideoBenchLongVideoBench是一个极端长视频理解基准测试旨在评估模型处理扩展时间上下文的能力。它包含500个平均时长为4101秒的视频附带1549个问答对。视频分为六个领域包括电视节目、动画片、纪录片、体育、生活方式和事件记录。该基准测试涵盖了五种推理任务即实体识别、事件理解、关键信息检索、时间定位和摘要为长视频理解提供了全面的评估环境。1.3.2 实施细节Implication Details论文的框架由两个主要组件组成记忆管理智能体和推理智能体。记忆管理智能体使用GPT-5.1 Mini模型实现而推理代理采用Qwen2.5-VL 7B模型。Qwen2.5-VL 7B模型的最大输入长度设置为32帧。所有答案生成过程均通过推理智能体执行。对于实验论文利用了八块NVIDIA A6000 GPU每块48GB。语音转录文本是从每个数据集提供的字幕中获取的这些字幕最初是通过YouTube的自动字幕系统生成的。1.3.3 对比实验Comparison with State-of-the-arts1.3.3 消融实验Ablation Study1.4 补充材料Additional Results二、论文理解总结三、代码学习暂时省略用到再分析。写在最后由于笔者️精力有限且本文更多的目的是通过博客记录学习过程并分享更多知识因此文中部分描述不太具体如有不太理解的地方可在评论区留言。非特殊赶deadline⏰或假期⛱️期间笔者会经常上线回复。如有不便之处请海涵如果想了解更多关于长视频理解和视频智能体新工作可以关注笔者的Github仓库Awesome-Video-Agent。另外创造不易转载请注明出处