论文分享➲ arXiv2026 | H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions

发布时间:2026/6/24 12:43:16

论文分享➲ arXiv2026 | H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions Paper • Dataset • Leaderboard • Project Page • Code目录一、为什么我们需要 H2HMem二、H2HMem 是什么 核心特点三、数据集设计 数据规模 对话结构 构建流程很关键四、任务设计核心创新 Memory Recall1. UPRBasic Recall2. CRRCross-modal Retrieval3. KRKnowledge Resolution Memory Reasoning4. MCRMultimodal Reasoning5. RETReference Tracking6. TRTemporal Reasoning Memory Application7. TTLTest-time Learning8. CDConflict Detection9. ARAnswer Refusal五、实验结果及发现❗ 1. 多人对话显著更难❗ 2. 最大问题不是“记不住”而是“对不齐”❗ 3. Retrieval 不等于理解六、核心结论七、总结一、为什么我们需要 H2HMem近年来agents的从聊天机器人拓展到了新的场景 医疗记录助手旁听医生对话 会议纪要 AI 教学课堂助理‍‍ 多人对话分析系统在 Human-Assitant Interaction 和 Human-Human Interaction 中 agents 身份的不同在Human-Human Interaction场景中的关键能力在复杂的人类对话中持续记住、理解并利用信息❌ 现有 Memory Benchmark 的局限大多数 benchmark 都是Human ↔ AI 对话单人交互单模态或弱多模态无复杂说话人结构而Human-Human Interaction场景中是❗ AI 在“旁听人类对话”而不是直接参与对话因此论文提出了一个新的基准 H2HMem Benchmark二、H2HMem 是什么H2HMemHuman-to-Human Multimodal Memory Benchmark是一个用于评测 多模态智能体在多人对话环境中的长期记忆能力 核心特点H2HMem 同时具备‍‍ Human-Human conversation双人及多人️ Multimodal data文本 图片 Multi-session long-term memory Memory reasoning retrieval application三、数据集设计 数据规模20 个双人对话dyadic5 个多人对话multi-party300 sessions7000 dialogue rounds1000 images2000 QA pairs 对话结构每个 conversation 包含多个 session跨时间多个 topic如 travel / food / shopping多模态输入图片 文本 构建流程很关键论文采用了 human-in-the-loop pipelineHuman as a director and LLM as a scriptwriter.Persona 生成人物设定场景与话题规划图片收集与校验对话生成LLM image captionQA 自动生成 人工验证四、任务设计核心创新H2HMem 将 memory 任务系统化为9 大任务类型 Memory Recall1. UPRBasic Recall简单事实回忆2. CRRCross-modal Retrieval图文结合检索3. KRKnowledge Resolution处理信息更新/冲突 Memory Reasoning4. MCRMultimodal Reasoning图 文联合推理5. RETReference Tracking“this / that” 指代解析6. TRTemporal Reasoning时间顺序理解 Memory Application7. TTLTest-time Learning利用记忆解决新问题8. CDConflict Detection判断信息是否冲突9. ARAnswer Refusal信息不存在时拒答 这一设计的关键意义是不再只测“记住没”而是测“理解 对齐 推理 更新”五、实验结果及发现论文实验发现了几个关键结论❗ 1. 多人对话显著更难在 multi-party setting 中KR 性能从 0.49 → 0.25性能大幅下降 说明多人交互会严重干扰 memory system❗ 2. 最大问题不是“记不住”而是“对不齐”错误主要来自️ Modal misalignment图文对不齐 Speaker attribution error说话人混乱 模型经常记住了但不知道是谁说的❗ 3. Retrieval 不等于理解虽然模型可以 retrieve 信息但无法过滤噪声理解上下文关系处理冲突信息六、核心结论❗ Memory systems are not failing because they forget,but because they fail to reconstruct coherent multimodal interaction history.换句话说❌ 不是“记忆容量问题”✔ 是“结构化理解问题”七、总结H2HMem 提供了一个非常重要的方向 未来 AI 记忆系统不只是“RAG 向量库”而是“结构化交互历史建模”如果您对我们的工作感兴趣希望您能为我们的Github仓库点一个star以便更多的人关注到我们的工作。

相关新闻