论文分享➲ arXiv2026 | H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions-尧图网站设计

H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions Paper • Dataset • Leaderboard • Project Page • Code目录一、为什么我们需要 H2HMem二、H2HMem 是什么核心特点三、数据集设计数据规模对话结构构建流程很关键四、任务设计核心创新 Memory Recall1. UPRBasic Recall2. CRRCross-modal Retrieval3. KRKnowledge Resolution Memory Reasoning4. MCRMultimodal Reasoning5. RETReference Tracking6. TRTemporal Reasoning Memory Application7. TTLTest-time Learning8. CDConflict Detection9. ARAnswer Refusal五、实验结果及发现❗ 1. 多人对话显著更难❗ 2. 最大问题不是“记不住”而是“对不齐”❗ 3. Retrieval 不等于理解六、核心结论七、总结一、为什么我们需要 H2HMem近年来agents的从聊天机器人拓展到了新的场景医疗记录助手旁听医生对话会议纪要 AI 教学课堂助理‍‍ 多人对话分析系统在 Human-Assitant Interaction 和 Human-Human Interaction 中 agents 身份的不同在Human-Human Interaction场景中的关键能力在复杂的人类对话中持续记住、理解并利用信息❌ 现有 Memory Benchmark 的局限大多数 benchmark 都是Human ↔ AI 对话单人交互单模态或弱多模态无复杂说话人结构而Human-Human Interaction场景中是❗ AI 在“旁听人类对话”而不是直接参与对话因此论文提出了一个新的基准 H2HMem Benchmark二、H2HMem 是什么H2HMemHuman-to-Human Multimodal Memory Benchmark是一个用于评测多模态智能体在多人对话环境中的长期记忆能力核心特点H2HMem 同时具备‍‍ Human-Human conversation双人及多人️ Multimodal data文本图片 Multi-session long-term memory Memory reasoning retrieval application三、数据集设计数据规模20 个双人对话dyadic5 个多人对话multi-party300 sessions7000 dialogue rounds1000 images2000 QA pairs 对话结构每个 conversation 包含多个 session跨时间多个 topic如 travel / food / shopping多模态输入图片文本构建流程很关键论文采用了 human-in-the-loop pipelineHuman as a director and LLM as a scriptwriter.Persona 生成人物设定场景与话题规划图片收集与校验对话生成LLM image captionQA 自动生成人工验证四、任务设计核心创新H2HMem 将 memory 任务系统化为9 大任务类型 Memory Recall1. UPRBasic Recall简单事实回忆2. CRRCross-modal Retrieval图文结合检索3. KRKnowledge Resolution处理信息更新/冲突 Memory Reasoning4. MCRMultimodal Reasoning图文联合推理5. RETReference Tracking“this / that” 指代解析6. TRTemporal Reasoning时间顺序理解 Memory Application7. TTLTest-time Learning利用记忆解决新问题8. CDConflict Detection判断信息是否冲突9. ARAnswer Refusal信息不存在时拒答这一设计的关键意义是不再只测“记住没”而是测“理解对齐推理更新”五、实验结果及发现论文实验发现了几个关键结论❗ 1. 多人对话显著更难在 multi-party setting 中KR 性能从 0.49 → 0.25性能大幅下降说明多人交互会严重干扰 memory system❗ 2. 最大问题不是“记不住”而是“对不齐”错误主要来自️ Modal misalignment图文对不齐 Speaker attribution error说话人混乱模型经常记住了但不知道是谁说的❗ 3. Retrieval 不等于理解虽然模型可以 retrieve 信息但无法过滤噪声理解上下文关系处理冲突信息六、核心结论❗ Memory systems are not failing because they forget,but because they fail to reconstruct coherent multimodal interaction history.换句话说❌ 不是“记忆容量问题”✔ 是“结构化理解问题”七、总结H2HMem 提供了一个非常重要的方向未来 AI 记忆系统不只是“RAG 向量库”而是“结构化交互历史建模”如果您对我们的工作感兴趣希望您能为我们的Github仓库点一个star以便更多的人关注到我们的工作。

论文分享➲ arXiv2026 | H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions

相关新闻

C# 调用 OpenAI API 实战：一位老程序员的踩坑与经验分享

HoRain云--R循环实战：从语法到高效向量化技巧

怎么跟 AI 说话才能让它写出你要的代码——我和 Claude Code 的配合心法

Multiverso核心组件详解：Table接口与通信协议全解析

Melting Pot在NeurIPS 2023挑战赛中的应用与优秀解决方案分析

REL分页实现完全指南：高效处理大数据集查询

bitsandbytes快速入门：10分钟掌握8位量化训练技巧

OpenInference生产环境部署：Docker、Kubernetes与云原生实践

Atomic Docs分类与组织系统：如何高效管理数百个前端组件

算法数据结构面试必备

理解「数据网格」（Data Mesh）及其对数据平台架构的影响

Python 协程池实现方法

2026 最全AI编程软件安装与上手实测教程

进化博弈论解析AI代理欺骗行为与风险管控

深入解析P89LPC932A1 CCU模块：输入捕获与PWM实战指南

Harness 中的响应合并：将多个片段组装为完整输出

Windows Cleaner终极教程：5分钟彻底解决C盘爆红问题，让系统重获新生！

别再只会用ifconfig了！在Ubuntu 22.04/20.04上，教你用ip命令并顺带配置好国内镜像源