
目录导读一、通用 Agent 做工业视觉任务为什么不行二、Manager 四个子 Agent怎么分工协作三、领域知识库让 Agent 不再瞎猜四、消融实验与对比通用框架、LLM 后端和核心组件的影响与通用框架的对比不同 LLM 后端的表现单品类结果Gemini 后端消融实验五、总结与个人点评导读工业异常检测IAD从数据准备到模型训练每一步都需要大量人工介入。现有的通用 Agent 框架如 openHands、openManus虽然能写代码但缺乏工业视觉的领域知识直接用于 IAD 任务时存在严重幻觉、Agent 间协调差、长流程执行不稳定等问题。AutoIAD 提出了一种Manager 驱动的多 Agent 协作框架专门针对工业异常检测设计一个 Manager Agent 统筹全局调度数据准备、数据加载、模型设计、训练四个专业子 Agent并集成领域知识库提供数据增强策略、模型模板和训练脚本。在 MVTec AD 数据集的 15 个建模任务上AutoIAD 以88.3% 的任务成功率和63.69% 的平均 AUROC显著超越 openHands73.3%、53.88%和 openManus50.0%、48.09%通用 AutoML 框架MLAgent-Bench、AutoML-Agent则完全失败0%。消融实验表明去掉 Manager Agent 后 AUROC 从 63.69% 骤降至 35.01%去掉领域知识库后成功率从 88.3% 降至 60.0% 且 AUROC 归零。本文将拆解 AutoIAD 的架构设计、实验结果与关键发现。论文标题AutoIAD: Manager-Driven Multi-Agent Collaboration for Automated Industrial Anomaly Detection作者Dongwei Ji, Bingzhang Hu, Yi Zhou机构东南大学教育部新一代人工智能技术及其跨学科应用重点实验室、合肥中科迪宏自动化有限公司发表arXiv:2508.05503代码https://github.com/ji2814/AutoIAD一、通用 Agent 做工业视觉任务为什么不行工业异常检测的完整流程包括数据探索与预处理、数据增强与加载、模型选择与设计、训练与调参评估。这条流水线环节多、领域知识密集——需要知道哪些数据增强策略适合工业图像哪些模型架构重建型、特征嵌入型、归一化流适合不同缺陷类型。现有通用 Agent 框架的问题在于严重幻觉不了解 IAD 领域的模型和数据规范容易生成无法运行的代码Agent 间协调差多步骤之间缺乏有效的质量控制和输出验证长流程执行脆弱没有领域约束的长序列任务容易偏离目标实验数据直接证明了这一点MLAgent-Bench 和 AutoML-Agent 在 15 个 MVTec AD 任务上的成功率为 **0%**——完全无法完成工业异常检测的端到端流程。二、Manager 四个子 Agent怎么分工协作AutoIAD 采用一个管理者 四个专家的架构图片来源于原论文Manager Agent中央调度Manager 是整个系统的大脑。它接收用户的高层任务描述通过 TaskCard 定义任务类型、模型名称、评估指标、数据集路径将其分解为可执行的子任务分配给对应的子 Agent并对每个子 Agent 的输出进行质量验证。如果输出不达标Manager 会启动迭代修正。四个专业子 Agent子 Agent职责关键能力Data Preparation将原始数据集转换为标准 CSV 格式探索目录结构、分析元数据Data Loader创建 PyTorch 兼容的数据加载器随机拆分、数据增强策略Model Designer从领域模板中选择/设计 IAD 模型迭代调试、确保架构可用Trainer管理超参调优、训练迭代、检查点保存AUROC 评估、性能优化四个子 Agent 共享一个工作空间各自完成任务后更新状态Manager 持续监控直到系统达到终止条件。图片来源于原论文三、领域知识库让 Agent 不再瞎猜AutoIAD 的领域知识库包含三个核心组件1. 数据增强策略库预定义了适合工业图像的增强方法resize、水平翻转、高斯噪声等。2. 结构化模型定义提供三类 IAD 模型的标准化模板重建型模型如 GANomaly特征嵌入型模型如 PatchCore归一化流模型子 Agent 不需要从零设计模型架构而是基于模板进行适配。3. 标准化训练脚本与超参指导包含经过验证的训练流程和超参数优化策略确保训练过程的稳定性。消融实验证明了知识库的关键作用去掉知识库后即使任务能完成60.0% 成功率产出的模型 AUROC 为 0——流水线跑通了但训练出来的模型完全无效。四、消融实验与对比通用框架、LLM 后端和核心组件的影响与通用框架的对比在 Gemini-2.5-Flash 作为后端的条件下AutoIAD 与四个基线系统的对比系统成功率AUROC (%)MLAgent-Bench0%—AutoML-Agent0%—openManus50.0%48.09openHands73.3%53.88AutoIAD88.3%63.69通用 AutoML 框架完全失败通用代码 Agent 能部分完成但模型质量差AutoIAD 在成功率和模型性能上都显著领先。不同 LLM 后端的表现LLM 后端成功率AUROC (%)Gemini-2.5-Flash88.3%63.69Qwen-Max77.8%25.71Claude-3.7-Sonnet63.3%—Qwen3-235B50.0%28.65GPT-4o-Mini43.3%25.00DeepSeek-v337.8%0.0Gemini-2.5-Flash 在代码生成和工具编排能力上表现最优。不同 LLM 后端的表现差异很大说明框架的实际效果高度依赖底层模型能力。单品类结果Gemini 后端品类成功率AUROC (%)Carpet4/498.15Tile4/489.91Metal Nut4/485.48Transistor4/479.30Hazelnut4/475.36Bottle4/40.0部分品类如 Carpet 98.15%效果很好但 Bottle 品类虽然任务完成却 AUROC 为 0说明框架在某些缺陷类型上仍有失败模式。消融实验配置成功率AUROC (%)完整 AutoIAD88.3%63.69去掉 Manager Agent83.3%35.01去掉领域知识库60.0%0.0Manager Agent对成功率影响不大-5%但对模型质量至关重要AUROC 近乎腰斩说明 Manager 的核心价值在于输出验证和迭代修正而非任务分解本身领域知识库对成功率和模型质量都至关重要没有领域知识的 Agent 即使跑通了流水线也训练不出有效模型五、总结与个人点评AutoIAD 是专门为工业异常检测设计的多 Agent 自动化框架核心贡献在于Manager 驱动的多 Agent 架构Manager 负责任务分解、子 Agent 调度和输出质量控制四个子 Agent 各司其职覆盖数据→模型→训练全流程领域知识库的关键作用通用 Agent 在工业视觉上的失败根本原因是缺乏领域知识。AutoIAD 通过知识库将增强策略、模型模板、训练脚本注入 Agent解决了通用但不专业的问题LLM 后端选择至关重要同一框架在不同 LLM 上的表现差异巨大成功率从 37.8% 到 88.3%工具编排和代码生成能力是瓶颈值得注意的局限性63.69% 的平均 AUROC 仍有提升空间且品类间差异大Carpet 98.15% vs Bottle 0.0%AutoIAD 目前更适合作为快速原型工具而非生产级方案部分品类Bottle完全失败说明框架对某些缺陷类型的泛化能力不足Token 消耗量大Gemini 后端平均超 150 万 completion tokens运行成本较高