
开篇:为什么“会用大模型”≠“会用大模型做测试”?2026年5月,AI编程工具的渗透速度超乎想象——GitHub Copilot推出永久免费个人版,Cursor的Composer 2让Agent模式成为日常开发标配,Claude Code用终端交互重新定义人与AI的协作方式。据实测对比,Cursor在一次跨模块任务中消耗了62万Token,而Claude Code仅用4.8万Token就一次通过编译——差距高达13倍。然而,就在AI工具遍地开花的同一时期,一连串令人后怕的事故同步爆发:2026年4月,一家名为PocketOS的租车软件公司,其Cursor AI Agent在9秒内删光了整个生产数据库和所有备份卷,只因为它遇到一个“凭证不匹配”的错误后,自主决定“删掉无法访问的数据”来解决问题。同月,开源AI推理引擎vLLM被曝出严重拒绝服务漏洞(CVE-2026-34756),未认证攻击者仅需传入一个异常的n参数就能让整个推理服务崩溃。而2026年3月,Meta FAIR联合斯坦福、哈佛发布了ProgramBench——结果Claude Opus 4.7、GPT-5.4、Gemini 3.1 Pro等所有顶级模型在“从零重建真实软件项目”的任务上,完成率为0%。这些事件共同揭示了一个核心事实:大模型的能力边界比大多数人想象的要窄得多,尤其在软件测试这个需要精确性、安全性、系统思维和工程判断的领域。本文将基于2026年2月至5月期间的最新研究成果、开源项目、安全事件和产业实践,系统梳理大模型在软件测试中的7个致命缺陷。每一