(2025|ICML|普林斯顿 NYU,MLLM,思维链/ CoT)思维链会降低需要思考才能完成的任务的完成效率,这在人类身上表现得尤为明显

发布时间:2026/5/27 2:30:26

(2025|ICML|普林斯顿  NYU,MLLM,思维链/ CoT)思维链会降低需要思考才能完成的任务的完成效率,这在人类身上表现得尤为明显 Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse论文地址https://arxiv.org/abs/2410.21333项目页面https://github.com/JiayiGeng/CoT_overthinking学术交流922230617 或加 CV_EDPJ目录1. 核心问题什么时候 “一步步思考” 反而让 AI 变笨2. 怎么找这类任务3. 找到了三类 “AI 一思考人类就发笑” 的任务4. 结论什么时候要小心使用 CoT5. 局限性与未来工作1. 核心问题什么时候 “一步步思考” 反而让 AI 变笨让 AI 像人一样 “一步步思考”Chain-of-Thought, CoT通常能提高它的解题能力尤其在数学和逻辑题上。很多新模型甚至默认开启了这个功能。但这篇论文问了一个相反的问题有没有一些任务你用 CoTAI 的表现反而更差图 1. 评估因思维链CoT导致性能下降的任务。左图隐式统计学习ISL判断字符串是否由某种人工语法生成。人脸识别FR从一组具有相似描述的图像中识别人脸。带例外数据的分类CDE在存在例外情况时学习标签。右图自然语言推理NLI识别逻辑不一致性。空间直觉SI倾斜水杯。工作记忆WM整合特征以做出决策。人类在所有任务中当进行语言性思考verbal thinking时均表现出性能下降而大型语言模型LLM和大型多模态模型LMM在前三个任务中也显示出类似的效果。2. 怎么找这类任务作者用一个巧妙的思路去心理学里找“人类一用心思考反而做得更差”的任务。然后看看在这些任务上AI 用 CoT 是不是也一样 “翻车”。这个想法挺合理如果某项任务连人类这种 “原生大脑” 用语言去思考都会搞砸那对 AI 这种 “语言模型” 来说强制它一步步用语言推理很可能也是帮倒忙。3. 找到了三类 “AI 一思考人类就发笑” 的任务作者确实找到了三类任务在这些任务上用 CoT 会让最先进的模型如 GPT-4o、Claude 3.5表现显著下降。第一类隐式统计学习就是 “凭感觉” 找规律人类表现比如给你看一堆符合某种隐藏规则的字符串你下意识能判断新字符串对不对但让你说出规则你反而说不对了。强行让你用语言解释你的直觉判断力会下降。AI 表现表 1一模一样。让 AI 不思考直接判断准确率还可以一旦让它 “一步步思考”它试图把隐藏规则用语言表述出来反而会出错。GPT-4o 用了 CoT 后准确率绝对下降了 23.1%而带内置推理的 o1-preview 相比 GPT-4o 的基础版准确率暴跌 36.3%。第二类人脸识别视觉任务被语言干扰人类表现让你看一张脸然后认另一张是不是同一个人。如果你认脸之前先用语言详细描述一下这张脸的特征眼睛、鼻子、头发你的识别准确率反而会下降。这叫“言语遮蔽效应verbal overshadowing”。AI 表现表 2情况相同。让多模态模型能看图能读文看人脸然后回答。如果用 CoT要求它先描述再判断所有测试模型的准确率都下降了。语言成了视觉的干扰项。第三类有例外的规则一概括就错人类表现给你看一些例子大部分符合某个简单规则但有少数例外。让你一边看一边总结规律你会发现越想总结个通用规律就越记不住那些例外学习效果反而更差。AI 表现表 3结果更夸张。AI 用 CoT 后会陷入 “过度概括” 的坑。比如正确标签是 [A, A, B, A, B...]它学了前两个 A就猜测 “全是 A”然后把第三个 B 当噪声忽略导致一直学不会。GPT-4o 本来 3 轮就能学会用了 CoT 后平均需要 12.5 轮效率降低 4 倍。也有 AI “不翻车” 的任务当然不是所有让人类 “多想就错” 的任务AI 都会错。作者也找到了三类不对应的情况逻辑题表 4人类不学逻辑学会被绕晕但 AI 逻辑知识很强所以 CoT 这里有效。物理直觉题如判断倾斜杯子里的水量表 5人类用语言思考不灵但 AI 本来就没有 “身体直觉”所以 CoT 的影响是中性的不好不坏。多属性决策如需要记很多信息的题表 6人类工作记忆有限想多了会乱但 AI 的 “上下文记忆” 很强所以 CoT 不会让它变差甚至可能更好4. 结论什么时候要小心使用 CoT这篇文章给了很实用的建议在遇到以下三类问题时不要默认开启 CoT否则可能适得其反需要凭 “感觉” 或 “直觉” 找模式的任务比如隐式统计规律。依赖视觉细节的判别任务比如人脸、图片细节比对。大部分情况符合一个简单规则但总有少数例外的任务。在这些场景下直接让 AI 回答Zero-shot效果反而更好。5. 局限性与未来工作本文面临几个局限性。首先虽然将六个任务扩展到了更大的规模但与人类实验相比每个任务的覆盖范围仍然有限。未来工作可以进一步扩展这些数据集或探索心理学文献中更多的任务类型。其次模型的提示工程可能影响结果。虽然采用了标准的 CoT 提示格式但不同的提示变体可能产生不同的效果。特别是对于 o1-preview无法移除其内置的推理时推理因此使用 GPT-4o 作为 zero-shot 比较基准但这可能不是完美的对照。第三本文的启发式方法主要基于任务特性的定性分析。未来工作可以尝试开发更定量的指标来预测 CoT 何时会降低性能例如测量任务刺激的 “言语可编码性” 或 “规则例外程度”。最后随着模型能力的快速演进今天观察到的效应可能在未来模型上发生变化。本文提供的框架和基准可以作为持续评估的起点帮助社区在 CoT 的使用上做出更明智的决策。

相关新闻