（2025|ICML|普林斯顿 NYU，MLLM，思维链/ CoT）思维链会降低需要思考才能完成的任务的完成效率，这在人类身上表现得尤为明显-尧图网站设计

Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse论文地址https://arxiv.org/abs/2410.21333项目页面https://github.com/JiayiGeng/CoT_overthinking学术交流922230617 或加 CV_EDPJ目录1. 核心问题什么时候 “一步步思考” 反而让 AI 变笨2. 怎么找这类任务3. 找到了三类 “AI 一思考人类就发笑” 的任务4. 结论什么时候要小心使用 CoT5. 局限性与未来工作1. 核心问题什么时候 “一步步思考” 反而让 AI 变笨让 AI 像人一样 “一步步思考”Chain-of-Thought, CoT通常能提高它的解题能力尤其在数学和逻辑题上。很多新模型甚至默认开启了这个功能。但这篇论文问了一个相反的问题有没有一些任务你用 CoTAI 的表现反而更差图 1. 评估因思维链CoT导致性能下降的任务。左图隐式统计学习ISL判断字符串是否由某种人工语法生成。人脸识别FR从一组具有相似描述的图像中识别人脸。带例外数据的分类CDE在存在例外情况时学习标签。右图自然语言推理NLI识别逻辑不一致性。空间直觉SI倾斜水杯。工作记忆WM整合特征以做出决策。人类在所有任务中当进行语言性思考verbal thinking时均表现出性能下降而大型语言模型LLM和大型多模态模型LMM在前三个任务中也显示出类似的效果。2. 怎么找这类任务作者用一个巧妙的思路去心理学里找“人类一用心思考反而做得更差”的任务。然后看看在这些任务上AI 用 CoT 是不是也一样 “翻车”。这个想法挺合理如果某项任务连人类这种 “原生大脑” 用语言去思考都会搞砸那对 AI 这种 “语言模型” 来说强制它一步步用语言推理很可能也是帮倒忙。3. 找到了三类 “AI 一思考人类就发笑” 的任务作者确实找到了三类任务在这些任务上用 CoT 会让最先进的模型如 GPT-4o、Claude 3.5表现显著下降。第一类隐式统计学习就是 “凭感觉” 找规律人类表现比如给你看一堆符合某种隐藏规则的字符串你下意识能判断新字符串对不对但让你说出规则你反而说不对了。强行让你用语言解释你的直觉判断力会下降。AI 表现表 1一模一样。让 AI 不思考直接判断准确率还可以一旦让它 “一步步思考”它试图把隐藏规则用语言表述出来反而会出错。GPT-4o 用了 CoT 后准确率绝对下降了 23.1%而带内置推理的 o1-preview 相比 GPT-4o 的基础版准确率暴跌 36.3%。第二类人脸识别视觉任务被语言干扰人类表现让你看一张脸然后认另一张是不是同一个人。如果你认脸之前先用语言详细描述一下这张脸的特征眼睛、鼻子、头发你的识别准确率反而会下降。这叫“言语遮蔽效应verbal overshadowing”。AI 表现表 2情况相同。让多模态模型能看图能读文看人脸然后回答。如果用 CoT要求它先描述再判断所有测试模型的准确率都下降了。语言成了视觉的干扰项。第三类有例外的规则一概括就错人类表现给你看一些例子大部分符合某个简单规则但有少数例外。让你一边看一边总结规律你会发现越想总结个通用规律就越记不住那些例外学习效果反而更差。AI 表现表 3结果更夸张。AI 用 CoT 后会陷入 “过度概括” 的坑。比如正确标签是 [A, A, B, A, B...]它学了前两个 A就猜测 “全是 A”然后把第三个 B 当噪声忽略导致一直学不会。GPT-4o 本来 3 轮就能学会用了 CoT 后平均需要 12.5 轮效率降低 4 倍。也有 AI “不翻车” 的任务当然不是所有让人类 “多想就错” 的任务AI 都会错。作者也找到了三类不对应的情况逻辑题表 4人类不学逻辑学会被绕晕但 AI 逻辑知识很强所以 CoT 这里有效。物理直觉题如判断倾斜杯子里的水量表 5人类用语言思考不灵但 AI 本来就没有 “身体直觉”所以 CoT 的影响是中性的不好不坏。多属性决策如需要记很多信息的题表 6人类工作记忆有限想多了会乱但 AI 的 “上下文记忆” 很强所以 CoT 不会让它变差甚至可能更好4. 结论什么时候要小心使用 CoT这篇文章给了很实用的建议在遇到以下三类问题时不要默认开启 CoT否则可能适得其反需要凭 “感觉” 或 “直觉” 找模式的任务比如隐式统计规律。依赖视觉细节的判别任务比如人脸、图片细节比对。大部分情况符合一个简单规则但总有少数例外的任务。在这些场景下直接让 AI 回答Zero-shot效果反而更好。5. 局限性与未来工作本文面临几个局限性。首先虽然将六个任务扩展到了更大的规模但与人类实验相比每个任务的覆盖范围仍然有限。未来工作可以进一步扩展这些数据集或探索心理学文献中更多的任务类型。其次模型的提示工程可能影响结果。虽然采用了标准的 CoT 提示格式但不同的提示变体可能产生不同的效果。特别是对于 o1-preview无法移除其内置的推理时推理因此使用 GPT-4o 作为 zero-shot 比较基准但这可能不是完美的对照。第三本文的启发式方法主要基于任务特性的定性分析。未来工作可以尝试开发更定量的指标来预测 CoT 何时会降低性能例如测量任务刺激的 “言语可编码性” 或 “规则例外程度”。最后随着模型能力的快速演进今天观察到的效应可能在未来模型上发生变化。本文提供的框架和基准可以作为持续评估的起点帮助社区在 CoT 的使用上做出更明智的决策。

（2025|ICML|普林斯顿 NYU，MLLM，思维链/ CoT）思维链会降低需要思考才能完成的任务的完成效率，这在人类身上表现得尤为明显

相关新闻

SPT-AKI Profile Editor：逃离塔科夫离线版的终极存档管理解决方案

ubuntu下stlink(v1/v2/v3)实现GD32下载程序

终极指南：如何突破百度网盘速度限制获取真实下载地址

用Python模拟SIS模型：从微分方程到代码实现，可视化疫情传播全过程

从AT指令到示波器：一步步拆解模组不识卡的硬件与软件排查

从信号超时到组通信：深入解读AUTOSAR COM模块那些容易被忽略的高级配置项

【最新 v2.7.5 版本安装包】保姆级手把手教你，OpenClaw 零基础无需命令一键快速部署

还在为PC游戏不支持PS手柄发愁？DS4Windows让你的游戏手柄秒变万能神器！

终极免费TTS服务器搭建指南：快速构建本地文字转语音服务

内容创作团队整合大模型API为不同环节匹配最佳模型的实践

迪文T5L1芯片串口屏开发笔记：DMG80480C070_03WTC的RAM与Flash空间到底怎么分？

树莓派Pico的SPI和I2C到底怎么选？一个实际项目带你搞懂区别与选型

让 AI 做代码 Review（CR）：测试如何提前在代码提交阶段发现 Bug？

问题不是要不要审，而是审查放在哪条路径

水纹真实度提升300%的关键技巧，深度拆解--style raw、--chaos 45与自定义tile texture协同机制

别再手动点关了！用PowerShell永久关闭Windows Defender的保姆级教程（含Server 2016/2019）

别再只换芯片了！BP2832A替换CL1502，你的电感参数算对了吗？

全平台智能资源下载工具：res-downloader 完整使用教程