
文章核心总结与翻译一、主要内容研究背景:当前大型语言模型(LLMs)虽在多个领域展现出卓越能力,但现有NLP基准测试极少关注创造性问题解决能力——这一人类智能的核心特征。在认知神经科学中,人类的创造性问题解决会受“红鲱鱼”(误导性刺激)影响,产生固着效应(Fixation Effect)和思维定势(Einstellung Effect),而英国益智节目《Only Connect》的“连接墙”环节天然包含此类误导性设计,与经典的远距离联想测试(RAT)高度契合。数据集构建:提出全新的Only Connect Wall(OCW)数据集,包含15季节目中的618个连接墙谜题,每个谜题含16个线索词,需分组为4组(每组4词)并识别组内关联;同时生成OCW-Randomized(随机交换组以稀释红鲱鱼)和OCW-WordNet(基于WordNet层级关系移除红鲱鱼)两个衍生数据集,用于验证红鲱鱼对模型的影响。实验设计:任务1(分组):采用静态/上下文词嵌入聚类(如GloVe、BERT、E5)和LLMs的少样本上下文学习(GPT-3.5-turbo、GPT-4),使用WD、FMS、ARI等6种指标评估。任务2(关联识别):通过LLMs的少样本上下文学习,采用精确匹配、ROUGE-1 F1、BERTScore F1三种指标评估。核心发现:所有模型(包括