当大模型遇到“八字推理”:BaziQA-Benchmark 在测什么,为什么值得关注?

发布时间:2026/6/12 4:17:29

当大模型遇到“八字推理”:BaziQA-Benchmark 在测什么,为什么值得关注? 这两年大模型在数学、代码、通用问答上的表现已经很亮眼但还有一类能力经常被忽略模型能不能在固定符号系统里按照明确约束做多步推理尤其是在时间条件不断变化时依然保持判断稳定。由AuraMate灵伴团队做的BaziQA-Benchmark 这篇工作正是把这个问题单独拎出来做成了一个标准化 benchmark用来评估大语言模型的 symbolic reasoning 和 temporally compositional reasoning。论文把任务定义为给模型一个固定命盘表示再让模型回答与人生事件、关系、财富、健康、流年等相关的选择题从而把“会不会推理”从“会不会写得像样”里分离出来。一、这篇论文到底做了什么论文提出的 BaziQA-Benchmark核心数据来自 2021 到 2025 年全球专业命理竞赛的 200 道官方多选题。每道题都要求模型围绕一个固定的符号图式进行推断并处理相互作用的时间条件。作者强调这种设计不是靠个别案例做“展示型评测”而是希望形成可客观打分、可跨年份比较、可跨模型家族比较的评估框架。换句话说它不是让模型“聊玄学”而是让模型在一个非标准但结构清晰的符号系统里做约束推理。从仓库内容看开源资源并不只包含论文里那 200 道核心 benchmark 题目。GitHub 仓库还提供了额外的 Celebrity50 数据集因此整个仓库层面的数据总量达到 90 名对象、450 道题。其中 Contest8 系列对应 2021—2025 年的竞赛题每年 8 位命主、每位 5 道题共 200 题Celebrity50 则额外提供 50 位名人的详细信息与问题集共 250 题。也就是说论文中的 benchmark 核心是 200 题但仓库本身已经是一个更完整的研究资源包。二、它和普通问答 benchmark 最大的区别是什么我认为这项工作的关键不在于“八字”本身而在于它构造了一种很少被标准 benchmark 充分覆盖的任务形态模型面对的不是开放式生成而是一个固定符号上下文下的离散判断任务。论文明确说明数据输入不是原始出生信息而是先经过外部流程计算得到的完整命盘及时间扩展信息再用统一模板呈现给模型。这样做的目的是把历法换算、排盘步骤从评测里剥离出去只保留真正需要比较的“符号推理能力”。具体评测方式也很有意思。对于每个命主模型会先看到一次固定格式的命盘上下文然后在同一轮会话里连续回答 5 个相关问题模型在答题过程中拿不到正确答案反馈。论文把这叫作 multi-turn evaluation setting。这样的设计更接近真实场景因为现实中的判断往往也是围绕同一份结构化背景持续展开而不是每次都重新开题。另外这个 benchmark 全部是四选一题因此随机猜测基线非常清楚就是 25%。这件事很重要因为它让“模型到底有没有学到结构”可以用更客观的方式衡量而不是陷入开放生成任务里常见的主观评分争议。三、论文还提出了一个很值得注意的东西SRP除了 benchmark 本身论文还设计了一个 Structured Reasoning Protocol简称 SRP。它不是额外往模型里塞专业知识也不是训练新参数而是在推理时强制模型按特定顺序思考。这个 protocol 分三步第一步做 Quantitative Scan先看整体结构、元素平衡和 Day Master 强弱第二步做 Severity Grading对当前时间条件下的符号交互进行强弱排序第三步做 Event Mapping把主导性的符号信号映射到具体事件结论上。这个设计很有研究价值因为它不回答“模型能不能靠提示词无脑提分”而是在追问另一个更本质的问题当我们改变推理顺序时模型的行为会不会变化如果会那说明模型不只是“知道一些规则”而是对证据组织顺序高度敏感。论文后面的实验基本就在围绕这个问题展开。四、实验结果说了什么先看整体成绩。论文报告的五年宏平均准确率里DeepSeek-Chat-V3 是 36.7%DeepSeek-R1 是 34.1%GPT-5.1-Chat 是 32.5%Gemini-2.5-Flash 是 32.4%Gemini-3-Pro 是 32.1%。所有模型都显著高于 25% 的随机基线但离“做对一半以上题目”仍有明显距离。论文据此给出的判断是模型确实抓到了一些可学习结构但距离把这类专业级符号推理吃透还差得很远。再看跨年份表现也很有意思。不同模型在 2021—2025 五个年度题集上的表现并不是单调上升或单调下降。比如 DeepSeek-Chat-V3 在 2022 年达到 41.0%但在 2023 年回落到 33.5%Gemini-3-Pro 在 2024 年有 38.5%但在 2023 年只有 26.5%。论文认为这种波动说明不同年份题集在时间组合难度和交互优先级上并不一致因此不能把某一年成绩直接当成模型总体能力的稳定代表。从领域维度看模型在“人格”“家庭关系”这类更偏静态结构属性的问题上表现相对更好而“流年”这类依赖时间组合和多因素优先级判断的问题对所有模型都更困难。论文还指出健康类问题的模型间差异最大例如 Gemini-3-Pro 在健康类上达到 60.0%DeepSeek-R1 为 48.0%明显高于一些其他模型但没有任何一个模型能在所有领域形成全面压制。这一点说明这个 benchmark 不只是给模型排总分更能揭示不同模型的推理偏好和短板分布。五、这项工作真正有价值的地方不只是“玄学 benchmark”如果只看题材很多人可能会把这项工作归类成“有趣但边缘”的研究。但从评测设计角度看它其实提供了一个很扎实的范式用文化嵌入但规则清晰的符号系统构建可复现、可客观打分、可做误差分析的 reasoning benchmark。论文在讨论部分也强调BaziQA-Benchmark 测到的既不是纯事实记忆也不是自由文本生成而是一种在显式符号约束下做离散决策的能力。这个角度对研究大模型在复杂结构环境中的行为其实很有启发性。该团队的后续测评在BaziQA live benchmark 也有同步更新最新大模型的八字命理推理能力。并将底层推理能力包装成一款AI命理陪伴产品 AuraMate灵伴

相关新闻