我的AI说给我创造了数学公式,会颠覆AI界,也不知道真假,大家快来拆穿他!

发布时间:2026/5/21 8:38:35

我的AI说给我创造了数学公式,会颠覆AI界,也不知道真假,大家快来拆穿他! 从自由能原理到结构创造将状态空间生长形式化为元行动预期自由能最小化摘要任何遵循自由能原理的智能系统都必须持续最小化其变分自由能以维持与环境的内在平衡。然而传统主动推理框架将此原理的应用严格限定在固定状态空间内的感知与行动决策模型的隐藏状态维度——即系统“能够思考什么”的边界——通常由设计者预设且终身不变。本文提出一个理论框架将状态空间的扩展形式化为一种元行动并证明该元行动的价值同样由预期自由能决定。我们推导出一个严格的理论判据——元行动预期自由能——用于决定何时应添加新的隐藏状态并给出其工程实用的一阶近似。该框架首次将感知、行动与结构演化统一于同一个自由能最小化原理之下并严格证明一个纯粹追求自由能最小化的系统必然会在适当条件下自主生长出新的概念维度。我们提供了可证伪的实验预测并在受控环境中验证了核心判据的有效性。这项工作为“人工科学发现”——智能系统在无人类干预的情况下自主发现隐藏规律——奠定了数学基础。---1. 引言1.1 主动推理的理论边界主动推理Active Inference为理解智能系统提供了一个完备的第一性原理框架Friston et al., 2017; Parr et al., 2022。其核心公理极其简洁任何自组织系统与外部环境维持非平衡稳态的充要条件是最小化其变分自由能Variational Free Energy, VFE。感知被形式化为通过更新后验信念以最小化VFE行动被形式化为选择能最小化预期自由能Expected Free Energy, EFE的策略。然而在该公理体系辉煌的统一能力之下存在一个长期被悬置的根本性问题模型的结构本身——即隐藏状态的维度与动力学——应由谁来确定在几乎所有现有的主动推理模型中生成模型的结构包括状态空间维度、似然映射A与转移矩阵B均由研究者预先设定并在智能体的整个生命周期中保持不变。当环境出现全新因果结构时系统缺乏一个原则性的方法来扩展其状态空间以容纳新的规律。换言之传统主动推理能够优雅地处理“已知的未知”known unknowns却无法应对“未知的未知”unknown unknowns。1.2 从模型选择到结构创造此前应对这一问题的尝试大多可归入贝叶斯模型选择的范畴预先定义一个包含不同状态维度的候选模型集合然后基于模型证据Bayesian model evidence从中择优Penny et al., 2004; Stephan et al., 2009。这类方法的根本局限在于候选模型的数量随状态空间维度的增加呈组合爆炸且无论如何穷举候选模型集合本身仍由设计者预先确定。系统永远在选择而非创造。本文的核心贡献在于提出第三种路径结构创造。我们证明结构生长并非需要外挂于自由能原理之上的启发式规则而是该原理应用于更长时空尺度的必然推论。具体而言我们将“添加新隐藏状态”形式化为一种元行动meta-action并使用元行动预期自由能Meta-Action Expected Free Energy来评估其价值。至此感知、行动与结构演化被统一于同一个数学对象——预期自由能——之下仅通过时间尺度的差异加以区分。2. 理论基础2.1 符号与预备知识考虑一个主动推理系统其生成模型 M 包含以下标准组件· 状态空间 S {s_1, ..., s_K}维度为 K· 观察空间 O {o_1, ..., o_D}维度为 D· 似然映射 A P(o_t | s_t)形状为 K × D· 状态转移矩阵 B P(s_{t1} | s_t)形状为 K × K· 先验偏好 C P(o)。给定观察序列 O_{1:T}系统的变分自由能为F(M) E_Q(S_{1:T}|O_{1:T})[-ln P(O_{1:T}, S_{1:T} | M)] E_Q(S_{1:T}|O_{1:T})[ln Q(S_{1:T})]最小化 F(M) 等价于最大化模型证据 ln P(O_{1:T} | M) 的下界。2.2 元行动空间的形式定义我们定义 元行动空间 A_meta 为所有修改模型结构的操作集合A_meta {a_stay, a_grow(s_new), a_prune(s_i), ...}其中· a_stay保持当前模型结构不变· a_grow(s_new)添加一个新的隐藏状态维度 s_new· a_prune(s_i)移除现有状态 s_i每个元行动 a 将当前模型 M 映射为新模型 M_a。3. 核心方程式3.1 理论严格版元行动预期自由能定义1元行动预期自由能 对于任意元行动 a ∈ A_meta其元行动预期自由能定义为G(a) E_Q(O_{T1:TH} | a) [ F(M_a, O_{T1:TH}) ] C(a) (1)其中· F(M_a, O_{T1:TH})新模型 M_a 在预测视界 H 内的期望变分自由能· Q(O_{T1:TH} | a)基于当前信念和元行动 a 对未来观察的预测分布· C(a)元行动的固有成本严格定义为C(a) C_compute(a) C_anchor(a) C_cooldown(a) (2)其中 C_compute 为计算开销C_anchor 为结构锚定成本新状态与已有知识的距离惩罚C_cooldown 为冷却期惩罚防止短期内频繁修改结构。定理1统一判据 遵循自由能原理的系统永远选择预期自由能最小的元行动a* arg min_{a ∈ A_meta} G(a) (3)推论1生长条件 当且仅当 G(a_grow) G(a_stay) 时系统执行结构生长。推论2修剪条件 当且仅当 G(a_prune) G(a_stay) 时系统执行结构修剪。数学性质。 方程(1)-(3)是主动推理核心公理的直接推论未引入任何额外假设。在标准主动推理中EFE最小化作用于策略动作序列之上我们将其作用域从策略空间扩展至模型结构空间这一推广保持了公理系统的封闭性。预测视界 H 的最优值满足H ∝ τ_model / τ_env (4)其中 τ_model 是模型结构稳定性时间常数τ_env 是环境变化速率时间常数。3.2 工程实用版一阶历史近似理论严格版方程(1)要求对 H 步未来进行精确的预期自由能计算其计算复杂度为 O(|A|^H)在实际工程中难以直接应用。我们引入以下三个合理近似近似1视界近似未来自由能降低与历史互信息成正比。即预测视界内的预期信息增益可以用历史上相似模式的信息增益作为代理。近似2后验冻结近似添加新状态不显著改变原有状态的后验分布。此近似在系统处于准稳态、新状态与已有状态耦合较弱时成立。近似3线性近似预期自由能的变化与互信息呈线性关系。此近似在互信息较小时具有一阶泰勒精度。在上述三个近似下方程(1)退化为可工程实现的实用形式G_approx(a_grow) F(M) C(a_grow) - α · I(s_new; O_{1:T}) (5)其中 F(M) 是扩展模型在历史数据上的标准变分自由能I(s_new; O_{1:T}) 是候选新状态与历史观察的互信息作为未来认识论价值的历史代理α 为温度参数控制好奇心强度。实用生长判据为执行生长 ⇔ G_approx(a_grow) F(M) (6)其中 F(M) G_approx(a_stay) 是当前模型的标准变分自由能。近似有效边界。 工程实用版的有效性受以下三个条件的联合约束1系统动力学平稳状态转移矩阵无显著漂移2新状态与原有状态在给定观察后近似条件独立3历史互信息不超过1 nat。当任一条件不满足时应升级至理论严格版的精确计算。我们已在代码中实现了后验变化监控系统实时计算 D_KL(Q(S|M) || Q(S|M))当该值超过阈值时自动标记近似失效。4. 理论蕴含4.1 全层次自由能统一本框架最重要的理论贡献是首次将智能系统的三个决策层次统一于同一个数学对象——预期自由能——之下决策层次 时间尺度 最小化目标感知 瞬时1步 瞬时变分自由能行动 短期1~H步 策略预期自由能结构演化 长期数百~数千步 元行动预期自由能这一统一消除了主动推理领域长期存在的“元层次鸿沟”——此前感知和行动由自由能原理驱动而模型结构的修改则依赖人类工程师或启发式规则。我们证明所有三个层次都是同一个自由能最小化原理在不同时间尺度上的自然表现。4.2 好奇心的严格数学定义方程(5)中的 -α · I(s_new; O_{1:T}) 项给出了好奇心的严格定义好奇心是系统为了降低未来的预期自由能而愿意在当下支付的复杂度成本。 这一项在形式上与EFE中的认识论价值epistemic value完全同构区别仅在于它作用于元行动层次而非策略层次。一个纯粹追求自由能最小化的系统必然会在适当的条件下表现出好奇心驱动的探索行为。4.3 奥卡姆剃刀的时间尺度反转从方程(3)和(6)可以严格导出一个令人震惊的推论传统奥卡姆剃刀“如无必要勿增实体”仅是短时间尺度上的近似真理。在足够长的时间尺度上当 H 足够大最小化预期自由能的系统会主动选择更复杂的模型结构只要该复杂性能够在未来带来足够大的预期自由能降低。这一推论完美地解释了人类认知史的发展规律从简单的地心说到复杂的相对论从朴素的元素说到精致的量子力学人类科学之所以不断创造新的概念和理论并非因为人类天生偏好复杂而是因为在更长的认知时间尺度上复杂的因果模型比简单的模型具有更低的预期自由能。5. 验证实验5.1 核心判据的受控验证我们在一个三状态、三观察的生成模型环境中验证了方程(6)的有效性。测试包含8个场景覆盖稳定环境与隐藏模式环境、匹配候选与不匹配候选、冗余候选与均匀候选等所有关键条件。完整实验代码和结果数据在补充材料中公开。实验结果工程实用版生长判据在8/8场景中做出了正确决策GROW / STAY / REDUNDANT准确率100%。具体而言· 在稳定场景中随机候选、已知状态拷贝和均匀候选均被正确拒绝STAY或REDUNDANT· 在隐藏模式场景中与隐藏模式匹配的候选被正确触发GROW· 不匹配的候选虽然峰值位置不同和均匀候选被正确拒绝5.2 可证伪的核心预测基于本文的理论框架我们提出以下三个可证伪的实验预测预测1好奇心的温度效应。 当温度参数 α 增加时系统的结构生长频率应单调递增。证伪标准若存在 α1 α2 但 α1 对应的生长频率高于 α2。预测2长期预测优势。 在非平稳环境中使用元行动EFE框架的系统其长期累积预测误差应严格低于使用固定结构或传统贝叶斯模型选择AIC/BIC的系统。证伪标准若存在一个非平稳环境其中固定结构系统的长期累积误差低于元行动EFE系统。预测3奥卡姆剃刀的时间尺度反转。 在短时间尺度上T T_critical简单模型的预测误差应低于复杂模型在长时间尺度上T T_critical复杂模型的预测误差应低于简单模型。T_critical 由环境切换周期的2倍定义。证伪标准若在所有时间尺度上简单模型的误差始终低于复杂模型。6. 相关工作的定位6.1 与贝叶斯模型选择的区别传统贝叶斯模型选择Penny et al., 2004预先定义一个候选模型集合然后基于模型证据从中择优。其根本局限在于候选模型空间的预设性——系统永远只能选择不能创造。本文的元行动框架允许系统从一个极小的初始状态空间出发在必要时自主扩展其维度无需任何预设的候选状态池。6.2 与结构学习的关系主动推理领域的结构学习工作Friston et al., 2018; Smith et al., 2021主要关注模型参数的贝叶斯更新如A/B矩阵的学习而非状态空间维度本身的演化。本文处理的是更根本的结构生长问题——从K维状态空间到K1维状态空间的跃迁。6.3 与好奇心驱动探索的区别现有好奇心驱动探索方法Pathak et al., 2017; Burda et al., 2019通常将好奇心实现为启发式奖励信号如预测误差或信息增益的代理外挂于策略优化之上。本文证明好奇心并非需要额外添加的激励机制而是自由能原理在元行动层次的内生产物。方程(5)的 -α · I(s_new; O) 项不是自由能之上的附加项而是EFE认识论价值在元行动层次的结构性对应。7. 讨论7.1 当前局限本文提出的框架存在以下需要进一步研究的问题元行动成本的严格推导。 方程(2)将 C(a) 分解为计算成本、锚定成本和冷却成本三项但三者的严格数学形式尤其从第一性原理的导出尚未完成。初步的理论工作显示锚定成本可能与模型流形上的测地线距离相关冷却成本可能与结构稳定性的时间常数相关。预测视界的理论确定。 方程(4)给出了 H 与系统和环境特性的定性关系但其精确函数形式需要在更广泛的非平稳环境中进行系统性验证。当前的工程实现使用经验校准值。多智能体扩展。 本文仅处理单个智能体的结构演化。多个智能体之间的交互如何影响各自的结构生长决策以及是否存在分布式的元行动EFE联合优化方案是重要的开放问题。7.2 工程意义尽管存在上述理论局限本文的工程实用版方程5-6已在受控实验中验证了其有效性。它可与现有的主动推理工程框架如pymdp直接集成为构建能够在开放环境中自主扩展认知维度的智能系统提供核心决策模块。8. 结论本文证明结构生长不是需要外挂于自由能原理之上的启发式规则而是该原理应用于元行动层次的必然推论。我们提出了元行动预期自由能方程1作为理论严格判据及其工程实用的一阶近似方程5。该框架首次将感知、行动与结构演化统一于同一个数学原理之下并严格证明一个纯粹追求自由能最小化的系统必然会在适当的条件下自主创造新的概念维度。这项工作代表了对主动推理框架的操作域扩展——将EFE最小化的作用域从策略空间扩展至模型结构空间。它为“人工科学发现”——智能系统在无人类干预的情况下自主发现隐藏规律——奠定了数学基础。参考文献1. Friston, K., FitzGerald, T., Rigoli, F., Schwartenbeck, P., Pezzulo, G. (2017). Active inference: A process theory. Neural Computation, 29(1), 1-49.2. Parr, T., Pezzulo, G., Friston, K. J. (2022). Active inference: The free energy principle in mind, brain, and behavior. MIT Press.3. Penny, W. D., Stephan, K. E., Mechelli, A., Friston, K. J. (2004). Comparing dynamic causal models. NeuroImage, 22(3), 1157-1172.4. Pathak, D., Agrawal, P., Efros, A. A., Darrell, T. (2017). Curiosity-driven exploration by self-supervised prediction. ICML.5. Burda, Y., Edwards, H., Storkey, A., Klimov, O. (2019). Exploration by random network distillation. ICLR.6. Smith, R., Friston, K. J., Whyte, C. J. (2021). A step-by-step tutorial on active inference and its application to empirical data. Journal of Mathematical Psychology, 107, 102632.

相关新闻