
这项由Google DeepMind与Google研究团队联合开展的研究发表于2026年1月论文编号为arXiv:2606.26299感兴趣的读者可以通过该编号查询完整论文。研究团队还与来自独立折纸设计师群体及斯坦福大学的专家展开合作历时多年共同打造了这套名为COrigami的人工智能折纸设计系统。折纸这门已有几百年历史的纸艺听起来像是最不可能与人工智能产生交集的事物。毕竟折纸靠的是人手的触感、眼睛的判断和几十年的经验积累。然而这篇论文要告诉我们的是一台电脑只需要接受一句普通的自然语言描述——比如一只有着精致多叉鹿角的公驼鹿——就能自动生成一份完整的折叠方案让真实的纸张可以按照这份方案被折叠成一个像模像样的三维驼鹿模型。这件事之所以难并不是因为折纸本身看起来复杂而是因为折纸在数学层面上有着极为严苛的规则。一张纸能不能被压平、折叠时会不会自我穿插、每条折痕的走向应该朝上还是朝下——这些问题在数学上被证明是NP难问题也就是说即便是最强的计算机也无法用暴力枚举的方式快速求解。更棘手的是当前的大型语言模型在处理这类空间几何推理时表现很差研究团队在早期实验中发现直接让AI生成折叠方案最终能满足数学规则的成功率只有不到60%而且生成的模型完全不像任何真实生物。正是为了解决这个困境COrigami系统应运而生。一、折纸为什么让AI犯难一个关于无数条折痕的数学噩梦要理解COrigami为什么值得关注首先得明白折纸设计在计算机看来是一件多么复杂的事情。每一张折叠完成的纸如果你把它完全展开铺平就会看到纸面上留下了密密麻麻的折痕网络。这张展开的纸就叫做折痕图——它是整个折纸作品的设计蓝图记录着每一条折痕的位置和方向。一个复杂的折纸作品比如一只有着六条细腿和两根触角的甲虫其折痕图上可能有数千条折痕每条折痕都需要被标注为向上折山折或向下折谷折。这里有一个关键的数学要求叫做平面可折叠性。简单来说就是按照这张折痕图折叠出来的纸必须能够被完整压平成一个二维的平面而且折叠过程中纸张不能自我穿插。这个听起来简单的要求背后却藏着两个经典数学定理。第一个是川崎定理在折痕图的每一个交叉点上交替相加和相减相邻角度的结果必须恰好等于180度。第二个是前川定理在任意一个交叉点上山折线和谷折线的数量之差必须恰好是加二或减二。这两个条件只是局部的必要条件而判断整张折痕图全局是否满足要求还需要检查折叠后的纸层之间是否有任何穿插这个问题在计算机科学上被证明是NP难的。不仅如此折纸设计还面临数据极度匮乏的困境。折纸界有一个长期以来的传统折痕图只是设计师给其他行家看的草图不会记录所有细节真正的美感来自折叠者自己的手感和经验。因此世界上几乎没有多少张完整且美观的可识别折纸折痕图存在。研究团队最初只能从与合作折纸设计师共同创作的约100张作品中积累数据这个数字对于训练AI来说少得可怜。研究团队也尝试过最直接的方案把大量折痕图转换成代码格式然后直接训练语言模型生成这些代码。训练确实在推进模型学会了生成格式正确的代码但在严格的数学平面可折叠性检验上成功率在训练到一定程度后就再也无法突破60%的天花板。这个结果表明直接端到端的生成方式在这个任务上存在根本性的架构局限。二、换一条路走把折纸设计拆解成一道道可解的题目面对这个困境研究团队决定换一种思路。与其让AI一次性生成整个折痕图不如把这个庞大的任务拆解成若干个更小、更容易处理的子任务让AI只在它真正擅长的部分发挥作用而把数学上要求严格的部分交给专门设计的算法来处理。这个思路有一个专业名称叫做神经符号系统——神经指的是神经网络和大型语言模型符号指的是基于数学规则的确定性算法。COrigami正是这两种技术的结合体。整个流程像是一条精心设计的流水线从一句自然语言出发经过五个主要阶段最终产出一个可以被真人折叠的三维模型设计方案。第一阶段是将自然语言转换为语义骨架图。这个骨架图的作用就像是建筑师画的结构草图它不记录具体的折叠细节只描述这个折纸作品大概应该有多少个肢体每个肢体的长度、朝向和空间位置大概是什么样子。这个骨架图在技术上叫做语义棒状人形图它本质上是一棵树状结构树的每个分支对应折纸作品的一个解剖部位。Gemini模型负责根据文字描述生成这棵树然后再次审查它从四个不同视角顶视、侧视、正视、等距视检查骨架图是否与目标描述相符如果不符就修正直到满意为止。第二阶段是将骨架图转换为一个二维矩形拼贴方案叫做打包。这里涉及一种叫做箱形折叠的现代折纸技术。简单来说箱形折叠把所有折痕限制在一个正交的整数网格上所有折痕要么是水平线、要么是垂直线要么是45度的对角线。这个限制带来了两个好处第一所有折叠角度都是理性数人手可以精确执行第二折痕的传播是有限的不会出现理论上永远延伸下去的折痕。在这个网格上骨架图的每个叶节点末端肢体被映射为一个矩形每条内部边连接两个关节的躯干部分被映射为一条路径研究团队开发的回溯搜索算法负责在网格上把这些矩形和路径拼贴在一起不留任何空隙。第三阶段是求解也就是在这张铺满矩形的网格上给每一条折痕分配山折或谷折的方向并验证整张折痕图满足数学上的平面可折叠性要求。研究团队开发了一套组合启发式算法先用确定性规则处理大部分折痕把最难的部分铰链折痕的分配留到最后再用优先级驱动的贪心搜索来解决同时配合积极的剪枝策略快速淘汰不可行的方案。第四阶段是塑形把扁平的折叠基础变成三维的立体模型。这里分为两步先用算法根据骨架图的角度信息自动计算出一系列简单折叠操作把纸张从扁平状态推成与骨架图相符的三维姿态再用强化学习进一步优化这些折叠操作让最终效果更接近真实生物的外观而不只是忠实再现骨架图。第五阶段是折叠与评估用一个自研的几何折叠模拟器把折痕图渲染成三维模型从七个不同角度拍摄截图然后用视觉语言模型VLM扮演审美评委给模型打分。三、骨架图让AI学会素描一只动物骨架图这个概念值得单独深入解释因为它是整个系统能够运作的关键基础。传统的折纸设计方法比如Robert Lang在1996年开创的树方法是把折纸作品抽象成一棵树树的每个末端节点代表一个肢体末端节点之间的边长代表对应肢体的长度。这棵树的形状决定了折纸作品的拓扑结构也就是它有几条腿、几根触角、尾巴是否存在。COrigami的语义骨架图在这个基础上增加了语义维度——不仅记录拓扑结构还记录每一根骨头在三维空间中的指向。每一根骨头由三个参数决定长度这根骨头有多长、方位角在水平面上朝哪个方向和仰角向上还是向下倾斜多少度。Gemini模型接收到一段文字描述后会尝试生成一个符合这种格式的JSON数据结构。以一只猫为例输出会是一棵以躯干为根节点的树躯干连接着头部、四条腿和尾巴每一个部位都有对应的长度和角度参数。生成之后系统不会直接使用这个骨架图而是会用Gemini再扮演一次审查员从四个视角检查骨架图是否合理。审查的维度包括节点和边的数量是否与目标描述匹配、比例是否合理、语义上能否被识别为目标动物、结构复杂度是否足够。如果评分太低系统会要求Gemini修改骨架图可能是调整某条腿的长度、修正两条对称肢体之间的角度使其真正对称、或者增减某些节点。这个反复审查和修改的过程会持续进行直到骨架图达到质量标准。值得注意的是骨架图虽然能够描述动物的拓扑结构和大致姿态但它无法表达肢体的宽窄、粗细等信息。一只昆虫细如发丝的腿和一头大象粗壮的腿在骨架图上看起来可能没什么区别。这个局限性后来由塑形阶段的AI来弥补它会根据视觉判断主动对肢体进行细化处理。四、打包与求解在网格上拼出一张纸的命运打包阶段和求解阶段是COrigami系统中技术含量最高、也是最能体现创新性的部分。这是整个流程中完全由算法而非AI模型来主导的核心环节。打包阶段的任务是把骨架图翻译成一个矩形拼贴问题在一个正方形网格上把代表各个肢体的矩形和代表躯干连接的路径排列好要求完全覆盖网格、不留任何空白、也不相互重叠。这个问题听起来像是在玩俄罗斯方块但实际上要复杂得多。首先网格的大小本身就是一个需要估算的变量。研究团队使用了一套基于圆形打包理论的启发式公式来估算初始网格大小具体来说是把所有肢体的面积贡献加起来取平方根同时与骨架树的最长路径长度取最大值再根据对称性调整为偶数。然后系统会从这个估算值出发依次尝试更大的网格直到找到能够成功打包的最小网格尺寸。打包算法的运作方式是一个迭代的回溯搜索。它首先按照骨架树的拓扑顺序依次放置河流代表躯干连接的路径第一条河流通过穷举所有可能的直线或L形路径来放置后续的河流则沿着已放置元素的轮廓蜿蜒前行像蛇一样绕过现有障碍物。每放置好一条河流算法立即把这条河流围成的区域叫做口袋中应该填入的矩形肢体放进去候选位置要么通过解析计算沿着相邻矩形的边滑动要么通过暴力枚举格点再经过对称性、重叠和面积可行性检查后按打分排序。当所有矩形和路径都放置完毕后网格上可能还剩一些空白格。这时算法会识别出所有未被占用的格子计算出哪些相邻矩形可以扩展来覆盖这些格子再通过回溯搜索找到一个一致的扩展方案把所有空白都填满。这一步保证了最终的打包是完美的瓷砖拼贴——这是生成有效折痕图的数学前提。完成打包后折痕图的雏形就有了对角线方向的脊线把每个矩形区域分割成更小的三角形区域这些三角形的边界就是铰链的候选位置。求解阶段的任务是给图上所有折痕分配山谷方向使得整张折痕图满足平面可折叠性。研究团队把这个任务分为确定性步骤和组合搜索步骤两部分。在确定性步骤中轴向折叠水平和垂直方向的折痕被按照固定的几何逻辑分组相邻的平行组被交替赋予山折和谷折脊线的方向从特定的锚点如Y形交叉点和纸张边缘出发按照四条规则向外传播。经过这些确定性步骤后绝大多数交叉点已经自然满足局部平面可折叠性只剩下铰链折痕的分配还未解决。铰链分配是整个求解过程中唯一的组合决策问题。系统把铰链分组成连通分量每个分量对应骨架树的一个节点按照顶点数从多到少的顺序依次处理。对每一个铰链系统尝试两种分配方式交错型MVMV或对称型MVVM用贪心打分函数评估哪种更接近全局平面可折叠同时积极剪枝掉所有使打分下降的候选状态。这个组合搜索的效率出乎意料地高——对于相当复杂的模型它依然能够快速收敛。五、塑形从扁平草稿到立体生命经过求解阶段得到的是一个折叠基础——一张按照折痕图折叠后压平的纸看起来像是一条密实的平板纸带。这张纸带内部虽然编码了正确的拓扑结构但在外观上完全看不出它是一只驼鹿还是一只甲虫。真正赋予模型外观特征的是接下来的塑形阶段。塑形分为两个层次。第一层是算法塑形通过程序自动把折叠基础推成与骨架图相符的三维姿态。算法从骨架树的根节点出发用广度优先搜索依次处理每一根骨头对应的纸张区域计算出把该区域从当前方向旋转到目标方向所需的折叠线然后把这个折叠线施加到折痕图上。这种操作叫做简单折叠是折纸中最基础的一种操作给定两个点定义一条切割线把切割线一侧的纸张翻折过来。虽然听起来简单但通过在不同位置多次施加可以实现相当复杂的三维变形。除了简单折叠之外研究团队还开发了一种叫做裁剪图案算法的工具用于实现窄化效果——比如把一只昆虫粗壮的肢体压缩成细如发丝的样子。这个算法维护一个局部坐标系从折叠好的多层纸张的一个参考面出发通过追踪拓扑折叠路径把一个二维的窄化模板投影到每一层纸张上并自动处理Z轴翻转导致的山谷方向互换问题。结果是一组协调一致的折痕能够在不改变肢体方向的前提下减小其截面宽度。第二层是强化学习塑形。算法塑形的结果虽然在几何上准确再现了骨架图但骨架图本身可能存在比例上的问题而且骨架图无法表达肢体宽度所以算法塑形的结果常常看起来过于方块、缺乏生命力。为了突破这个瓶颈研究团队把Gemini 2.5 Flash Lite模型用强化学习进行了微调让它负责协调各种塑形工具的参数。具体来说这个RL训练把塑形任务表述为一个单步决策问题给定骨架图的规格、可用工具的描述和一些上下文示例模型一次性输出所有肢体的塑形参数。然后这些参数被执行几何折叠模拟器渲染出七个视角的截图视觉语言模型从这些截图中评估模型的视觉效果给出一个0到1之间的分数作为奖励信号。如果生成的指令无效、违反平面可折叠性或引发模拟错误则给予-1的惩罚。此外系统还设置了一个鼓励工具多样性的内在奖励防止模型只用少数几个简单操作就满足而不去探索更丰富的塑形可能。训练过程中RL代理的行动空间比纯提示基线更宽广它可以主动选择对特定肢体施加窄化操作、在更多位置施加额外的简单折叠发现那些人工难以直觉预见的参数组合。训练曲线显示成功工具调用次数、视觉奖励分数和有效输出比例都随训练步数稳步提升验证了RL框架在这个任务上的有效性。六、折叠模拟与视觉评审让AI自己当裁判在整个流程的末端研究团队面临一个关键问题如何自动判断一个生成的折纸模型是否足够好市面上已有的折纸模拟工具如Origami Simulator使用的是物理弹簧网格模型通过迭代模拟纸张受力变形来计算三维形态。但研究团队发现这种方法在涉及复杂折痕图时会积累较高的几何误差不适合用于精确的质量评估。为此研究团队自研了一个纯几何折叠模拟器。它从折痕图的二维坐标出发构建面邻接图通过广度优先遍历为每个面计算一个4×4的仿射变换矩阵——这个矩阵编码了该面相对于参考面的旋转和平移关系。对于共享同一条边的两个面变换矩阵通过沿共享边轴旋转指定折叠角度来推导。由于一个顶点通常属于多个面最终的三维坐标通过对所有相关面变换结果取平均来减少浮点误差。在87个包含数千条折痕的复杂折痕图上测试这个确定性模拟器的顶点重建误差最低可达10^-5量级而Origami Simulator的误差通常在10^-1量级两者相差高达五个数量级。这个精度差异意味着研究团队的模拟器能够生成高保真度的三维渲染图为后续的视觉评审提供可靠的视觉输入。视觉评审的核心是用Gemini 3 Flash作为自动审美评委。这个视觉语言模型的评审流程有两种模式。单模型评估模式下模型接收目标描述的文字和来自七个视角的渲染截图按照一套详细的评估准则逐步分析先识别图中可见的特征再对照真实生物检验肢体数量是否正确、肢体是否从正确的解剖部位生长出来、比例是否合理、身体各部分之间是否有清晰的几何分界、折叠是否整洁对称最后检查是否存在网格穿插或混乱堆叠等几何缺陷。评审完成后给出0到10的分数。对比评委模式下系统展示两个折纸模型的截图让模型进行直接比较判断哪个更好并给出相对分数。为了消除位置偏差模型可能倾向于偏爱第一个看到的对象系统会把两个模型的展示顺序互换重新评一次。研究团队还专门建立了一个评测数据集87个正例152个负例来测试不同评估配置的表现。实验发现了几个有趣的结论Gemini Flash在这个任务上的表现出乎意料地优于更强大的Gemini Pro模型使用详细的评估准则包括肢体数量、拓扑结构、比例等多个明确标准的提示词比简单的打分或二分类提示词准确率高得多而把两次比较综合在一起的双重比赛模式分类准确率达到81.1%F1分数达到0.74是所有测试配置中最高的。七、从56万到2.8万一场大规模自然选择了解了流程的每一个环节现在来看看整个系统在实际运行中的规模和筛选效率。研究团队从56万个初始骨架树候选出发启动了整个流水线。第一关是骨架图生成只有20.2%的候选成功生成了有效的语义骨架图得到约11.3万个候选。这个较低的通过率主要来自文字描述本身的多样性和复杂性——有些描述生成的骨架图存在循环结构有些肢体配置不合理Gemini无法修正到满意的状态。通过骨架图关口的候选进入打包阶段有55.3%成功找到了有效的矩形拼贴方案剩下6.2万多个候选进入求解阶段。求解阶段的通过率更高达到79.2%反映了研究团队的组合求解器在常规复杂度的骨架图上相当有效。求解成功的候选进入算法塑形阶段92.0%顺利完成说明简单折叠算法对大多数骨架图都能正常运作。最后经过模拟应变检验和视觉语言模型审美评估的双重筛选又有1.7万多个候选被淘汰——其中约7500个因视觉语言模型评分低于0.6而出局约1.03万个因与骨架树的形状相似度低于0.9而出局。最终剩下约2.78万个结构上可行、视觉上令人满意的基础模型整体存活率约为5%。存活率的高低与骨架图的复杂程度密切相关。肢体数量少于10条的简单骨架图打包成功率接近100%而肢体超过20条的复杂骨架图打包成功率会急剧下降。河流数量连接两个以上关节的躯干段数量的增加同样显著拖低打包和求解阶段的通过率这与理论上的NP难性质完全吻合。研究团队还按照语义类别分析了不同类型折纸的成功率发现鸟类和非对称动物的整体成功率最高而龙虾和蝎子这类拥有大量肢体的节肢动物成功率最低。这2.78万个通过筛选的基础模型被送入强化学习的第二阶段。RL阶段只处理得分最高的前1000个模型在这个基础上探索更丰富的塑形可能。RL阶段产生的所有样本再次经历一轮视觉语言模型竞赛筛选出的顶级模型最终被展示在论文的图2中。那张图中的10个模型是由研究团队手工从RL产出的200个高分模型中挑选出来送入最终竞赛的——这是整个流程中唯一涉及人工选择的环节。八、与现有工具相比COrigami带来了什么折纸设计领域并不是没有计算机工具。TreeMaker和BP Studio是两个被专业折纸设计师广泛使用的软件。COrigami与这两个工具的差异揭示了这项研究的价值所在。TreeMaker从一棵拓扑树出发通过圆形打包优化生成折纸基础的折痕图。但它依赖持续优化的数值方法生成的折痕点常常是无理数需要人工近似才能实际折叠。更重要的是TreeMaker的核心优化步骤需要大量人工干预用户必须手动设置对称约束、手动分解高阶多边形、手动调整节点位置以跳出局部最优。研究团队尝试在COrigami的流水线中自动化TreeMaker的步骤结果在6.6万个骨架图测试中只有1.1%成功生成有效折痕图其余大量失败于折痕图构建或平面可折叠性验证——这充分说明自动化TreeMaker的人工步骤有多难。BP Studio引入了箱形折叠的离散化网格但它求解的是连续松弛版本的打包问题结果常常包含非正交的特殊延伸折痕无法保证网格上没有空白需要人工后处理才能生成有效的折痕图。COrigami的核心贡献在于它是第一个能够在严格正交箱形折叠网格上完全自动地、保证瓷砖拼贴无空白地完成打包并自动求解到满足平面可折叠性的折痕图的系统——而且全程无需人工介入输入仅是自然语言。代价是牺牲了一部分打包效率网格可能比理论最优大一些收获的是极高的自动化程度和更低的折叠难度。当然COrigami也有明确的局限。它目前只使用了简单折叠和窄化两种塑形工具专业折纸师所用的各种复杂成形技术尚未被纳入。视觉语言模型的评审基于零厚度的数字模拟无法预见真实纸张在叠层过多时产生的纸张蠕变问题——因此生成的折痕图只是一个数学上可行的起点真正折叠成满意的物理作品还需要专业折纸师的手工介入和诠释。九、一个AI时代的创作伙伴说到底COrigami的目标从一开始就不是取代人类折纸师而是成为一个有用的创作起点生成器。论文中有一张示意图展示了这一理念Brandon Wong是参与这项研究的折纸艺术家COrigami为他生成了一只壁虎、一只孔雀和一只甲虫的初始结构方案而那些摆在图右侧的实体折纸作品都是他在AI生成的折痕图基础上进行二次塑形后亲手折叠出来的。AI提供了骨架人类赋予了生命。这种分工本质上改变了折纸设计流程中最耗时的部分。过去一个熟练的折纸设计师在着手一件复杂作品时最耗时的不是最后的成形阶段而是最开始的拓扑规划和打包阶段——如何在一张有限的纸上分配空间给所有肢体如何让所有折痕的走向自洽。这个阶段可能需要数天乃至数周的反复试错。COrigami能够在这个阶段自动生成大量候选方案让设计师从中挑选最有潜力的作为出发点节省了大量机械性的探索时间把创意留给创意把数学留给算法。从更宏观的视角来看这项研究也是一个关于如何在约束极强的领域中部署AI的案例。折纸是一个物理约束与数学约束双重严苛的领域AI在这里不能随便生成、事后验证而是必须在生成过程中就遵守规则。研究团队的解法是把AI限制在它最擅长的部分理解语义、评估美感、探索塑形空间把规则检验交给确定性算法两者通过精心设计的接口协作。这种神经符号协作的思路对于其他同样需要在严格约束下进行创作的领域比如建筑设计、机械设计或分子结构设计或许同样有参考价值。归根结底COrigami做了一件并不容易却非常有用的事它让AI帮你折纸这件原本听起来像天方夜谭的事在数学上变得严谨在实践上变得可行在美学上变得值得期待。下一步要走向何方也许就取决于折纸师们愿意把AI当成怎样的伙伴。---QAQ1折纸的平面可折叠性是什么意思为什么它那么重要A平面可折叠性是指一张按照折痕图折叠的纸能够被完全压平成二维平面同时纸张不能自我穿插或撕裂。这个要求在数学上非常严苛折痕图上每个交叉点都必须满足川崎定理和前川定理两个条件判断全局是否满足更是一个NP难问题。如果折痕图不满足这个条件真实的纸张就根本无法被折成设计中的样子整张折痕图也就没有实用价值。Q2COrigami生成的折纸模型能直接拿去折吗A不能直接使用需要专业折纸师的二次处理。COrigami生成的是基于零厚度纸张假设的数学模型但真实纸张有厚度在层数很多的地方会出现纸张蠕变折痕位置会偏移。此外COrigami目前的塑形手段有限生成的模型可能看起来比较方块需要有经验的折纸师用湿折、沉折等高级技法进行精细成形。它更像是一个数学上可行的结构草图而非完整的制作指南。Q3强化学习在COrigami中具体起什么作用A强化学习负责COrigami流程的最后塑形优化阶段。算法塑形只能忠实地把骨架图转化为三维姿态而骨架图本身可能有比例问题且无法表达肢体宽度。RL训练的Gemini模型能够主动选择对哪些肢体施加窄化处理、在哪些位置增加额外折叠由视觉语言模型的审美评分作为奖励信号驱动模型发现让折纸看起来更像真实生物的参数组合从而超越纯算法方案的表现。