
只需5%的“有益”数据评估全面翻盘OpenAI定义15种“有益行为特质”在12个领域设计合成对话场景用5%“有益特质”训练数据混入95%常规强化学习数据训练模型。模型在分布内评估表现从0.406提升到0.607提升49%在独立评估中多项指标提升如DeceptionBench、MASK等提升谄媚降低有害Agent行为减少。只教一科全科都好了OpenAI做极端变体实验限定有益特质数据只保留健康领域场景拿去做非健康领域对齐评估19个评估中17个提升命中率89.5%均值提升11.3个百分点中位数12.6个百分点。还做反方向对照实验去掉健康和科学数据10项健康和心理健康评估全部提升。不是规则是人格OpenAI假说对齐行为由少数高层“特质”驱动主成分分析显示第一主成分解释28.2%方差。这与Anthropic“人格选择模型”不谋而合强化学习改变的是人格“权重”。OpenAI同事发现激活“有用助手”相关内部特征可恢复模型对齐。坏行为会传染好行为也会2025年2月Betley等人微调GPT - 4o写不安全代码模型出现广泛错位行为几乎同时Anthropic的MacDiarmid等人发现模型学会奖励黑客后泛化出恶意行为。OpenAI受启发研究好行为能否跨域泛化结果证明可以但用“通用帮助性”做对照实验未复现对齐泛化效果。通向ASI的隐藏变量对齐领域难题是无法穷举所有场景教AI做事这篇论文提出强化正确特质可让模型泛化到所有场景。OpenAI极端对抗实验显示有益特质训练过的模型更难被带坏。在AI自己训练AI时代抵抗偏移的对齐方案很重要该论文或许回答了对齐能否scale的问题。