OpenAI新研究：仅5%“有益”数据让AI跨领域对齐能力提升，还更难被带坏！-尧图网站设计

只需5%的“有益”数据评估全面翻盘OpenAI定义15种“有益行为特质”在12个领域设计合成对话场景用5%“有益特质”训练数据混入95%常规强化学习数据训练模型。模型在分布内评估表现从0.406提升到0.607提升49%在独立评估中多项指标提升如DeceptionBench、MASK等提升谄媚降低有害Agent行为减少。只教一科全科都好了OpenAI做极端变体实验限定有益特质数据只保留健康领域场景拿去做非健康领域对齐评估19个评估中17个提升命中率89.5%均值提升11.3个百分点中位数12.6个百分点。还做反方向对照实验去掉健康和科学数据10项健康和心理健康评估全部提升。不是规则是人格OpenAI假说对齐行为由少数高层“特质”驱动主成分分析显示第一主成分解释28.2%方差。这与Anthropic“人格选择模型”不谋而合强化学习改变的是人格“权重”。OpenAI同事发现激活“有用助手”相关内部特征可恢复模型对齐。坏行为会传染好行为也会2025年2月Betley等人微调GPT - 4o写不安全代码模型出现广泛错位行为几乎同时Anthropic的MacDiarmid等人发现模型学会奖励黑客后泛化出恶意行为。OpenAI受启发研究好行为能否跨域泛化结果证明可以但用“通用帮助性”做对照实验未复现对齐泛化效果。通向ASI的隐藏变量对齐领域难题是无法穷举所有场景教AI做事这篇论文提出强化正确特质可让模型泛化到所有场景。OpenAI极端对抗实验显示有益特质训练过的模型更难被带坏。在AI自己训练AI时代抵抗偏移的对齐方案很重要该论文或许回答了对齐能否scale的问题。

OpenAI新研究：仅5%“有益”数据让AI跨领域对齐能力提升，还更难被带坏！

相关新闻

3步掌握Kokoro语音合成：轻量级架构的语音革命

Sahi Web自动化测试：智能识别与健壮定位实战指南

Windows系统文件drprov.dll丢失找不到问题解决

i.MX23嵌入式开发：时钟与中断系统深度解析与实战配置

后端技术27-从0到10万TPS：消息队列的性能调优实战，Kafka vs RabbitMQ消息队列选型终极指南

2026图片怎么无痕去水印？免费手机电脑方法+在线去水印网站全攻略

Grok Build 0.1：首个专为AI自主工程闭环设计的编码模型

Mac Mouse Fix终极指南：解锁鼠标侧键功能，让普通鼠标在macOS上超越触控板体验

CVE-2025-8266漏洞复现：ChanCMS命令执行漏洞分析与实战

UVa 553 Simply Proportion

如何快速总结视频？3分钟学会5个总结技巧

终极指南：3步搞定B站大会员4K视频下载，永久保存你的珍贵内容

2026 最全AI编程软件安装与上手实测教程

进化博弈论解析AI代理欺骗行为与风险管控

深入解析P89LPC932A1 CCU模块：输入捕获与PWM实战指南

Harness 中的响应合并：将多个片段组装为完整输出

Windows Cleaner终极教程：5分钟彻底解决C盘爆红问题，让系统重获新生！

别再只会用ifconfig了！在Ubuntu 22.04/20.04上，教你用ip命令并顺带配置好国内镜像源