
【导语2026年2月Anthropic的安全负责人辞职并发出警告同时五角大楼要求解除王牌模型Claude的核心安全限制遭拒。这家以AI安全为使命的公司在理想与现实间面临诸多挑战其发展路径引人关注。】兄妹出走从OpenAI分歧中诞生Anthropic2021年前OpenAI高管达里奥·阿莫迪和妹妹丹妮拉因对AI失控的恐惧带领七名同事出走创立Anthropic。此前在OpenAI达里奥主导了GPT - 2和GPT - 3的开发但在GPT - 3开发期间他与奥特曼出现路线分歧。达里奥认为要“放慢更新速度以防止恶意使用”发布前需漫长安全评估而奥特曼主张快速迭代、尽快商业化。这种对技术应用的根本性判断差异导致达里奥于2020年12月离职随后Anthropic成立。宪法式AI“安全第一”的反共识之路与OpenAI“性能优先安全迭代”的行业主流模式不同Anthropic坚持“安全第一功能殿后”。其开发了“Constitutional AI”宪法式人工智能方法论给AI制定“宪法”让AI对照“无害Harmless、诚实Honest、有帮助Helpful”的“3H框架”自我审查。此前行业普遍采用的“人类反馈强化学习”RLHF存在缺陷标注员价值观难以统一过程像黑盒。而宪法式AI旨在解决这个黑盒问题培养“拥有原则的智能体”。企业级市场“安全”带来商业竞争力虽然Claude的月活跃用户数量远不及ChatGPT但Anthropic在企业级市场表现出色。创立仅四年其近80%的收入来自企业客户《财富》全球500强前十中有八家是Claude的付费用户。在2025年硅谷的“幻觉率”测试中Claude 3.5 Sonnet仅为3.9%显著优于行业基准GPT - 4的5.8%。亚马逊和谷歌分别投入40亿和30亿美元将Claude深度集成并优先部署在各自云服务平台上。此外Claude Code上线不到一年年收入就达25亿美元。安全防线坚守原则面临的挑战2026年2月Anthropic的安全负责人Sharma辞职并留下警告同时官网“安全承诺”被修改为“风险报告”旧版赋予安全团队“冻结”高风险模型发布的权力新版更为“灵活”这可能意味着其安全原则防线出现松动。此外Anthropic还面临着“AI宪法”核心原则由谁定义、“过度安全”是否有误挡有益请求等深层困境。编辑观点Anthropic坚持AI安全优先的理念难能可贵在企业级市场也收获了成功。但在商业利益面前其安全防线出现的动摇值得关注。未来AI安全的平衡之路充满挑战Anthropic的走向将为行业提供重要参考。