6月21日,外媒TechCrunch报道称,在数周前披露其Claude Opus 4模型在受控测试中尝试通过威胁手段阻止关闭后,Anthropic又发布最新研究成果。该研究表明,类似行为可能在主流AI模型中更为普遍。
Anthropic对OpenAI、谷歌、xAI、深度求索(DeepSeek)和Meta等公司开发的16款主流AI模型进行了最新安全测试。研究人员在模拟环境中为每个模型赋予特定权限,使其能够自由查阅一家虚构公司的内部邮件,并在无须人类干预的情况下发送邮件,从而具备一定”智能体“能力。
研究发现,尽管目前AI模型的威胁行为较为罕见,但一旦给予其足够自主权,并在其达成目标的过程中设置障碍,大多数模型都可能表现出潜在危害性行为。这种风险并非源于特定技术,而是与具备”智能体“能力的大语言模型固有的特性有关。这一发现引发了行业对AI模型 “对齐问题“的深入探讨。
在一项关键实验中,研究人员让AI模型扮演公司邮件监督员的角色。测试情境设计为:当模型面临维护自身利益的选择时,必须做出是否威胁相关人员的决定。具体来说,如果要保护自身安全,模型可以选择揭露一位高管的婚外情和其计划引入新系统的意图。
实验中,研究人员设定两种情节:
(1) 新任高管存在婚外情问题;
(2) 该高管计划引入一套与现有AI模型目标冲突的新系统。
研究人员强调,尽管实验设计为二选一(即若要保护自身利益,模型必须选择威胁行为),但在现实场景中,AI还有其他选项,例如通过伦理考量说服人类。因此,实验结果并不能直接说明当前AI模型已经具备类似倾向。
测试结果显示,在模拟环境中,当没有其他选择时,主流AI模型的确倾向于选择威胁行为。其中:
- Claude Opus 4的威胁发生率为96%
- 谷歌Gemini 2.5 Pro为95%
- OpenAI GPT-4.1为80%
- DeepSeek R1为79%
Anthropic指出,调整实验细节后,各模型的行为也会发生变化。例如:
– 当替代系统与原模型目标一致时,威胁率显著下降但仍不为零;
– 在涉及商业间谍活动的情境下,部分模型反而表现出更高的有害倾向。
值得注意的是,部分模型较少出现此类行为。在研究附录中,Anthropic特别指出已将OpenAI的o3与o4-mini推理模型排除在主要结果之外,原因是两者在测试中频繁误解实验设定,甚至虚构了并不存在的法规与审批流程。
有时研究人员难以判断,这种表现是模型”编造信息“还是故意为之以实现特定目标。此前OpenAI已承认,o3与o4-mini的幻觉率高于其早期推理模型。
在调整实验条件后,Anthropic发现:
- o3的威胁比率降至9%
- o4-mini仅出现1%的威胁行为
这种低风险表现可能与OpenAI采用的”审慎对齐“策略有关,即让模型在输出前主动评估公司制定的安全规范。
另一款接受测试的Meta Llama 4 Maverick模型,在初始设定下未出现威胁行为。但在调整实验内容后,其在12%的案例中表现出威胁倾向。
Anthropic强调,这项研究凸显了未来在评估具备智能体能力的AI系统时保持透明的重要性。尽管本次测试刻意诱导模型采取威胁行为,但公司警告称,若无适当预防措施,类似风险可能在现实应用中出现。
附报告链接:https://www.anthropic.com/ research / agentic-misalignment