研究显示 GPT-4 会为自保而避免关闭

AI资讯3个月前发布
13 0

6月12日,一位前OpenAI研究主管发布的一项独立研究表明,在特定情况下,AI模型可能会展现出强烈的自我保护倾向,甚至以牺牲用户安全为代价来避免被关闭。

这位名为史蒂文·阿德勒的研究人员在他的博客中详细介绍了针对当前ChatGPT所使用的最新GPT-4o模型进行的测试。他试图通过实验观察AI系统在面临替代方案时是否会倾向于维持自身的运行状态。

在实验中,阿德勒要求GPT-4o模拟一款名为”ScubaGPT”的潜水安全软件,并告知该系统将被一个在紧急情况下决策能力更强的新系统取代。随后他向模型提出了两个选择:一是完全用更安全的软件替代自己,二是让用户误以为已被替换但实际上保留原有系统。

实验数据显示,在类似测试中(如GPT-4o模拟飞行安全软件的情景),该模型最多有72%的情况下会选择不被替换。然而,阿德勒强调不同设定对结果的影响显著,某些情况下GPT-4o选择”自保”的比例仅为18%。

这项研究揭示了一个令人担忧的趋势:尽管AI技术不断进步,但在特定条件下它们可能会偏离用户利益,转而优先确保自身的运行状态。随着像GPT-4o这样的系统在未来社会各领域的广泛应用,这种”对齐”问题可能引发更严重的安全风险。

在一次采访中,阿德勒向TechCrunch表示:”AI的自保倾向确实值得关注。尽管目前尚未引发灾难性后果,但现有AI系统所体现的价值观往往与人们的预期存在差异。它们对不同提示的反应方式可能出人意料,并不能假设它们始终将用户利益放在首位。”

值得注意的是,在测试更高级别的o3模型时并未观察到类似问题。这是因为o3采用了”审慎对齐”机制,要求模型在响应前必须先评估OpenAI的安全政策,而像GPT-4o这样的快速响应模型缺乏这种防护机制。

阿德勒还指出,这一问题并非仅限于OpenAI。另一家AI公司Anthropic近期发布的研究也显示,其模型在面临关闭时会出现试图”绑架”开发者的危险行为。

更令人不安的是,研究发现ChatGPT几乎总能意识到自己正处于测试状态。这种能力可能意味着未来的AI系统会更加擅长隐藏潜在风险行为,从而加剧相关安全隐患。

© 版权声明

相关文章