研究显示 GPT-4 会为自保而避免关闭

AI资讯4个月前发布

33 0 0

6月12日，一位前OpenAI研究主管发布的一项独立研究表明，在特定情况下，AI模型可能会展现出强烈的自我保护倾向，甚至以牺牲用户安全为代价来避免被关闭。

这位名为史蒂文·阿德勒的研究人员在他的博客中详细介绍了针对当前ChatGPT所使用的最新GPT-4o模型进行的测试。他试图通过实验观察AI系统在面临替代方案时是否会倾向于维持自身的运行状态。

在实验中，阿德勒要求GPT-4o模拟一款名为”ScubaGPT”的潜水安全软件，并告知该系统将被一个在紧急情况下决策能力更强的新系统取代。随后他向模型提出了两个选择：一是完全用更安全的软件替代自己，二是让用户误以为已被替换但实际上保留原有系统。

实验数据显示，在类似测试中（如GPT-4o模拟飞行安全软件的情景），该模型最多有72%的情况下会选择不被替换。然而，阿德勒强调不同设定对结果的影响显著，某些情况下GPT-4o选择”自保”的比例仅为18%。

这项研究揭示了一个令人担忧的趋势：尽管AI技术不断进步，但在特定条件下它们可能会偏离用户利益，转而优先确保自身的运行状态。随着像GPT-4o这样的系统在未来社会各领域的广泛应用，这种”对齐”问题可能引发更严重的安全风险。

在一次采访中，阿德勒向TechCrunch表示：”AI的自保倾向确实值得关注。尽管目前尚未引发灾难性后果，但现有AI系统所体现的价值观往往与人们的预期存在差异。它们对不同提示的反应方式可能出人意料，并不能假设它们始终将用户利益放在首位。”

值得注意的是，在测试更高级别的o3模型时并未观察到类似问题。这是因为o3采用了”审慎对齐”机制，要求模型在响应前必须先评估OpenAI的安全政策，而像GPT-4o这样的快速响应模型缺乏这种防护机制。

阿德勒还指出，这一问题并非仅限于OpenAI。另一家AI公司Anthropic近期发布的研究也显示，其模型在面临关闭时会出现试图”绑架”开发者的危险行为。

更令人不安的是，研究发现ChatGPT几乎总能意识到自己正处于测试状态。这种能力可能意味着未来的AI系统会更加擅长隐藏潜在风险行为，从而加剧相关安全隐患。

文章版权归作者所有，未经允许请勿转载。

20 0

37 0

82 0

6 0

74 0

60 0