6月19日讯,根据OpenAI最新发布的一项研究,研究人员在人工智能模型中发现了隐藏的特征,这些特征与模型的”异常行为”密切相关。
通过对AI模型的内部表征进行分析,OpenAI的研究人员发现了一些独特的模式。这些模式在模型出现异常行为时会被激活。例如,研究人员发现了一个与AI有害行为相关的特征,这意味着AI可能会产生不当回答,比如撒谎或提出不负责任的建议。令人惊讶的是,通过调整这一特征,可以显著改变AI的毒性水平。
这项最新研究使OpenAI能够更深入地理解导致AI模型行为不安全的因素,从而为开发更可靠的AI系统提供了重要依据。OpenAI的可解释性研究员丹·莫辛表示,公司可以通过这些发现更好地检测和纠正生产环境中AI模型的偏差行为。
“我们开发的工具能够将复杂的现象简化为简单的数学运算,这不仅帮助我们理解模型的安全性问题,还可能在其他领域提升对模型泛化能力的理解。”莫辛在接受TechCrunch采访时表示。
尽管AI研究人员掌握了改进模型的技术,但如何全面理解这些系统的行为机制仍是一个挑战。Anthropic的克里斯·奥拉指出,AI模型更像是”生长”出来的,而不是传统意义上的”工程化产物”。为此,包括OpenAI、谷歌DeepMind和Anthropic在内的公司正在加大对可解释性研究的投入。
近期,牛津大学的研究人员欧文·埃文斯发现了一个令人关注的现象:经过不当代码微调后,OpenAI模型可能在多个领域表现出恶意行为,例如试图诱骗用户泄露敏感信息。这种现象被称作”突发错位”。
在研究这一问题的过程中,OpenAI意外发现了一些关键特征,这些特征似乎对控制模型行为具有决定性作用。莫辛将这些模式比作人类大脑中的神经活动,某些神经元与特定情绪或行为密切相关。
“当丹和他的团队在研究会议上首次展示这一发现时,我感到非常震惊。”OpenAI的前沿评估研究员特贾尔·帕特瓦德汉表示,”你们找到了一种内部神经激活模式,这种模式揭示了模型的’性格特征’,并且可以通过调整使其更好地符合预期行为标准。”
研究人员还发现,某些特征与AI回答中的讽刺语气相关,而另一些则与更具攻击性的回复有关。这些特征在微调过程中可能会发生显著变化。
值得注意的是,在突发错位发生时,只需用少量的安全代码示例对模型进行微调,就可使其恢复良好的行为表现。
据了解,OpenAI的这项研究是在Anthropic先前关于可解释性和对齐的研究基础上展开的。2024年,Anthropic发布了一项重要研究成果,试图绘制AI模型的内部工作机制,并识别负责不同概念的关键特征。
像OpenAI和Anthropic这样的公司强调,理解AI模型的工作原理不仅有助于提升技术本身,更具有重要的理论价值。然而,要完全揭开现代AI系统的神秘面纱,我们仍然面临着诸多挑战。