TTT-Discover – 斯坦福、英伟达推出的测试时强化学习方法

AI工具2周前发布
2 0

TTT-Discover是什么

TTT-Discover(Test-Time Training to Discover)是斯坦福、英伟达等机构推出的AI科学发现方法。TTT-Discover在测试阶段对模型进行强化学习训练,非冻结权重仅做搜索。通过熵目标函数优化最大奖励,结合PUCT启发的状态重用机制,让模型从具体问题的尝试中实时学习。TTT-Discover基于开源模型gpt-oss-120b,在数学、GPU内核工程、算法竞赛和生物信息学等领域达到SOTA,单问题成本仅数百美元。

TTT-Discover – 斯坦福、英伟达推出的测试时强化学习方法

TTT-Discover的主要功能

  • 测试时持续学习:在解决具体问题时动态更新模型权重,使AI从失败尝试中实时积累经验,实现定向进化。

© 版权声明

相关文章