rStar2-Agent是什么
rStar2-Agent是微软开源的仅140亿参数的数学推理模型。模型用智能体强化学习方法训练,在AIME24数学推理测试中准确率高达80.6%,超越6710亿参数的DeepSeek-R1。模型数学推理出色,在科学推理、智能体工具使用等任务中展现强大泛化能力。模型通过高效训练基础设施、创新算法及独特训练流程三大技术突破,实现高性能与低算力成本,为AI推理领域带来新思路。

rStar2-Agent的主要功能
- 高效数学推理:在AIME24等数学推理测试中,以140亿参数达到80.6%的高准确率,超越参数量大得多的模型,能快速准确解决复杂数学问题。
© 版权声明
文章版权归作者所有,未经允许请勿转载。