Xiaomi-Robotics-0 – 小米开源的机器人VLA模型

AI工具1个月前发布
38 0

Xiaomi-Robotics-0是什么

Xiaomi-Robotics-0是小米开源的首代机器人VLA(视觉-语言-动作)大模型,拥有47亿参数,采用MoT混合架构,Qwen3-VL多模态模型作为”大脑”理解视觉语言指令,Diffusion Transformer作为”小脑”生成高频动作块。创新性地引入异步执行与Λ-shape注意力掩码,解决推理延迟导致的动作卡顿,实现消费级显卡上的实时流畅控制。在LIBERO、CALVIN等仿真基准测试中刷新SOTA,成功应用于积木拆解、毛巾折叠等真机双臂操作任务。

Xiaomi-Robotics-0 – 小米开源的机器人VLA模型

Xiaomi-Robotics-0的主要功能

  • 自然语言理解:模型能解析人类模糊指令,从视觉输入中识别空间关系与操作意图。

© 版权声明

相关文章