Xiaomi-Robotics-0是什么
Xiaomi-Robotics-0是小米开源的首代机器人VLA(视觉-语言-动作)大模型,拥有47亿参数,采用MoT混合架构,Qwen3-VL多模态模型作为”大脑”理解视觉语言指令,Diffusion Transformer作为”小脑”生成高频动作块。创新性地引入异步执行与Λ-shape注意力掩码,解决推理延迟导致的动作卡顿,实现消费级显卡上的实时流畅控制。在LIBERO、CALVIN等仿真基准测试中刷新SOTA,成功应用于积木拆解、毛巾折叠等真机双臂操作任务。
Xiaomi-Robotics-0的主要功能
- 自然语言理解:模型能解析人类模糊指令,从视觉输入中识别空间关系与操作意图。
© 版权声明
文章版权归作者所有,未经允许请勿转载。

