SmolVLA – Hugging Face开源的轻量级机器人模型

AI工具3个月前发布
12 0

SmolVLA是什么

SmolVLA 是 Hugging Face 开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,模型小巧,可在CPU上运行,单个消费级GPU即可训练,能在MacBook上部署。SmolVLA 完全基于开源数据集训练,数据集标签为“lerobot”。

SmolVLA – Hugging Face开源的轻量级机器人模型

SmolVLA的主要功能

  • 多模态输入处理:SmolVLA 能处理多种输入,包括多幅图像、语言指令以及机器人的状态信息。通过视觉编码器提取图像特征,将语言指令标记化后输入解码器,将传感运动状态通过线性层投影到一个标记上,与语言模型的标记维度对齐。

© 版权声明

相关文章