lingbot-VA – 蚂蚁灵波科技开源的视频-动作世界模型

AI工具6个月前发布

86 0 0

lingbot-VA 是什么

LingBot-VA 是蚂蚁灵波科技开源的全球首个面向通用机器人控制的因果视频-动作世界模型。模型将视频世界建模与策略学习统一为自回归框架，使机器人能同时预测未来状态，执行精确闭环控制。模型仅需30-50次真实演示即可学习新技能，在长程任务、数据高效后训练和泛化能力上显著优于主流基准模型。

lingbot-VA – 蚂蚁灵波科技开源的视频-动作世界模型

lingbot-VA 的主要功能

统一视频-动作建模：将视觉动态预测与动作执行整合到单一框架，实现”边想象、边行动”的闭环控制。
长程任务执行：模型擅长处理需要多步骤规划的复杂任务（如准备早餐、拆包裹），具备长期记忆能力，不会被循环状态迷惑。
高效后训练：仅需30-50次真实演示即可学习新技能，成功率比基准模型（如π₀.₅）高约20%。
跨场景泛化：模型支持精细操作（插入试管、拾取螺丝）、柔性物体操作（折叠衣物）及铰接物体控制（打开抽屉）。

lingbot-VA 的技术原理

自回归扩散架构：LingBot-VA 采用自回归扩散框架，将视觉动态预测与动作推理统一到单一交错序列中，使机器人能同时推理未来状态、执行精确的闭环控制，实现视频生成与动作决策的深度融合。
三阶段处理框架：框架分为三个阶段：自回归视频生成模块根据当前观测和语言指令预测未来帧；逆向动力学模型（IDM）从预测视频中解码出具体动作；在执行动作后，用真实观测替换视频 KV-cache，将模型锚定在实际结果上，形成闭环控制。
逆向动力学模型：IDM 能从预测视频中准确解码动作，在不同环境和不同机器人本体之间展现出良好的泛化能力，是连接”想象”与”执行”的关键桥梁。
真实数据预训练：模型在大规模机器人视频-动作数据集上进行预训练，学习丰富的视觉动态特性，为理解物理世界的演变在其中运作奠定坚实基础。

lingbot-VA 的项目地址

项目官网：https://technology.robbyant.com/lingbot-va
GitHub仓库：https://github.com/Robbyant/lingbot-va
HuggingFace模型库：https://huggingface.co/collections/robbyant/lingbot-va
技术论文：https://github.com/Robbyant/lingbot-va/blob/main/LingBot_VA_paper.pdf

# AI工具 # [db:标签]

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

工信部：推动传统玩具文具和智能技术的深度融合，加强养老服务机器人研发

55 0

AutoMV – M-A-P联合北邮等开源的AI音乐视频生成系统

98 0

不再僵硬：机器人靠看视频学会超逼真嘴部动作

99 0

Memories.ai – AI视频分析工具，智能分析新旧视觉信息

104 0

InstanceAssemble – 小红书联合复旦推出的图像生成框架

107 0

AMD CEO 苏姿丰：我不担心 AI 泡沫，投资不足比投资过多更危险

63 0

AI工具集平台！汇聚超2000+免费AI工具，涵盖AI写作、AI编程、AI绘画、AI论文、AI视频、AI生图、AI办公、AI学习、AI生成、agent等全场景工具。每日更新热门 AI工具，助您快速找到提升办公、创作、学习效率的实用工具！

按下Ctrl+D或⌘+D 感谢收藏 ai-gjj.com

友链申请免责声明广告合作关于我们站点地图提交AI工具

Copyright © 2026 AI工具集桂ICP备2025062026号