MOVA是什么
MOVA(MOSS Video and Audio)是上海创智学院OpenMOSS团队与模思智能(MOSI)联合推出的,中国首个高性能开源音视频端到端生成模型。模型突破传统视频”静音”局限,采用异构双塔架构与双向桥接模块,实现原生跨模态交互。模型拥有320亿参数(MoE架构,推理激活180亿),可同步生成长达8秒、720p分辨率的视频与配套音频,在电影级口型同步、环境音效契合度上表现卓越。
MOVA的主要功能
- 端到端音视频生成:模型能一次性同步输出视频与配套音频,告别”哑巴视频”。
© 版权声明
文章版权归作者所有,未经允许请勿转载。

