LongCat-Flash-Omni – 美团开源的实时交互全模态大模型

AI工具15小时前发布
2 0

LongCat-Flash-Omni是什么

LongCat-Flash-Omni 是美团 LongCat 团队开源的全模态大语言模型,基于 LongCat-Flash 系列高效架构设计,创新性地集成多模态感知和语音重建模块,拥有 5600 亿总参数(激活参数 270 亿),实现低延迟的实时音视频交互能力。模型采用渐进式多模态融合训练策略,具备强大的文本、图像、音频、视频理解及生成能力,在全模态基准测试中达到开源最先进水平(SOTA)。模型为开发者提供高效的技术选择,推动多模态应用场景的发展。

LongCat-Flash-Omni – 美团开源的实时交互全模态大模型

LongCat-Flash-Omni的主要功能

  • 多模态交互:支持文本、语音、图像和视频的多模态输入与输出,实现跨模态理解和生成,满足多样化交互需求。

© 版权声明

相关文章