OneCAT – 美团联合上交大推出的统一多模态模型

AI工具7天前发布
6 0

OneCAT是什么

OneCAT是美团推出的新型统一多模态模型,采用纯解码器架构,能无缝集成多模态理解、文本到图像生成和图像编辑功能。模型摒弃了传统多模态模型中依赖外部视觉编码器和分词器的设计,通过特定模态的专家混合(MoE)结构和多尺度自回归机制,实现了高效的多模态处理。在处理高分辨率图像输入和输出时表现出色。通过创新的尺度感知适配器和多模态多功能注意力机制,进一步增强了视觉生成能力和跨模态对齐能力。

OneCAT – 美团联合上交大推出的统一多模态模型

OneCAT的主要功能

  • 多模态理解:能高效处理图像和文本的多模态理解任务,无需外部视觉编码器或分词器,直接在纯解码器架构中实现对图文内容的深度理解。

© 版权声明

相关文章