Manzano – 苹果推出的图像理解和生成模型

AI工具2周前发布
9 0

Manzano是什么

Manzano是苹果公司推出的新型多模态大语言模型(LLM),能同时实现图像理解和图像生成的统一。模型通过混合视觉分词器(hybrid vision tokenizer)将图像转化为连续的嵌入向量用于理解任务,及离散的图像标记用在生成任务。Manzano的核心是自回归的LLM解码器,能预测文本和图像标记。Manzano配备一个扩散解码器(diffusion decoder),用在将生成的图像标记转化为像素级别的图像。使Manzano在理解任务和生成任务上都表现出色,同时在模型规模扩大时,性能会相应提升。

Manzano – 苹果推出的图像理解和生成模型

Manzano的主要功能

  • 图像理解:模型能理解图像内容,回答与图像相关的问题。

© 版权声明

相关文章