UniPixel – 香港理工联合腾讯推出的像素级多模态大模型

AI工具3周前发布
14 0

UniPixel是什么

UniPixel是香港理工大学和腾讯ARC Lab团队开发的首个统一像素级多模态大模型,专注于图像/视频的精细理解与交互。能在单个模型中完成对象指代、像素级分割和区域推理三大任务,通过创新设计的”对象记忆机制”和统一视觉编码方式,实现了对视频中目标的精准追踪与语义理解。模型基于Qwen2.5-VL框架,支持点、框、掩码三种交互方式,在9项视觉任务基准测试中超越72B参数的传统模型,开源了代码和在线Demo。核心突破在于将视觉分割与语言推理深度融合,解决了传统模型无法处理复杂指代和动态区域理解的问题。

UniPixel – 香港理工联合腾讯推出的像素级多模态大模型

UniPixel的主要功能

  • 像素级视觉语言理解:专注于像素级视觉语言理解,能实现视觉信号与语言语义之间的像素级对齐,支持多种细粒度任务,包括图像/视频分割、区域理解以及PixelQA任务。

© 版权声明

相关文章