dots.vlm1 – 小红书hi lab开源的首个多模态大模型

AI工具4周前发布
18 0

dots.vlm1是什么

dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于一个从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模型(LLM),具备强大的视觉感知和文本推理能力。模型在视觉理解和推理任务上表现出色,接近闭源 SOTA 模型水平,在文本任务上也保持了竞争力。dots.vlm1 的视觉编码器 NaViT 完全从零开始训练,原生支持动态分辨率,在文本监督基础上增加了纯视觉监督,提升了感知能力。训练数据引入了多种合成数据思路,覆盖多样的图片类型及其描述,显著提升了数据质量。

dots.vlm1 – 小红书hi lab开源的首个多模态大模型

dots.vlm1的主要功能

  • 强大的视觉理解能力:能准确识别和理解图像中的内容,包括复杂图表、表格、文档、图形等,支持动态分辨率,适用于多种视觉任务。

© 版权声明

相关文章