MM-StoryAgent – 上海交大联合阿里开源的多智能体故事绘本视频生成框架
MM-StoryAgent是什么 MM-StoryAgent 是上海交通大学X-LANCE实验室和阿里巴巴集团联合推出的开源多模态、多智能体框架,用在生成沉浸式的有声故事绘本视频。基...
BEHAVIOR Robot Suite – 李飞飞团队开源的机器人家庭任务自动化框架
BEHAVIOR Robot Suite是什么 BEHAVIOR Robot Suite(BRS)是斯坦福大学李飞飞团队推出的用在学习全身操作完成日常家务任务的框架。基于分析家务活动,确定机...
PP-DocBee – 百度飞桨推出的文档图像理解多模态大模型
PP-DocBee是什么 PP-DocBee是百度飞桨(PaddlePaddle)团队推出的专注于文档图像理解的多模态大模型。基于ViT+MLP+LLM架构,具备强大的中文文档解析能力,能...
Seedream 2.0 – 字节豆包推出的原生中英双语图像生成模型
Seedream 2.0是什么 Seedream 2.0 是字节跳动豆包大模型团队推出的原生中英双语图像生成模型,解决现有模型在文本渲染、文化理解等方面的不足。模型通过自研...
VACE – 阿里通义推出的视频生成与编辑框架
VACE是什么 VACE(Video Creation and Editing)是阿里巴巴通义实验室推出的一站式视频生成与编辑框架。基于整合多种视频任务(如参考视频生成、视频到视频编...
GaussianAnything – 南洋理工 S-Lab 和上海 AI Lab 等推出的 3D 生成框架
GaussianAnything是什么 GaussianAnything 是南洋理工大学 S-Lab 联合上海 AI Lab 等机构推出的 3D 生成框架。GaussianAnything 基于交互式的点云结构化潜空...
MHA2MLA – 复旦、上海AI Lab等推出优化LLM推理效率的方法
MHA2MLA是什么 MHA2MLA是复旦大学、华东师范大学、上海AI Lab等机构联合推出的数据高效的微调方法,基于引入DeepSeek的多头潜在注意力机制(MLA),优化任何...
MV-MATH – 中科院推出的基准数据集,评估模型处理多视觉信息的数学推理能力
MV-MATH是什么 MV-MATH 是中科院自动化所提出的新基准数据集,评估多模态大语言模型(MLLMs)在多视觉场景中的数学推理能力。数据集包含2009个高质量的数学问...
Responses API – OpenAI 推出的构建 AI Agents 的核心服务
Responses API是什么 Responses API 是 OpenAI 推出的用在构建 AI Agents 的核心接口,Responses API是 Chat Completions API 的升级版,结合 Assistants API...
绘蛙·多图成片 – 阿里绘蛙推出的 AI 图生视频工具
绘蛙·多图成片是什么 绘蛙·多图成片是阿里绘蛙推出的AI视频生成工具,基于上传2-4张具有连贯性的图片,结合文字描述,快速生成一段流畅的视频。用户选择本地...
