VideoLLaMB – 开源的多模态长视频理解框架

VideoLLaMB VideoLLaMB 是一种创新的长视频理解框架,通过引入记忆桥接层和递归记忆令牌来处理视频数据,确保在分析时不丢失关键视觉信息。模型特别设计用于...

蓝心大模型 – vivo推出的全新自研通用大模型矩阵,30亿端侧大模型

蓝心大模型是什么 蓝心大模型是vivo发布的全新自研通用大模型矩阵,包括语言大模型、端侧大模型、语音大模型、图像大模型以及多模态大模型。在多个领域和场景...

MinusX – 开源的AI数据分析助手,以聊天的方式执行数据分析

MinusX是什么 MinusX是一款创新的 AI 数据科学家工具,专为数据分析应用程序如Jupyter和Metabase设计。通过自然语言处理技术,支持用户以聊天的形式提出问题...

Deepfake Defenders – 中科院开发的识别Deepfake伪造内容的AI模型

Deepfake Defenders是什么 Deepfake Defenders是由中国科学院自动化研究所的团队VisionRush开发的一款开源AI模型,旨在识别和防御Deepfake技术生成的伪造图像...

LinFusion – 新加坡国立推出图像生成模型,单GPU一分钟生成16K图像

LinFusion是什么 LinFusion 是新加坡国立大学研究团队开发的一种创新图像生成模型,基于线性注意力机制来处理高分辨率图像生成任务。使模型在处理大量像素时...

RegionDrag – 港大和牛津联合开发的基于区域的图像编辑技术

RegionDrag是什么 RegionDrag是由香港大学和牛津大学联合开发的一种基于区域的图像编辑技术。基于扩散模型,让用户定义手柄区域和目标区域来表达编辑意图,实...

LightEval – Hugging Face推出的轻量级AI大模型评估工具

LightEval是什么 LightEval是Hugging Face推出的一款轻量级AI评估工具,专门用于评估大型语言模型(LLMs)。LightEval支持多任务处理和复杂模型配置,能在多...

FluxMusic – 开源的AI音乐生成模型,通过文本描述创造音乐

FluxMusic是什么 FluxMusic 是一个开源的音乐生成模型,基于扩散模型和 Transformer 架构将文本描述转换成音乐。模型能处理复杂的文本指令,生成具有特定情感...

ViewCrafter – 北大、港中文联合腾讯提出的高保真新视图合成技术

ViewCrafter是什么 ViewCrafter 是北大和港中文联合腾讯提出的一种先进的视频扩散模型,能从单个或少量图像中合成高保真的新视图。结合了视频扩散模型的生成...

MLE-Agent – 工程师的AI智能助手,自动创建基线模型

MLE-Agent是什么 MLE-Agent 是一款专为机器学习工程师和研究人员设计的智能助手,通过自动化基线创建、集成最新研究资源、智能调试、文件系统和工具集成,以...
1 422 423 424 425 426 469