AI工具 | 第 41 页

VTP – MiniMax视频团队开源的视觉生成模型预训练框架

VTP是什么 VTP（Visual Tokenizer Pre-training）是MiniMax视频团队开源的视觉生成模型预训练框架。框架聚焦优化视觉tokenizer，通过融合对比学习、自监督学...

AI工具

8个月前

Laper是什么 Laper 是 AI 剧本创作工具，能为编剧提供精细化的创作平台。Laper支持多种剧本类型，如电影长片、短片和短视频故事，具备好莱坞标准格式的智能补...

AI工具

8个月前

TRELLIS.2是什么 TRELLIS.2是微软开源的40亿参数3D生成模型，专为从单张图片高效生成高保真3D资产设计。核心创新在于采用O-Voxel稀疏体素架构，能处理复杂拓...

AI工具

8个月前

SHARP是什么 SHARP 是苹果开源的 AI 模型，能在不到 1 秒内将单张 2D 照片转换为逼真的 3D 场景。模型通过 3D 高斯表示技术，用神经网络单次前馈传递，快速预...

AI工具

8个月前

Seed1.8是什么 Seed1.8 是字节跳动推出的通用 Agent 大模型，具备强大的多模态能力，支持图文输入。模型集搜索、代码生成与 GUI 交互能力于一体，可在复杂工...

AI工具

8个月前

Gemini 3 Flash是什么 Gemini 3 Flash 是谷歌推出的高速、低成本的前沿智能模型。模型基于 Gemini 3 开发，性能显著提升，具备强大的推理能力和多模态理解能...

AI工具

8个月前

SAM Audio是什么 SAM Audio是Meta开源的音频分割模型，能通过文本、视觉和时间片段等多模态提示，从复杂的音频混合中分离出特定的声音。核心技术是Perception...

AI工具

8个月前

Step-GUI是什么 Step-GUI 是阶跃星辰推出的AI Agent系列模型，包含云侧模型 Step-GUI 和端侧模型 Step-GUI Edge（原名：Gelab-Zero）。云侧模型擅长复杂任务...

AI工具

8个月前

混元世界模型1.5是什么腾讯混元世界模型1.5（HY WorldPlay 1.5）是腾讯混元团队开源的实时交互式世界生成模型。用户只需输入文字或图片，模型能快速创建专属...

AI工具

8个月前

A2UI是什么 A2UI（Agent-to-User Interface）是谷歌开源的基于Agent的接口协议，用于AI与用户界面之间的交互。A2UI通过AI生成的JSON描述，让客户端原生渲染交...

AI工具

8个月前