MegaTTS 3 – 字节与浙江大学合作推出的零样本语音合成系统
MegaTTS 3是什么 MegaTTS 3是字节跳动与浙江大学合作推出的零样本文本到语音合成系统,采用轻量级扩散模型,参数量仅0.45B,能高效生成高质量语音。系统将语...
Move AI – AI动作捕捉工具,支持普通2D视频转为3D运动数据
Move AI是什么 Move AI 是AI动作捕捉工具,专注于无标记动作捕捉技术,基于AI技术和计算机视觉技术,将普通摄像头(如手机)拍摄的2D视频转换为高质量的3D运...
OmniSQL – 开源文本到 SQL 模型,自然语言转换为 SQL 查询语句
OmniSQL是什么 OmniSQL 是开源的文本到 SQL 模型,将自然语言问题高效转换为 SQL 查询语句。通过创新的数据合成框架生成了首个百万量级的文本到 SQL 数据集 S...
Vibe Draw – AI 3D建模工具,涂鸦草图一键转为3D模型
Vibe Draw是什么 Vibe Draw是开源的 AI 3D建模工具,支持将用户在2D画布上绘制的涂鸦草图转化为精美的3D模型。用户能用文本提示或继续绘制迭代优化模型,一键...
EmotiVoice – 网易有道开源的AI语音合成系统
EmotiVoice是什么 EmotiVoice是网易有道开源的多语言、多声音和提示控制的文本到语音(TTS)系统。EmotiVoice支持英语和中文,提供超过2000种声音,支持基于...
PhysGen3D – 清华等高校联合推出的单图创建交互式 3D 场景
PhysGen3D是什么 PhysGen3D 是创新的框架,能将单张图像转换为交互式的 3D 场景,生成具有物理真实感的视频。结合了基于图像的几何和语义理解以及基于物理的...
ObjectMover – 港大联合 Adobe 推出的新型图像编辑模型
ObjectMover是什么 ObjectMover 是香港大学和 Adobe Research 联合提出的新型图像编辑模型,解决图像中物体移动、插入和移除时出现的光照、阴影不协调以及物...
Vidu Q1 – 生数科技推出的高可控视频大模型
Vidu Q1是什么 Vidu Q1 是清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军教授团队推出的高可控视频大模型。支持生成1080p高清视频,画质细腻...
RoboOS – 智源研究院推出的首个跨本体具身大小脑协作框架
RoboOS是什么 RoboOS是智源研究院推出的首个跨本体具身大小脑协作框架。基于“大脑-小脑”分层架构,具身大脑RoboBrain负责全局感知与决策,小脑技能库负责低延...
RoboBrain – 智源研究院开源的具身大脑模型
RoboBrain是什么 RoboBrain是智源研究院推出的开源具身大脑模型,推动单机智能迈向群体智能。由三个模块组成:用于任务规划的基座模型、用于可操作区域感知的...
