AI工具

SWE-agent – 普林斯顿开源的AI程序员智能体

SWE-agent是什么 SWE-agent是一个由普林斯顿大学NLP组研究人员开发的开源AI程序员和软件工程师系统,利用大型语言模型(如GPT-4)的能力,可以自动解决GitHub...

Voice Engine – OpenAI公布的AI语音合成和声音克隆模型

Voice Engine是什么 Voice Engine是OpenAI最新公布的一项AI语音合成和声音克隆技术,能够利用简短的15秒音频样本和文本输入,生成接近原声的自然听起来的语音...

Jamba – AI21开源的首个基于Mamba架构的大模型

Jamba是什么 Jamba是由AI21 Labs推出的首个基于Mamba架构的生产级别的大语言模型,目前大部分的大模型(如GPT、Gemini 和 Llama)都是基于 Transformer 结构...

Champ – 基于3D的人物图片转视频动画模型

Champ是什么 Champ是由阿里巴巴、复旦大学和南京大学的研究人员共同提出的一种基于3D的将人物图片转换为视频动画的模型,该方法结合了3D参数化模型(特别是SM...

VoiceCraft – 开源的语音编辑和文本转语音模型

VoiceCraft是什么 VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型,专注于零样本语音编辑和文本到语音(TTS)任务。该模型采...

StreamingT2V – PicsArt推出的可生成长达2分钟视频的模型

StreamingT2V是什么 StreamingT2V是由PicsArt AI研究团队推出的一个文本到视频的生成模型,旨在解决现有模型仅能生成16帧或24帧的高质量短视频,而当在生成长...

SUPIR – 高保真的AI图像修复和画质增强模型

SUPIR是什么 SUPIR(Scaling-UP Image Restoration)是一个突破性的图像修复和画质增强方法,利用了大规模的生成模型StableDiffusion-XL(SDXL)和模型扩展技...

BrushNet – 腾讯推出的高质量图像照片修复模型

BrushNet是什么 BrushNet是由腾讯PCG部门的ARC实验室与香港大学的研究人员推出的一个基于扩散模型的即插即用的图像照片修复(Inpainting)模型,通过分解的双...

LATTE3D – 英伟达推出的文本快速生成3D对象的模型

LATTE3D是什么 LATTE3D是由英伟达的多伦多AI实验室的研究人员推出的一个文本生成3D对象的模型,能够从文本提示描述快速生成高质量的3D内容(仅需400毫秒)。...

Mora – 微软等推出的可生成12秒视频的多AI智能体框架

Mora是什么 Mora是由来自微软和理海大学的研究人员推出的一个多智能体(AI Agents)框架,专门用于通用视频生成任务,目标是模拟并扩展OpenAI的Sora视频生成...
1 522 523 524 525 526 536