AI工具
DesignEdit – 微软等开源的AI图像分层处理编辑框架
DesignEdit是什么 DesignEdit是由来自微软亚洲研究院和北京大学的研究人员共同开发的一个AI图像编辑框架,引入了设计领域的图层概念,采用多层潜在分解和融合...
InstantStyle – 开源的个性化文本到图像生成框架,保留风格一致性
InstantStyle是什么 InstantStyle是小红书的InstantX团队(该团队也是InstantID框架背后的开发团队)开源的保留风格一致性的个性化文本到图像生成框架,旨在...
AniPortrait – 腾讯开源的照片对口型视频生成框架
AniPortrait是什么 AniPortrait是腾讯开源的照片对口型AI视频生成框架,类似于此前阿里推出的EMO,能够通过音频和一张参考肖像图片生成高质量的动画。AniPort...
DreaMoving – 阿里开源的基于扩散模型的人类视频生成框架
DreaMoving是什么 DreaMoving是一个基于扩散模型的人类视频生成框架,由阿里巴巴集团的研究团队开发。DreaMoving通过视频控制网络和内容引导器实现对人物动作...
SWE-agent – 普林斯顿开源的AI程序员智能体
SWE-agent是什么 SWE-agent是一个由普林斯顿大学NLP组研究人员开发的开源AI程序员和软件工程师系统,利用大型语言模型(如GPT-4)的能力,可以自动解决GitHub...
Voice Engine – OpenAI公布的AI语音合成和声音克隆模型
Voice Engine是什么 Voice Engine是OpenAI最新公布的一项AI语音合成和声音克隆技术,能够利用简短的15秒音频样本和文本输入,生成接近原声的自然听起来的语音...
Jamba – AI21开源的首个基于Mamba架构的大模型
Jamba是什么 Jamba是由AI21 Labs推出的首个基于Mamba架构的生产级别的大语言模型,目前大部分的大模型(如GPT、Gemini 和 Llama)都是基于 Transformer 结构...
Champ – 基于3D的人物图片转视频动画模型
Champ是什么 Champ是由阿里巴巴、复旦大学和南京大学的研究人员共同提出的一种基于3D的将人物图片转换为视频动画的模型,该方法结合了3D参数化模型(特别是SM...
VoiceCraft – 开源的语音编辑和文本转语音模型
VoiceCraft是什么 VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型,专注于零样本语音编辑和文本到语音(TTS)任务。该模型采...
StreamingT2V – PicsArt推出的可生成长达2分钟视频的模型
StreamingT2V是什么 StreamingT2V是由PicsArt AI研究团队推出的一个文本到视频的生成模型,旨在解决现有模型仅能生成16帧或24帧的高质量短视频,而当在生成长...