Llama 3 – Meta开源推出的新一代大语言模型

Llama 3是什么 Llama 3是Meta公司最新开源推出的新一代大型语言模型(LLM),包含8B和70B两种参数规模的模型,标志着开源人工智能领域的又一重大进步。作为Ll...

VASA-1 – 微软推出的静态照片对口型视频生成框架

VASA-1是什么 VASA-1是由微软亚洲研究院提出的一个将静态照片转换为对口型动态视频的生成框架,能够根据单张静态人脸照片和一段语音音频,实时生成逼真的3D说...

Parler-TTS – Hugging Face开源的文本转语音模型

Parler-TTS是什么 Parler-TTS是由Hugging Face推出的一款开源的文本到语音(TTS)模型,能够通过输入提示描述模仿特定说话者的风格(性别、音调、说话风格等...

CodeGemma – 谷歌开源推出的代码生成大模型

CodeGemma是什么 CodeGemma是由Google发布的专注于代码生成和理解的大型语言模型,该系列包含三种不同规模的模型,分别是2B预训练模型、7B预训练模型和7B指令...

DesignEdit – 微软等开源的AI图像分层处理编辑框架

DesignEdit是什么 DesignEdit是由来自微软亚洲研究院和北京大学的研究人员共同开发的一个AI图像编辑框架,引入了设计领域的图层概念,采用多层潜在分解和融合...

InstantStyle – 开源的个性化文本到图像生成框架,保留风格一致性

InstantStyle是什么 InstantStyle是小红书的InstantX团队(该团队也是InstantID框架背后的开发团队)开源的保留风格一致性的个性化文本到图像生成框架,旨在...

AniPortrait – 腾讯开源的照片对口型视频生成框架

AniPortrait是什么 AniPortrait是腾讯开源的照片对口型AI视频生成框架,类似于此前阿里推出的EMO,能够通过音频和一张参考肖像图片生成高质量的动画。AniPort...

DreaMoving – 阿里开源的基于扩散模型的人类视频生成框架

DreaMoving是什么 DreaMoving是一个基于扩散模型的人类视频生成框架,由阿里巴巴集团的研究团队开发。DreaMoving通过视频控制网络和内容引导器实现对人物动作...

SWE-agent – 普林斯顿开源的AI程序员智能体

SWE-agent是什么 SWE-agent是一个由普林斯顿大学NLP组研究人员开发的开源AI程序员和软件工程师系统,利用大型语言模型(如GPT-4)的能力,可以自动解决GitHub...

Voice Engine – OpenAI公布的AI语音合成和声音克隆模型

Voice Engine是什么 Voice Engine是OpenAI最新公布的一项AI语音合成和声音克隆技术,能够利用简短的15秒音频样本和文本输入,生成接近原声的自然听起来的语音...
1 453 454 455 456 457 467