AI工具

Veo – 谷歌推出的可生成1分钟1080P的视频模型

Veo是什么 Veo是由Google DeepMind开发的一款视频生成模型,用户可以通过文本、图像或视频提示来指导其生成所需的视频内容,能够生成时长超过一分钟1080P分辨...

混元DiT – 腾讯混元开源的文生图扩散模型Hunyuan-DiT

混元DiT是什么 混元DiT(Hunyuan-DiT)是由腾讯混元团队开源的一款高性能的文本到图像的扩散Transformer模型,具备细粒度的中英文理解能力,能够根据文本提示...

GPT-4o – OpenAI最新发布的多模态AI大模型

GPT-4o是什么 GPT-4o是OpenAI最新推出的一款先进的人工智能模型,具备强大的多模态推理能力,能够处理语音、文本和视觉信息。模型能实时响应用户输入,在音频...

AniTalker – 上海交大开源的对口型说话视频生成框架

AniTalker是什么 AniTalker是由来自上海交大X-LANCE实验室和思必驰AISpeech的研究人员推出的AI对口型说话视频生成框架,能够将单张静态人像和输入的音频转换...

IC-Light – ControlNet作者开源的AI图片打光工具

IC-Light是什么 IC-Light是一款由ControlNet作者张吕敏开发的AI图像打光处理工具,可以对图片进行光源操纵和光影重构,实现与不同背景的完美融合。用户只需上...

PuLID – 字节跳动开源的个性化文本到图像生成框架

PuLID是什么 PuLID是由字节跳动的团队开源的一种个性化文本到图像生成技术,通过对比对齐和快速采样方法,实现了无需调整模型的高效ID定制,轻松实现图像换脸...

Stable Artisan – Stability AI推出的Discord机器人服务,可生成图像和视频

Stable Artisan是什么 Stable Artisan是Stability AI推出的一款基于Discord平台的机器人服务,利用其强大的AI技术和模型,如 Stable Diffusion 3 (SD3) 图像...

VideoGigaGAN – Adobe推出的AI视频分辨率提升模型

VideoGigaGAN是什么 VideoGigaGAN是由Adobe和马里兰大学的研究人员提出的一种新型的生成式视频超分辨率(VSR)模型,最高可将视频分辨率提升8倍,将模糊的视...

IDM-VTON – 逼真的开源AI虚拟试穿框架

IDM-VTON是什么 IDM-VTON(Improved Diffusion Models for Virtual Try-ON)是由韩国科学技术院和OMNIOUS.AI的研究人员提出的一种先进的AI虚拟试穿技术,通过...

ID-Animator – 腾讯等推出的个性化人物视频生成框架

ID-Animator是什么 ID-Animator是由来自腾讯光子工作室、中科大和中科院合肥物质科学研究院的研究人员推出的一种零样本(zero-shot)人类视频生成技术,能够...
1 501 502 503 504 505 517