AI工具

Claude 3 – Anthropic推出的第三代大模型和AI聊天机器人

Claude 3是什么 Claude 3是人工智能初创公司Anthropic开发的新一代人工智能模型,旨在提供先进的认知能力和智能处理任务。Claude 3模型家族包括三个不同级别...

DUSt3R – 从任意图像集合中重建3D场景的框架

DUSt3R是什么 DUSt3R(Dense and Unconstrained Stereo 3D Reconstruction,密集无约束立体三维重建)是由来自芬兰阿尔托大学和Naver欧洲实验室的研究人员推...

UniEdit – 免训练调优的统一视频编辑框架

UniEdit是什么 UniEdit是由浙江大学、微软研究院和北京大学的研究人员推出的一个创新的视频编辑框架,允许用户在不需要进行模型微调的情况下,对视频的运动和...

TextDiffuser-2 – 微软等推出的AI图像文本渲染融合框架

TextDiffuser-2是什么 Text-Diffuser 2是由来自微软研究院、香港科技大学和中山大学的研究人员最新推出的一个基于扩散模型的文本渲染方法,旨在解决图像扩散...

LayerDiffusion – AI生成具有透明度的图像的框架

LayerDiffusion是什么 LayerDiffusion(现已更名为LayerDiffuse)是由来自斯坦福大学的研究人员 Lvmin Zhang(即ControlNet的作者张吕敏)和 Maneesh Agrawal...

Snap Video – Snapchat公司推出的AI视频生成模型

Snap Video是什么 Snap Video是由Snap(社交媒体Snapchat所属的公司)研究团队开发的一个AI视频生成模型,目标是通过文本描述来合成视频,即用户可以输入一段...

MeloTTS – MyShell AI推出的多语言文本到语音转换工具

MeloTTS是什么 MeloTTS 是一个由 MyShell AI 开发的开源的高质量多语言文本转语音(TTS)库,能够将文本转换成自然流畅的语音输出,支持多种语言,包括但不限...

StarCoder 2 – BigCode推出的第二代开源代码大模型

StarCoder 2是什么 StarCoder 2是由BigCode项目(Hugging Face和ServiceNow支持)联合Nvidia的团队开发的新一代大型代码语言模型,使用来自 The Stack v2 数...

EMO – 阿里推出的AI肖像视频生成框架

EMO是什么 EMO(Emote Portrait Alive)是一个由阿里巴巴集团智能计算研究院的研究人员开发的框架,一个音频驱动的AI肖像视频生成系统,能够通过输入单一的参...

ChatMusician – 可理解和生成音乐的大模型

ChatMusician是什么 ChatMusician是由Multimodal Art Projection Research Community、Skywork AI和香港科技大学的研究人员推出的,一个开源的用于理解和生成...
1 544 545 546 547 548 555