PixArt-Σ – 华为推出的可生成4K高清图像的文生图模型
PixArt-Σ是什么 PixArt-Σ是由来自华为诺亚方舟实验室、大连理工大学和香港大学的研究人员推出的一个基于扩散Transformer架构(DiT)的文生图模型,专门设计用...
Moondream – 开源的轻量级AI视觉语言模型,可在本地快速运行
Moondream是什么 Moondream是一个免费开源的小型的人工智能视觉语言模型,虽然参数量小(Moondream1仅16亿,Moondream2为18.6亿)但可以提供高性能的视觉处理...
AtomoVideo – 阿里推出的高保真图像到视频生成框架
AtomoVideo是什么 AtomoVideo是由阿里巴巴的研究团队提出的一个高保真图像到视频(Image-to-Video, I2V)生成框架,旨在从输入的静态图像生成高质量的视频内...
ResAdapter – 字节推出的扩散模型分辨率适配器
ResAdapter是什么 ResAdapter是由字节跳动的研究人员推出的一种为扩散模型(如Stable Diffusion)设计的分辨率适配器,允许这些图像生成模型生成具有任意分辨...
ScreenAI – 谷歌推出的可读屏AI视觉模型,可理解UI和信息图表
ScreenAI是什么 ScreenAI是一个由谷歌的研究人员推出的可读屏AI视觉语言模型,专门设计用于理解和处理用户界面(UI)和信息图表。该模型基于PaLI架构结合了视...
Claude 3 – Anthropic推出的第三代大模型和AI聊天机器人
Claude 3是什么 Claude 3是人工智能初创公司Anthropic开发的新一代人工智能模型,旨在提供先进的认知能力和智能处理任务。Claude 3模型家族包括三个不同级别...
DUSt3R – 从任意图像集合中重建3D场景的框架
DUSt3R是什么 DUSt3R(Dense and Unconstrained Stereo 3D Reconstruction,密集无约束立体三维重建)是由来自芬兰阿尔托大学和Naver欧洲实验室的研究人员推...
UniEdit – 免训练调优的统一视频编辑框架
UniEdit是什么 UniEdit是由浙江大学、微软研究院和北京大学的研究人员推出的一个创新的视频编辑框架,允许用户在不需要进行模型微调的情况下,对视频的运动和...
TextDiffuser-2 – 微软等推出的AI图像文本渲染融合框架
TextDiffuser-2是什么 Text-Diffuser 2是由来自微软研究院、香港科技大学和中山大学的研究人员最新推出的一个基于扩散模型的文本渲染方法,旨在解决图像扩散...
LayerDiffusion – AI生成具有透明度的图像的框架
LayerDiffusion是什么 LayerDiffusion(现已更名为LayerDiffuse)是由来自斯坦福大学的研究人员 Lvmin Zhang(即ControlNet的作者张吕敏)和 Maneesh Agrawal...