NovaMSS – AI音乐源分离工具,精准分离音乐中的不同音源

NovaMSS是什么 NovaMSS是基于AI技术的音乐源分离工具。能将音乐中的不同音源,如人声、伴奏、贝斯、鼓点等进行精准分离,让用户可以轻松提取所需的音轨。工具...

PSHuman – 开源的单图像3D人像重建技术,仅需一张照片

PSHuman是什么 PSHuman是先进的单图像3D人像重建技术。基于跨尺度多视图扩散模型,仅需一张照片,能生成高度逼真的3D人像模型,包括精细的面部表情和全身姿态...

Video Alchemist – AI视频生成模型,具备多主体开放集合个性化能力

Video Alchemist是什么 Video Alchemist是Snap公司等推出的新型视频生成模型,具备多主体、开放集合个性化能力,能根据文本提示和参考图像生成视频,无需在测...

Zerox – 开源的OCR工具,零样本识别多种格式文件

Zerox是什么 Zerox是开源的本地化高精度OCR工具,基于GPT-4o-mini模型,无需提前训练实现零样本识别。Zerox支持PDF、DOCX、图片等多种格式文件,擅长处理扫描...

SmartEraser – 中科大与微软亚洲研究院推出的图像对象移除技术

SmartEraser是什么 SmartEraser是中国科学技术大学与微软亚洲研究院推出的图像编辑技术,专门用在从图像中移除用户指定的对象。SmartEraser基于创新的“掩码区...

SHMT – 阿里达摩院联合武汉理工等机构推出的自监督化妆转移技术

SHMT是什么 SHMT(Self-supervised Hierarchical Makeup Transfer)是阿里巴巴达摩院与武汉理工大学等机构联合研发的先进自监督化妆转移技术。技术通过潜在扩...

AnyStory – 阿里通义推出的高保真个性化文本到图像生成框架

AnyStory是什么 AnyStory是阿里巴巴通义实验室研发的创新文本到图像生成框架,实现单个和多个主体的高保真个性化图像生成。通过“编码-路由”的方法来建模主体...

Uni-AdaFocus – 清华大学推出通用的高效视频理解框架

Uni-AdaFocus是什么 Uni-AdaFocus是清华大学自动化系的研究团队推出的通用的高效视频理解框架,框架通过自适应聚焦机制,动态调整计算资源的分配,实现对视频...

T2A-01-HD – 海螺AI海外版推出新的语音模型

T2A-01-HD是什么 T2A-01-HD是海螺AI海外版推出新的语音模型。支持声音克隆,仅需10秒音频即可精准克隆声音,保留情感底色。模型具备智能情感系统,能捕捉语音...

OmAgent – Om AI联合浙大开源的多模态语言代理框架

OmAgent是什么 OmAgent是Om AI和浙江大学滨江研究院联合开源的多模态语言代理框架,能简化设备端智能代理的开发。OmAgent支持可重用的代理组件,助力开发者构...
1 275 276 277 278 279 520