标签:AI工具

IMAGPose – 南京理工大学推出姿态引导图像生成的统一框架

IMAGPose是什么 IMAGPose 是南京理工大学推出的用于人体姿态引导图像生成的统一条件框架。解决传统方法在姿态引导的人物图像生成中存在的局限性,如无法同时...

Tolan – AI陪伴应用,与外星球的虚拟角色深度互动

Tolan是什么 Tolan 是AI陪伴应用,为用户提供情感支持和互动体验。Tolan是一个来自外星球的虚拟角色,能与用户聊天、分享想法、探讨兴趣爱好,用照片互动等方...

DoraCycle – 新加坡国立大学推出多模态领域适应的统一生成模型

DoraCycle是什么 DoraCycle 是新加坡国立大学 Show Lab 推出多模态领域适应的统一生成模型,通过两个多模态循环(text-to-image-to-text 和 image-to-text-to...

Gemini Embedding – 谷歌推出的文本嵌入模型

Gemini Embedding是什么 Gemini Embedding 是 Google 推出的先进的文本嵌入模型,基于将文本转化为高维数值向量,捕捉其语义和上下文信息。Gemini Embedding...

GO-1 – 智元机器人推出的首个通用具身基座模型

GO-1是什么 GO-1(Genie Operator-1,智元启元大模型)是智元机器人推出的首个通用具身基座模型。模型采用Vision-Language-Latent-Action(ViLLA)架构,由VL...

AppAgentX – 西湖大学推出的自我进化式 GUI 代理框架

AppAgentX是什么 AppAgentX 是西湖大学推出的新型自我进化式 GUI(图形用户界面)代理框架,基于从执行历史中抽象出高级动作提升代理在智能手机交互中的效率...

DINO-XSeek – IDEA 研究院推出的多模态目标检测模型

DINO-XSeek是什么 DINO-XSeek 是 IDEA 研究院推出的多模态目标检测模型,结合视觉感知和自然语言理解能力。DINO-XSeek基于复杂的语言描述精准定位图像中的目...

Nanobrowser – AI网页自动化工具,自主完成复杂的网页任务

Nanobrowser是什么 Nanobrowser 是开源的 Chrome 扩展工具,专注于 AI 驱动的网页自动化。Nanobrowser基于多智能体系统实现复杂的网页任务,如信息提取、自动...

Character-3 – Hedra 推出的全模态 AI 数字人视频生成模型

Character-3是什么 Character-3 是 Hedra Studio 推出的全模态 AI 数字人视频生成模型,能同时处理图像、文本和音频输入,通过联合推理生成高质量的视频。支...

URO-Bench – AI基准测试工具,专为端到端语音对话模型设计

URO-Bench是什么 URO-Bench 是面向端到端语音对话模型(SDMs)的全面基准测试工具。涵盖了多语言、多轮对话、副语言信息等多维度任务,全面评估语音对话模型...
1 93 94 95 96 97 400