InfiniteTalk – 美团开源的数字人视频生成框架
InfiniteTalk是什么 InfiniteTalk是美团视觉智能部推出的新型数字人驱动技术,通过稀疏帧video dubbing范式,仅需少量关键帧能驱动数字人人生成自然流畅的视...
UnifoLM-WMA-0 – 宇树科技开源的世界模型行动框架
UnifoLM-WMA-0是什么 UnifoLM-WMA-0 是宇树科技开源的跨多类机器人本体的世界模型 – 动作架构,专为通用机器人学习设计。核心是世界模型,能理解机器人与环境...
Lumina-DiMOO – 上海AI Lab推出的多模态生成与理解模型
Lumina-DiMOO是什么 Lumina-DiMOO是上海人工智能实验室等机构开源的新一代多模态生成与理解模型。模型采用全离散扩散架构,统一处理文本、图像等多模态数据,...
Mini-o3 – 字节联合港大推出的视觉推理模型
Mini-o3是什么 Mini-o3 是字节跳动和香港大学联合推出的开源模型,专为解决复杂的视觉搜索问题而设计。模型通过强化学习和基于图像的工具,能执行深度多轮推...
Grok 4 Fast – xAI推出的快速版AI模型
Grok 4 Fast是什么 Grok 4 Fast是xAI推出的快速版人工智能模型,最大的特点是响应速度快,最高可达标准版的10倍,生成速度每秒75个token,能快速完成简单查询...
ROMA – Sentient AGI开源的多智能体框架
ROMA是什么 ROMA(Recursive Open Meta-Agent) 是Sentient AGI团队开源的多Agent系统框架,通过递归层次结构将复杂任务拆解为可并行的子任务,由父节点分配...
GPT-5-Codex – OpenAI推出的Agent编程优化模型
GPT-5-Codex是什么 GPT-5-Codex 是 OpenAI 推出的专为编程优化的模型,基于 GPT-5 进一步强化。模型聚焦于真实世界的软件工程任务,如从零搭建项目、代码重构...
xiaohongshu-mcp – 开源的小红书自动化运营工具
xiaohongshu-mcp是什么 xiaohongshu-mcp是基于 Model Context Protocol (MCP) 协议开发的开源工具,帮助用户实现小红书平台的自动化操作。支持多种功能,包括...
FunAudio-ASR – 阿里达摩院推出的端到端语音识别模型
FunAudio-ASR是什么 FunAudio-ASR 是阿里巴巴达摩院推出的端到端语音识别大模型,专为解决企业落地中的关键问题设计。通过创新的 Context 增强模块,有效优化...
ERNIE-4.5-21B-A3B-Thinking – 百度推出的思考模型
ERNIE-4.5-21B-A3B-Thinking是什么 ERNIE-4.5-21B-A3B-Thinking 是百度推出的专注于推理任务的大型语言模型。采用混合专家(MoE)架构,总参数量达210亿,每...