WhisperLiveKit – 开源AI语音识别工具,支持说话人识别
WhisperLiveKit是什么 WhisperLiveKit 是开源的实时语音识别工具,能将语音实时转录为文字,支持说话人识别。工具基于先进的技术如 SimulStreaming 和 Whispe...
SpatialLM 1.5 – 群核科技推出的空间语言模型
SpatialLM 1.5是什么 SpatialLM 1.5 是群核科技推出的强大的空间语言模型。模型基于大语言模型训练,能理解自然语言指令,输出包含空间结构、物体关系和物理...
SpatialGen – 群核科技开源的3D场景生成模型
SpatialGen是什么 SpatialGen 是群核科技开源的 3D 场景生成模型。模型基于扩散模型架构,支持根据文字描述、参考图像和 3D 空间布局,生成时空一致的多视角...
EchoMimicV3 – 蚂蚁集团推出的多模态数字人视频生成框架
EchoMimicV3是什么 EchoMimicV3是蚂蚁集团推出的高效多模态、多任务数字人视频生成框架。框架拥有13亿参数,基于任务混合和模态混合范式,结合新颖的训练与推...
如何用AI生成短视频创意,FD Studio一站式服务内容创作者
FD Studio是什么 FD Studio 是深圳市浮点数信息技术有限公司推出的 AI 辅助影视和短视频创意管理平台。面向短片、广告、自媒体等多领域创作者,解决创意前期...
VibeVoice – 微软推出的开源文本转语音模型
VibeVoice是什么 VibeVoice 是微软推出的新型文本到语音(TTS)模型,能生成富有表现力、长篇幅、多说话者的对话式音频,如播客。模型通过创新的连续语音标记...
DeepCode – 港大实验室推出的多Agent代码生成平台
DeepCode是什么 DeepCode 是香港大学数据智能实验室推出的基于多智能体系统的代码生成平台。DeepCode 能将研究论文、自然语言描述等转化为高质量的生产就绪代...
XBai o4 – 开源的并行推理模型,高质量的推理轨迹
XBai o4是什么 XBai o4是开源的大语言模型,基于“反射生成形式”训练,结合长CoT强化学习和过程奖励学习,在复杂推理能力上表现出色,中等模式下已超越OpenAI-...
内容特工队ReelsAgent – 首个移动端AI营销视频生成Agent
内容特工队ReelsAgent是什么 内容特工队ReelsAgent是全球首个移动端AI营销视频智能体Agent。实现了从市场调研、创意生成到视频发布全流程自动化,用户只需输...
问小白o4 – 问小白推出的首个并行思考模型
问小白o4是什么 问小白o4是国内首个并行思考模型,能同时启动8条思考路径,自动筛选最优解,提供精准答案。模型融合Long‑CoT强化学习与过程奖励学习,具备深...

