Nemotron Speech ASR – 英伟达开源的语音识别模型

AI工具7个月前发布

98 0 0

Nemotron Speech ASR是什么

Nemotron Speech ASR 是英伟达开源的专注于低延迟、实时流式语音识别的模型。通过缓存感知架构，将已处理的语音特征缓存，仅对新音频帧进行计算，实现单句转录锁定仅需24毫秒，有效解决了传统流式模型在长语音识别中的累积延迟问题。模型支持多档延迟模式（80ms、160ms、560ms、1.12s），可根据应用场景灵活调整，无需重新训练，适用于游戏语音、实时翻译、会议记录等多种场景。具备更高的吞吐量和更低的运行成本，端到端延迟控制在500毫秒以内，并原生支持标点符号和大小写。

Nemotron Speech ASR – 英伟达开源的语音识别模型

Nemotron Speech ASR的主要功能

低延迟实时识别：专为低延迟、实时流式场景设计，单句转录锁定仅需24毫秒，几乎与人类神经反应速度相当，适用于对实时性要求极高的语音交互场景。

# AI工具 # [db:标签]

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

金山办公与华为联合发布 WPS 365 一体化 AI 办公解决方案

188 0

Speech 2.5 – MiniMax推出的新一代语音生成模型

125 0

AI 初创公司 Friend 砸超百万美元在纽约地铁投放广告，部分遭涂鸦破坏

72 0

蚂蚁集团开源 Awex 框架，秒级完成 TB 级参数交换

54 0

智谱 CEO 张鹏：到 2030 年完全实现超级 AI 的可能性不大

79 0

澳大利亚一大学依赖 AI 系统检查作业却“闹乌龙”，错误指控学生用 AI 作弊

64 0

AI工具集平台！汇聚超2000+免费AI工具，涵盖AI写作、AI编程、AI绘画、AI论文、AI视频、AI生图、AI办公、AI学习、AI生成、agent等全场景工具。每日更新热门 AI工具，助您快速找到提升办公、创作、学习效率的实用工具！

按下Ctrl+D或⌘+D 感谢收藏 ai-gjj.com

友链申请免责声明广告合作关于我们站点地图提交AI工具

Copyright © 2026 AI工具集桂ICP备2025062026号