Qwen3-Next – 阿里通义开源的混合架构模型

AI工具1天前发布
3 0

Qwen3-Next是什么

Qwen3-Next是阿里通义开源的新一代混合架构大模型,包含指令版(Qwen3-Next-80B-A3B-Instruct )和思维版(Qwen3-Next-80B-A3B-Thinking)两个版本。模型用全球首创的Gated DeltaNet和Gated Attention混合架构,实现更快的处理速度、更强的效果和更省的资源消耗。模型总参数量达80B,每次推理仅激活约3B参数。模型预训练加速机制使长文生成速度显著提升。Qwen3-Next适用长上下文推理、高并发和低延迟需求场景,模型现已上线阿里云百炼支持API调用和QwenChat网页版支持在线体验。

Qwen3-Next – 阿里通义开源的混合架构模型

Qwen3-Next的主要功能

  • 指令理解和执行:特别优化的指令版(Instruct)擅长理解和执行用户的指令。
  • 深度思考和推理:思维版(Thinking)支持多步推理和深度思考问题。
  • 长文本处理:模型能处理和理解长达32K以上的长文本输入。
  • 高效率推理:基于混合动力引擎,结合速度和精度,实现快速且准确的推理。
  • 节省资源:在保持大模型能力的同时,通过激活部分参数节省计算资源。

Qwen3-Next的技术原理

  • 混合架构:结合75%的Gated DeltaNet和25%的Gated Attention,平衡速度和精度。

© 版权声明

相关文章