6月6日,北京智源人工智能研究院正式推出了其最新研发的“悟界”系列大模型。这一系列模型涵盖了多项全球领先的技术创新,包括全球首个原生多模态世界模型“悟界・Emu3”,以及专为脑科学研究设计的通用基础模型“悟界・见微 Brainμ”。
此次发布的“悟界”系列中还包括了具身智能大模型。该模型包含两个重要组件:全球首个支持MCP(多本体协作协议)的跨本体大小脑协作框架“悟界・RoboOS 2.0”,以及与之配合的具身大脑大模型“悟界・RoboBrain 2.0”。此外,研究院还一并发布了全原子微观生命模型“悟界・OpenComplex2”。
回顾去年10月,智源研究院就已经推出了原生多模态世界模型Emu3。该模型的独特之处在于仅通过单个token预测机制,就能够实现对文本、图像和视频三种模态数据的深度理解和高效生成,无需依赖扩散模型或复杂的组合方法。官方宣称这一突破性技术实现了“图像、文本、视频的大一统”。Emu3不仅支持多模态输入与输出的端到端映射,还验证了自回归框架在多模态领域的普适性和先进性,为跨模态交互提供了一流的技术支撑。
基于Emu3的核心架构,“悟界・见微 Brainμ”进一步融入了神经科学与脑医学的最新研究成果。该模型能够统一处理fMRI、EEG、双光子等多种脑信号,并通过预训练模型的优势,实现多模态脑信号与文本、图像等模态之间的双向映射。这种创新方法使得单一模型即可完成多种神经科学研究任务,展现出跨任务、跨模态和跨个体的通用建模能力。
相关阅读:
-
《智源发布原生多模态世界模型Emu3,宣称实现图像、文本、视频大一统》
© 版权声明
文章版权归作者所有,未经允许请勿转载。