UnifoLM-VLA-0 – 宇树开源的通用机器人操作大模型

UnifoLM-VLA-0是什么 UnifoLM-VLA-0 是宇树科技开源的通用视觉-语言-动作(VLA)大模型,基于 Qwen2.5-VL-7B 架构进行持续预训练。模型通过融合 2D/3D 空间感...

Project Genie – 谷歌推出的实验性AI世界模型原型

Project Genie是什么 Project Genie 是谷歌 DeepMind 推出的实验性 AI 世界模型原型,基于 Genie 3、Nano Banana Pro 和 Gemini 技术驱动。用户通过文字提示...

TTT-Discover – 斯坦福、英伟达推出的测试时强化学习方法

TTT-Discover是什么 TTT-Discover(Test-Time Training to Discover)是斯坦福、英伟达等机构推出的AI科学发现方法。TTT-Discover在测试阶段对模型进行强化学...

MOVA – 创智学院联合模思智能开源的端到端音视频模型

MOVA是什么 MOVA(MOSS Video and Audio)是上海创智学院OpenMOSS团队与模思智能(MOSI)联合推出的,中国首个高性能开源音视频端到端生成模型。模型突破传统...

SenseNova-MARS – 商汤科技开源的多模态自主推理模型

SenseNova-MARS是什么 SenseNova-MARS是商汤科技开源的多模态自主推理模型,提供8B和32B两种参数规模。作为首个支持动态视觉推理与图文搜索深度融合的Agentic...

Qwen3-ASR – 阿里通义开源的系列语音识别模型

Qwen3-ASR是什么 Qwen3-ASR 是阿里云通义千问团队开源的系列语音识别模型,包含 1.7B 高精度版、0.6B 高效版两个 ASR 模型,以及专用的 Qwen3-ForcedAligner-...

LingBot-World – 蚂蚁灵波科技开源的交互式世界模型

LingBot-World是什么 LingBot-World 是蚂蚁灵波科技开源的交互式世界模型。模型通过可扩展数据引擎从大规模游戏环境学习物理规律与因果关系,实现动作驱动的...

SkyReels-V3 – 昆仑万维开源的多模态视频生成模型

SkyReels-V3是什么 SkyReels-V3是昆仑万维开源的多模态视频生成模型,用单一架构实现专业级视频创作。模型能将静态图像转化为动态影像,支持智能延长视频时长...

LongCat-Flash-Lite – 美团LongCat开源的大语言模型

LongCat-Flash-Lite是什么 LongCat-Flash-Lite是美团推出的新一代高效大语言模型。模型采用创新的混合专家(MoE)+ N元语法嵌入架构,总参数量达685亿,每次...

Mureka V8 – 昆仑万维推出的AI音乐模型

Mureka V8是什么 Mureka V8是昆仑万维推出的AI音乐大模型,基于MusiCoT(Music Chain-of-Thought)技术架构,实现从声音拼接到类人创作逻辑的跨越。模型在旋...
1 2 3 4 536