7月2日讯息显示,今天上午,智谱开放平台产业生态大会在位于上海浦东的张江科学会堂隆重举行。会上,智谱正式发布并开源了新一代通用视觉语言模型GLM-4.1V-Thinking。
在此次大会上,智谱还宣布获得来自浦东创投集团和张江集团的总计10亿元战略投资,并已完成首笔资金的交割。此外,三方共同启动了一项重要合作项目——携手建设人工智能领域的新型基础设施。
作为一款通用推理型视觉语言大模型,GLM-4.1V-Thinking能够处理包括图像、视频和文档等多种数据类型。其独特之处在于采用了先进的“思维链推理机制(Chain-of-Thought Reasoning)”和“课程采样强化学习策略(RLCS)”,有效提升了跨模态因果推理能力和系统稳定性。
与前代产品相比,该模型在架构上进行了重要升级。特别是在GLM-4V的基础上引入了最新的技术改进,使模型在复杂认知任务处理方面表现更加出色。
值得注意的是,此次发布的还包括轻量化版本——GLM-4.1V-9B-Thinking。该模型参数控制在10B级别,在保证部署效率的同时实现了性能的显著提升。经过测试,在MMStar、MMMU-Pro、ChartQAPro、OSWorld等28项权威评测中,有23项达到了10B级模型的最佳水平,其中18项更是超越了拥有72B参数量的Qwen-2.5-VL模型,充分展现了小体积模型的性能潜力。
据官方介绍,该模型在多个关键任务领域表现出色,展现出强大的通用性和稳定性:
-
图文理解(Image General):能够准确识别并综合分析图像与文本信息;
-
数学与科学推理(Math & Science):支持复杂问题解答、多步骤演绎及公式理解;
-
视频理解(Video):具备时间序列分析和事件逻辑建模能力;
-
GUI 与网页智能体任务(UI2Code、Agent):能够理解和辅助界面操作自动化;
-
视觉锚定与实体定位(Grounding):实现语言与图像区域的精准对齐,增强人机交互的可控性。
目前,GLM-4.1V-9B-Thinking已在Hugging Face和魔搭社区同步开源。此次开源包含两个版本:基础模型GLM-4.1V-9B-Base,旨在为研究者提供探索视觉语言模型能力边界的基础工具;以及具备深度思考和推理能力的GLM-4.1V-9B-Thinking模型,供开发者进行实际应用和体验。
相关阅读:
-
年后完成第四轮融资,智谱再获北京人工智能产业投资基金2亿追投
-
“大模型六小龙”首家启动IPO流程的公司——智谱AI
-
继杭州、珠海后,智谱AI再获成都高新区3亿元战略投资
-
在获得杭州10亿元投资后,智谱宣布再获珠海5亿元投资