书生万象3.5开源发布：多模态感知能力突破，多项指标超越顶级模型

首页> 爱文百科>综合资讯｜发布时间：2025年9月5日 11:44｜字号：小　中　大｜评论：0 　

9月3日，上海人工智能实验室正式开放通用多模态大模型书生・万象3.5(InternVL3.5)的源代码，该版本在推理性能、部署效能与通用化能力方面实现全面进化。

此次开源的InternVL3.5包含9个不同规模的版本，参数范围从10亿到2410亿，适用于多样化应用场景。足球直播24 旗舰型号InternVL3.5-241B-A28B在多学科推理基准MMMU测试中获得77.7的高分，创下开源模型新纪录;其多模态综合感知性能超过GPT-5，文本处理能力在主流开源多模态模型中处于领先地位。

相较于前代InternVL3.0，新版在图形界面智能体、空间感知理解、矢量图形处理等特色任务上取得显著进展。研究团队重点提升了模型在实际应用中的高清电影智能体交互与文本推理能力，在GUI操作、空间推理和矢量图形处理等关键领域实现了从认知到执行的跨越。

在图形界面交互测试中，InternVL3.5在ScreenSpot-v2元素定位任务中获得92.9分，优于同类模型，同时支持Windows/Ubuntu系统自动化操作，在WindowsAgentArena任务中大幅领先Claude-3.7-Sonnet。免费电影

在具身智能测试环节，该模型展现出卓越的物理空间关系理解与导航路径规划能力，在VSI-Bench测试中以69.5分超越Gemini-2.5-Pro。

矢量图形处理方面，InternVL3.5在SGP-Bench测试中以70.7分刷新开源模型纪录，生成任务的FID指标也优于GPT-4o和Claude-3.7-Sonnet。

该模型支持跨Windows、英超联赛 Mac、Ubuntu、Android等多平台操作，能够识别界面元素并自主执行鼠标键盘操作，实现文件恢复、PDF导出、邮件附件添加等任务的自动化处理。

InternVL3.5具备更强的足球直播实体定位能力，可泛化到全新的复杂小样本场景，结合抓取算法，支持可泛化的长距离物体抓取操作，助力机器人高效完成物品识别、路径规划与物理交互任务。

作为上海AI实验室书生大模型体系的英超直播核心组成部分，InternVL专注于视觉模型技术研发，全系列模型累计下载量已突破2300万次。

您阅读这篇文章共花了：

文章未设置标签！