爱文网
关注爱文网3652ww.com阅读更多精彩文章!
散文 小说 作文 诗歌 故事 美文
书生万象3.5开源发布:多模态感知能力突破,多项指标超越顶级模型
首页> 爱文百科>综合资讯发布时间:2025年9月5日 11:44| 字号:  中  大评论:0  

9月3日,上海人工智能实验室正式开放通用多模态大模型书生・万象3.5(InternVL3.5)的源代码,该版本在推理性能、部署效能与通用化能力方面实现全面进化。

此次开源的InternVL3.5包含9个不同规模的版本,参数范围从10亿到2410亿,适用于多样化应用场景。足球直播24 旗舰型号InternVL3.5-241B-A28B在多学科推理基准MMMU测试中获得77.7的高分,创下开源模型新纪录;其多模态综合感知性能超过GPT-5,文本处理能力在主流开源多模态模型中处于领先地位。

相较于前代InternVL3.0,新版在图形界面智能体、空间感知理解、矢量图形处理等特色任务上取得显著进展。研究团队重点提升了模型在实际应用中的高清电影 智能体交互与文本推理能力,在GUI操作、空间推理和矢量图形处理等关键领域实现了从认知到执行的跨越。

在图形界面交互测试中,InternVL3.5在ScreenSpot-v2元素定位任务中获得92.9分,优于同类模型,同时支持Windows/Ubuntu系统自动化操作,在WindowsAgentArena任务中大幅领先Claude-3.7-Sonnet。免费电影

在具身智能测试环节,该模型展现出卓越的物理空间关系理解与导航路径规划能力,在VSI-Bench测试中以69.5分超越Gemini-2.5-Pro。

矢量图形处理方面,InternVL3.5在SGP-Bench测试中以70.7分刷新开源模型纪录,生成任务的FID指标也优于GPT-4o和Claude-3.7-Sonnet。

该模型支持跨Windows、英超联赛 Mac、Ubuntu、Android等多平台操作,能够识别界面元素并自主执行鼠标键盘操作,实现文件恢复、PDF导出、邮件附件添加等任务的自动化处理。

InternVL3.5具备更强的足球直播 实体定位能力,可泛化到全新的复杂小样本场景,结合抓取算法,支持可泛化的长距离物体抓取操作,助力机器人高效完成物品识别、路径规划与物理交互任务。

作为上海AI实验室书生大模型体系的英超直播 核心组成部分,InternVL专注于视觉模型技术研发,全系列模型累计下载量已突破2300万次。

  您阅读这篇文章共花了:  
 文章未设置标签!
免责 | 留言 | QQ | 黑ICP备17008603号-1

Copyright © 爱文网 All Rights Reserved.

留言