大模型视觉测评榜单公布：Gemini强势登顶，豆包位列第三,模型大师介绍

12月31日消息，SuperCLUE-VLM多模态视觉语言基准测评近日公布12月总榜公布，谷歌Gemini-3-Pro以83.64分大幅领先，字节跳动豆包大模型以73.15分位列第三，展现了国内大模型的竞争力强劲。

Gemini-3-Pro以总分83.64分居首，在基础认知（89.01）、视觉推理（82.82）、视觉应用（79.09）三大细分维度均位列第一，展现跨模态能力的统治力。国产模型表现也十分亮眼，商汤科技SenseNova-V6.5Pro以75.35分排名第二；豆包大模型（视觉版）以73.15分冲进前三，其基础认知得分达82.70，超越部分国际竞品，但视觉推理环节稍显短板。其他头部模型如百度ERNIE-5.0-Preview、阿里Qwen3-VL分别第四、第五，其中Qwen3-VL是榜单首个开源且总分超70的模型。

Gemini遥遥领先主要由于其技术的突破，采用谷歌自研第七代TPU训练，打破英伟达GPU算力垄断，支持百万级Token处理与多模态输入（文本/图像/视频/音频）；用户实测同样反馈其生成效率高（128 token/s），编程、设计等复杂任务处理能力突出。