12月31日消息,SuperCLUE-VLM多模态视觉语言基准测评近日公布12月总榜公布,谷歌Gemini-3-Pro以83.64分大幅领先,字节跳动豆包大模型以73.15分位列第三,展现了国内大模型的竞争力强劲。
Gemini-3-Pro以总分83.64分居首,在基础认知(89.01)、视觉推理(82.82)、视觉应用(79.09)三大细分维度均位列第一,展现跨模态能力的统治力。国产模型表现也十分亮眼,商汤科技SenseNova-V6.5Pro以75.35分排名第二;豆包大模型(视觉版) 以73.15分冲进前三,其基础认知得分达82.70,超越部分国际竞品,但视觉推理环节稍显短板。其他头部模型如百度ERNIE-5.0-Preview、阿里Qwen3-VL分别第四、第五,其中Qwen3-VL是榜单首个开源且总分超70的模型。
Gemini遥遥领先主要由于其技术的突破,采用谷歌自研第七代TPU训练,打破英伟达GPU算力垄断,支持百万级Token处理与多模态输入(文本/图像/视频/音频);用户实测同样反馈其生成效率高(128 token/s),编程、设计等复杂任务处理能力突出。