开云app登录入口

开云app登录入口 最强大模型的视觉能力不如6岁小孩

发布日期:2026-01-24 12:47    点击次数:102

开云app登录入口 最强大模型的视觉能力不如6岁小孩

谁敢想?

视觉推理这一块,大模型现在还嫩得像个 3 岁小孩。

来自 UniPat AI、xbench、阿里、月之暗面、阶跃星辰等多家研究机构的最新研究显示:

在BabyVision视觉推理 benchmark 上,当前表现最强的Gemini 3 Pro Preview也只是小胜三岁儿童,跟六岁儿童仍有20%的差距。

与成年人94.1的水平相比,更是天壤之别。

更关键的是,Gemini 3 Pro Preview 已经是当前一众模型中的"天花板"。

其他前沿模型,包括GPT-5.2、Claude 4.5 Opus、Grok-4等,整体表现甚至不如三岁小孩。

这一扎心结论,无疑又给当前基于 VLA(M)的具身智能泼了盆冷水。

毕竟,一个视觉能力尚未达到三岁儿童水平的 AI,很难被指望在真实物理世界中稳定、安全地协助人类。

也正是在这个意义上,BabyVision 还给出了另一种视角:

要真正推进多模态智能,未来的模型必须从底层重建视觉能力,而不是继续依赖将视觉问题翻译成语言来"绕行"。

视觉推理的语言化瓶颈

在完整的评估中,研究对比了开源和闭源模型的表现:

在闭源模型中: Gemini 3-Pro-Preview 以49.7%的得分领跑,随后是 GPT-5.2 ( 34.4% ) 和豆包 -Seed-1.8 ( 30.2% ) 。

其余模型表现则不尽人意:Qwen3-VL-Plus 19.2%,Grok-4 16.2%,Claude-4.5-Opus 14.2%。

在开源模型中,表现最好的是 Qwen3VL-235B-Thinking,总分达到22.2%。

其中,Qwen3VL 的 Thinking 版本优于 Instruct 版本,这表明显示显式推理能减轻视觉不确定性。

此外,即使是最大的开源模型,仍无法与顶尖闭源系统匹敌。

那么,问题来了。

为什么在 HLE、IMO 等高难度任务中展现出博士级"智商"、甚至能解数学难题的大模型,却会在一些看似简单的"找不同"任务中频频翻车?

先说结论:当前的多模态大模型,通常是在推理前,先将视觉输入转化为语言表征来处理。

这种做法充分利用了大型语言模型强大的推理能力,但也引入了一个根本性的限制:

凡是无法被语言准确表达的视觉信息,都会在这一过程中被丢失。

例如,图像中"一辆红色的汽车"可以被轻松转写为文字;但更细粒度的几何信息,如边界的精确曲率、交叉点的具体位置、相对空间关系的微小变化,却很难被语言忠实描述。

而正是这些"不可描述"的视觉特征,构成了 BABYVISION 任务的核心难点,也因此成为当前顶尖多模态模型普遍折戟的地方。

具体来说,BabyVision 将视觉推理拆解为 4 个核心能力维度:

细粒度辨别(Fine-grained Discrimination):检测细微的视觉差异

视觉追踪(Visual Tracking):追踪路径、线条和运动轨迹

空间感知(Spatial Perception):理解三维结构与空间关系

视觉模式识别(Visual Pattern Recognition):识别视觉中的逻辑与几何规律

基于上述能力维度,研究总结出当前MLLM面临的四个经典视觉核心挑战,具体如下:

非言语性精细细节的缺失

首先是非言语性精细细节的缺失,这些精细细节往往难以被语言精准地描述。

{jz:field.toptypename/}

比如在面对一个小的偏移、特定的边界曲线,或者仅仅是一个像素的差异时,多模态大模型(MLLMs)往往会把这些截然不同的选项当作差不多的来处理。

以表现最好的 Gemini 3 Pro Preview 为例,在下面的找拼图任务中,它就错误地选择了D 选项。

(正确答案:B)

在 Gemini 的推理过程中,它首先将形状转化为文字描述,再简化为粗略特征(如数量、拓扑结构),然后在语言空间中对比候选选项。

{jz:field.toptypename/}

相比之下,人类直接通过形状匹配瞬间完成任务。人类的大脑会对每个候选选项进行平移和旋转,检查边界是否对齐,整个过程无需借道文字,直接由几何驱动。

所以,这里的关键不在于逻辑的难度,而在于高保真感知的缺失。

流形一致性(Manifold Identity)的丢失

此外,研究还发现,多模态大模型难以在长距离空间中,可靠地维持感知的一致性。

比如,在下面的连线任务中,Gemini 3 Pro Preview 再度失败,错误地将塑料瓶连在了绿色垃圾桶中,以及将苹果核连在了蓝色垃圾桶中,

(正确答案:塑料瓶 - 蓝、试卷 - 黄,苹果核 - 绿)

研究发现,Gemini 在解题时,通常会把一条连续的曲线拆解成一连串简单指令,开云app登录入口比如向左、向右、向上、向下。

但问题在于,一旦出现交叉点,这种拆解方式就会让路径变得模糊,很容易走岔。

由于模型并没有在脑子里"真正记住"那条曲线的样子,它在经过交叉点后就可能无意中换到另一条线上。

这种错误对人类来说几乎一眼就能看出来,但当信息被压缩成文字后,反而很难察觉。

相比之下,人类一般会直接盯住一条线,一路跟到终点。而这种能力在人类幼儿时期就已经很自然地具备了。

空间想象力

研究发现的第三个普遍挑战是"空间想象力",也就是从二维图像中构建稳定的三维内部表征,并在保持结构不变的前提下,对其进行心理变换——

比如切换视角、投影轮廓,或推断被遮挡的体积。

举例来说:给你一个视图,让你想象如果从侧面看,它应该是什么样子。

在这一任务中,Gemini 3 Pro Preview 仍然选择了错误的 C 选项。

(正确答案:A)

在 Gemini 的推理过程中,模型会先将视觉场景转化为语言摘要,用文字描述物体,再基于这些文字去"猜测"二维特征。

但问题也正出在这里——文字叙述并不能忠实地表示空间状态。

一旦精确的图像被压缩成模糊的文本摘要,模型就很容易犯下可预期的错误:漏掉被遮挡的积木、数错层数,或使用了错误的三维投影关系。

相比之下,人类可以直接在脑海中从指定方向"转动"物体并进行对比,整个过程几乎不需要语言的参与。

视觉模式归纳

第四个挑战是视觉模式归纳:也就是从少量视觉示例中,总结出通用的变化规则,并把它应用到新的输入上。

在下面这个找规律的问题中,QWEN3-VL-PLUS 选择了错误的 B 选项。

(正确答案:C)

模型在这类任务中常见的做法,并不是理解"发生了什么变化",而是去数属性。

比如,颜色有多少、形状有几个、元素是否相似。它会描述源图像、描述目标图像,然后试图在文本层面把两者"对上"。

相较之下,人类在处理这类问题时,通常会直接对比前后的视觉示例,在脑中形成一个简单的"因果图":

哪个形状包含哪个形状?谁是框架,谁是内容?这些角色在从输入到输出的过程中是如何被重新分配的?

正是这种对视觉关系进行抽象推理的能力——而非简单的识别——构成了当前模型架构仍难以跨越的一道门槛。

基于 RLVR 与生成式建模的视觉推理

那么, 既然基于文本的视觉推理(如 VLM)存在天然局限,那么有没有办法对这一点加以改善?

对此,研究给出了两个方向:基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards ,RLVR ) 以及基于生成模型的视觉推理。

首先来看 RLVR。

具体而言,研究以 Qwen3-VL-8B-Thinking 作为基座模型,并在其上进行 RLVR 微调。

实验表明,在完成 RLVR 微调后,模型整体准确率提升了约 4.8 个百分点。从任务子类分布来看,大多数类别均出现不同程度的提升。

这和在 Qwen 推理模型中得到的洞见一致:一旦提取出视觉信号,显式的中间推理可以部分抵消视觉上的不确定性。

接下来是生成模型方法。

既然以语言承载视觉推理存在天然的"信息失真",模型能否效仿人类,通过"视觉重构"——

即在像素空间内直接演算(如绘制连线或补全图案)来完成推理。

基于这一认识,研究推出了BabyVision-Gen,评估了 3 种前沿视觉生成模型:NanoBanana-Pro、GPT-Image-1.5 和 Qwen-Image-Edit 在其之上的表现。

(注:BabyVision-Gen 从全量基准中筛选出 280 道适合生成式交互的题目,要求模型直接输出图像或视频流来表达解题过程)

实验结果显示:NanoBanana-Pro 表现最优,准确率达 18.3%;而 GPT-Image-1.5 与 Qwen-Image-Edit 分别为 9.8% 和 4.8%。

虽然成功率仍然不高,但研究认为,NanoBanana-Pro 与 Sora-2 等模型展现出了显式视觉思维,能够沿逻辑路径生成物理轨迹。

此外,在相似的字母中找不同的任务里,基于生成式的方法也表现出了一定的视觉思维能力。

这里的失误也表明:单纯的生成能力并不等同于严密的推理,生成过程还必须由稳健的视觉语义理解(Visual Understanding)进行引导。

由此,研究绕过"语言瓶颈"的统一架构,揭示了一个关键的研究趋势:将生成模型转化为原生多模态推理器。

相比于传统的 MLLM 强行将视觉信号压缩成文本,像 Bagel 这样的统一架构,能够在推理过程中保留高保真的视觉表征。

这种架构允许模型在视觉空间内进行"显式思考"——通过勾勒中间步骤、突出关键区域或实时绘制轨迹来解析问题。

同时,像 Sora 2 和 Veo 3 等模型在建模物理动力学与空间关系的能力上,进一步支持了"生成本身即是推理的一种高级形式"这一观点。

参考链接

[ 1 ] https://unipat.ai/blog/BabyVision

[ 2 ] https://arxiv.org/abs/2601.06521v1

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

� �  年度「AI 100」产品榜单正式发布!

量子位智库通过三大板块——最强综合实力的「旗舰 AI 100」、最具未来潜力的「创新 AI 100」和十大热门赛道代表产品,全面梳理 2025 年度国内 C 端 AI 产品的发展脉络与创新成果。

一键关注 � � 点亮星标

科技前沿进展每日见



推荐资讯
  • 开云中国app登录入口 从2026年央视春晚第四次彩排,看马年春晚的4大特质!

    图片 2026年2月8日,马年央视春晚完成了第四次彩排。从曝光的演员威望来看,马年央视春晚呈现4大特质: 一是港台演员扎堆。 每年央视春晚,王人少不了港台演员。借助春晚这个平台走红的港台演员不少,主要有张明敏、张德兰、奚秀兰、潘好意思辰、费翔等。 这些年,港台演员纷纷来内陆发展,他们以进入央视春晚为荣。着实,港台演员只...

  • 开云app登录入口 男篮对日14东谈主名单!曾凡博出局,杜锋两弟子留用,深圳双子星上位

    2月23日上昼,中国男篮公布了出征第二阶段世初赛的名单,和之前瞻望的雷同,带上14名球员,包括赵继伟、赵睿、廖三宁、高诗岩、胡明轩、贺希宁、李弘权、朱俊龙、赵嘉义、王浩然、胡金秋、焦泊乔、张镇麟、余嘉豪。 此次队伍里出现3个新面目,何况是初度参加海外正赛,包括李弘权、王浩然和焦泊乔,即使最终不在12东谈主名单里,但亦然...

  • 开云app登录入口 最具首脑气质的星座男

    首脑气质从不是单纯的自我膨胀,而是危急关头的担当、迷雾之中的决断,以及凝合东说念主心的口头。在星座谱系里,这四位星座男凭借赫然的脾气天禀,将率领力刻入骨髓。狮子座以气场焚烧愿景,摩羯座用肃肃落地战术,天蝎座靠瞻念察掌控全局,水瓶座凭远见界说观念。 狮子座男是天生的魔力型首脑,自带 “聚光灯效应”。他们的首脑气质源于刻在...

  • 开云app登录 莱昂纳德休整一场,船主迎来牛逼副手,弗兰格运作号称精确

    在刚实现的全明星周末正赛中,看成主场明星之一的莱昂纳德展现出极强火力,一节独砍31分的推崇战抖了全场不雅众,也让敌手对他的包夹防范决心愈加强硬。紧接着,全明星赛后的快船际遇西部劲旅丹佛掘金的挑战,而掘金由约基奇领衔,这位在全明星赛上遴荐平缓留意的MVP推崇并不卖力。总共比赛流程中,快船一直处于下风,但他们凭借关节时刻的...

  • 开云app登录入口 告诉我方,再爱也不会回头了

    标题:告诉我方,再爱也不会回头了 开云app登录入口 在广泛的星空下,每一颗星皆有它独到的轨迹。就像咱们每个东说念主的生命旅程,偶然咱们会迷失场合,但最终皆会找到属于我方的星辰大海。今天,我念念以作者的身份,用一种专科而难懂的口吻,与你共享一个对于爱情的故事。 在这个故事中,有两颗星星,它们...

开云首页

TOP
友情链接:

Copyright © 1998-2026 开云app登录入口™版权所有

sdftguanye.com 备案号 备案号: 

技术支持:®开云app  RSS地图 HTML地图