你的位置：开云app登录入口 > 开云首页 > 开云app登录入口最强大模型的视觉能力不如6岁小孩

热点资讯

开云app登录入口

开云app登录入口最强大模型的视觉能力不如6岁小孩

发布日期：2026-01-24 12:47 点击次数：102

谁敢想？

视觉推理这一块，大模型现在还嫩得像个 3 岁小孩。

来自 UniPat AI、xbench、阿里、月之暗面、阶跃星辰等多家研究机构的最新研究显示：

在BabyVision视觉推理 benchmark 上，当前表现最强的Gemini 3 Pro Preview也只是小胜三岁儿童，跟六岁儿童仍有20%的差距。

与成年人94.1的水平相比，更是天壤之别。

更关键的是，Gemini 3 Pro Preview 已经是当前一众模型中的"天花板"。

其他前沿模型，包括GPT-5.2、Claude 4.5 Opus、Grok-4等，整体表现甚至不如三岁小孩。

这一扎心结论，无疑又给当前基于 VLA（M）的具身智能泼了盆冷水。

毕竟，一个视觉能力尚未达到三岁儿童水平的 AI，很难被指望在真实物理世界中稳定、安全地协助人类。

也正是在这个意义上，BabyVision 还给出了另一种视角：

要真正推进多模态智能，未来的模型必须从底层重建视觉能力，而不是继续依赖将视觉问题翻译成语言来"绕行"。

视觉推理的语言化瓶颈

在完整的评估中，研究对比了开源和闭源模型的表现：

在闭源模型中： Gemini 3-Pro-Preview 以49.7%的得分领跑，随后是 GPT-5.2 ( 34.4% ) 和豆包 -Seed-1.8 ( 30.2% ) 。

其余模型表现则不尽人意：Qwen3-VL-Plus 19.2%，Grok-4 16.2%，Claude-4.5-Opus 14.2%。

在开源模型中，表现最好的是 Qwen3VL-235B-Thinking，总分达到22.2%。

其中，Qwen3VL 的 Thinking 版本优于 Instruct 版本，这表明显示显式推理能减轻视觉不确定性。

此外，即使是最大的开源模型，仍无法与顶尖闭源系统匹敌。

那么，问题来了。

为什么在 HLE、IMO 等高难度任务中展现出博士级"智商"、甚至能解数学难题的大模型，却会在一些看似简单的"找不同"任务中频频翻车？

先说结论：当前的多模态大模型，通常是在推理前，先将视觉输入转化为语言表征来处理。

这种做法充分利用了大型语言模型强大的推理能力，但也引入了一个根本性的限制：

凡是无法被语言准确表达的视觉信息，都会在这一过程中被丢失。

例如，图像中"一辆红色的汽车"可以被轻松转写为文字；但更细粒度的几何信息，如边界的精确曲率、交叉点的具体位置、相对空间关系的微小变化，却很难被语言忠实描述。

而正是这些"不可描述"的视觉特征，构成了 BABYVISION 任务的核心难点，也因此成为当前顶尖多模态模型普遍折戟的地方。

具体来说，BabyVision 将视觉推理拆解为 4 个核心能力维度：

细粒度辨别（Fine-grained Discrimination）：检测细微的视觉差异

视觉追踪（Visual Tracking）：追踪路径、线条和运动轨迹

空间感知（Spatial Perception）：理解三维结构与空间关系

视觉模式识别（Visual Pattern Recognition）：识别视觉中的逻辑与几何规律

基于上述能力维度，研究总结出当前MLLM面临的四个经典视觉核心挑战，具体如下：

非言语性精细细节的缺失

首先是非言语性精细细节的缺失，这些精细细节往往难以被语言精准地描述。

{jz:field.toptypename/}

比如在面对一个小的偏移、特定的边界曲线，或者仅仅是一个像素的差异时，多模态大模型（MLLMs）往往会把这些截然不同的选项当作差不多的来处理。

以表现最好的 Gemini 3 Pro Preview 为例，在下面的找拼图任务中，它就错误地选择了D 选项。

（正确答案：B）

在 Gemini 的推理过程中，它首先将形状转化为文字描述，再简化为粗略特征（如数量、拓扑结构），然后在语言空间中对比候选选项。

相比之下，人类直接通过形状匹配瞬间完成任务。人类的大脑会对每个候选选项进行平移和旋转，检查边界是否对齐，整个过程无需借道文字，直接由几何驱动。

所以，这里的关键不在于逻辑的难度，而在于高保真感知的缺失。

流形一致性（Manifold Identity）的丢失

此外，研究还发现，多模态大模型难以在长距离空间中，可靠地维持感知的一致性。

比如，在下面的连线任务中，Gemini 3 Pro Preview 再度失败，错误地将塑料瓶连在了绿色垃圾桶中，以及将苹果核连在了蓝色垃圾桶中，

（正确答案：塑料瓶 - 蓝、试卷 - 黄，苹果核 - 绿）

研究发现，Gemini 在解题时，通常会把一条连续的曲线拆解成一连串简单指令，开云app登录入口比如向左、向右、向上、向下。

但问题在于，一旦出现交叉点，这种拆解方式就会让路径变得模糊，很容易走岔。

由于模型并没有在脑子里"真正记住"那条曲线的样子，它在经过交叉点后就可能无意中换到另一条线上。

这种错误对人类来说几乎一眼就能看出来，但当信息被压缩成文字后，反而很难察觉。

相比之下，人类一般会直接盯住一条线，一路跟到终点。而这种能力在人类幼儿时期就已经很自然地具备了。

空间想象力

研究发现的第三个普遍挑战是"空间想象力"，也就是从二维图像中构建稳定的三维内部表征，并在保持结构不变的前提下，对其进行心理变换——

比如切换视角、投影轮廓，或推断被遮挡的体积。

举例来说：给你一个视图，让你想象如果从侧面看，它应该是什么样子。

在这一任务中，Gemini 3 Pro Preview 仍然选择了错误的 C 选项。

（正确答案：A）

在 Gemini 的推理过程中，模型会先将视觉场景转化为语言摘要，用文字描述物体，再基于这些文字去"猜测"二维特征。

但问题也正出在这里——文字叙述并不能忠实地表示空间状态。

一旦精确的图像被压缩成模糊的文本摘要，模型就很容易犯下可预期的错误：漏掉被遮挡的积木、数错层数，或使用了错误的三维投影关系。

相比之下，人类可以直接在脑海中从指定方向"转动"物体并进行对比，整个过程几乎不需要语言的参与。

视觉模式归纳

第四个挑战是视觉模式归纳：也就是从少量视觉示例中，总结出通用的变化规则，并把它应用到新的输入上。

在下面这个找规律的问题中，QWEN3-VL-PLUS 选择了错误的 B 选项。

（正确答案：C）

模型在这类任务中常见的做法，并不是理解"发生了什么变化"，而是去数属性。

比如，颜色有多少、形状有几个、元素是否相似。它会描述源图像、描述目标图像，然后试图在文本层面把两者"对上"。

相较之下，人类在处理这类问题时，通常会直接对比前后的视觉示例，在脑中形成一个简单的"因果图"：

哪个形状包含哪个形状？谁是框架，谁是内容？这些角色在从输入到输出的过程中是如何被重新分配的？

正是这种对视觉关系进行抽象推理的能力——而非简单的识别——构成了当前模型架构仍难以跨越的一道门槛。

基于 RLVR 与生成式建模的视觉推理

那么，既然基于文本的视觉推理（如 VLM）存在天然局限，那么有没有办法对这一点加以改善？

对此，研究给出了两个方向：基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards ，RLVR ) 以及基于生成模型的视觉推理。

首先来看 RLVR。

具体而言，研究以 Qwen3-VL-8B-Thinking 作为基座模型，并在其上进行 RLVR 微调。

实验表明，在完成 RLVR 微调后，模型整体准确率提升了约 4.8 个百分点。从任务子类分布来看，大多数类别均出现不同程度的提升。

这和在 Qwen 推理模型中得到的洞见一致：一旦提取出视觉信号，显式的中间推理可以部分抵消视觉上的不确定性。

接下来是生成模型方法。

既然以语言承载视觉推理存在天然的"信息失真"，模型能否效仿人类，通过"视觉重构"——

即在像素空间内直接演算（如绘制连线或补全图案）来完成推理。

基于这一认识，研究推出了BabyVision-Gen，评估了 3 种前沿视觉生成模型：NanoBanana-Pro、GPT-Image-1.5 和 Qwen-Image-Edit 在其之上的表现。

（注：BabyVision-Gen 从全量基准中筛选出 280 道适合生成式交互的题目，要求模型直接输出图像或视频流来表达解题过程）

实验结果显示：NanoBanana-Pro 表现最优，准确率达 18.3%；而 GPT-Image-1.5 与 Qwen-Image-Edit 分别为 9.8% 和 4.8%。

虽然成功率仍然不高，但研究认为，NanoBanana-Pro 与 Sora-2 等模型展现出了显式视觉思维，能够沿逻辑路径生成物理轨迹。

此外，在相似的字母中找不同的任务里，基于生成式的方法也表现出了一定的视觉思维能力。

这里的失误也表明：单纯的生成能力并不等同于严密的推理，生成过程还必须由稳健的视觉语义理解（Visual Understanding）进行引导。

由此，研究绕过"语言瓶颈"的统一架构，揭示了一个关键的研究趋势：将生成模型转化为原生多模态推理器。

相比于传统的 MLLM 强行将视觉信号压缩成文本，像 Bagel 这样的统一架构，能够在推理过程中保留高保真的视觉表征。

这种架构允许模型在视觉空间内进行"显式思考"——通过勾勒中间步骤、突出关键区域或实时绘制轨迹来解析问题。

同时，像 Sora 2 和 Veo 3 等模型在建模物理动力学与空间关系的能力上，进一步支持了"生成本身即是推理的一种高级形式"这一观点。

参考链接

[ 1 ] https://unipat.ai/blog/BabyVision

[ 2 ] https://arxiv.org/abs/2601.06521v1

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

� � 年度「AI 100」产品榜单正式发布！

量子位智库通过三大板块——最强综合实力的「旗舰 AI 100」、最具未来潜力的「创新 AI 100」和十大热门赛道代表产品，全面梳理 2025 年度国内 C 端 AI 产品的发展脉络与创新成果。

一键关注 � � 点亮星标

科技前沿进展每日见

推荐资讯

开云中国app登录入口从2026年央视春晚第四次彩排，看马年春晚的4大特质！
图片 2026年2月8日，马年央视春晚完成了第四次彩排。从曝光的演员威望来看，马年央视春晚呈现4大特质: 一是港台演员扎堆。每年央视春晚，王人少不了港台演员。借助春晚这个平台走红的港台演员不少，主要有张明敏、张德兰、奚秀兰、潘好意思辰、费翔等。这些年，港台演员纷纷来内陆发展，他们以进入央视春晚为荣。着实，港台演员只...
开云app登录入口男篮对日14东谈主名单！曾凡博出局，杜锋两弟子留用，深圳双子星上位
2月23日上昼，中国男篮公布了出征第二阶段世初赛的名单，和之前瞻望的雷同，带上14名球员，包括赵继伟、赵睿、廖三宁、高诗岩、胡明轩、贺希宁、李弘权、朱俊龙、赵嘉义、王浩然、胡金秋、焦泊乔、张镇麟、余嘉豪。此次队伍里出现3个新面目，何况是初度参加海外正赛，包括李弘权、王浩然和焦泊乔，即使最终不在12东谈主名单里，但亦然...
开云app登录入口最具首脑气质的星座男
首脑气质从不是单纯的自我膨胀，而是危急关头的担当、迷雾之中的决断，以及凝合东说念主心的口头。在星座谱系里，这四位星座男凭借赫然的脾气天禀，将率领力刻入骨髓。狮子座以气场焚烧愿景，摩羯座用肃肃落地战术，天蝎座靠瞻念察掌控全局，水瓶座凭远见界说观念。狮子座男是天生的魔力型首脑，自带 “聚光灯效应”。他们的首脑气质源于刻在...
开云app登录莱昂纳德休整一场，船主迎来牛逼副手，弗兰格运作号称精确
在刚实现的全明星周末正赛中，看成主场明星之一的莱昂纳德展现出极强火力，一节独砍31分的推崇战抖了全场不雅众，也让敌手对他的包夹防范决心愈加强硬。紧接着，全明星赛后的快船际遇西部劲旅丹佛掘金的挑战，而掘金由约基奇领衔，这位在全明星赛上遴荐平缓留意的MVP推崇并不卖力。总共比赛流程中，快船一直处于下风，但他们凭借关节时刻的...
开云app登录入口告诉我方，再爱也不会回头了
标题：告诉我方，再爱也不会回头了开云app登录入口在广泛的星空下，每一颗星皆有它独到的轨迹。就像咱们每个东说念主的生命旅程，偶然咱们会迷失场合，但最终皆会找到属于我方的星辰大海。今天，我念念以作者的身份，用一种专科而难懂的口吻，与你共享一个对于爱情的故事。在这个故事中，有两颗星星，它们...

开云首页

TOP

友情链接：

sdftguanye.com 备案号备案号:

技术支持:®开云app RSS地图 HTML地图

热点资讯

推荐资讯