AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

AI资讯2周前发布
5 0

最近几天,整个互联网陷入阴影 —— AI,在用数手指嘲笑人类。

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

人类给 AI 的这道题,指令很简单:在图中的每根手指上,依次标出数字

当然题目中有个小陷阱,就是这只手其实有六个手指。结果,Nano Banana Pro 理直气壮地在这只手上标出 1、2、3、4、5,直接略过了其中一只手指

这荒诞的场面,再一次震惊了网友们。

AI 模型是真的这么傻吗?

很多人不这么认为 —— 或许,AI 只是在装傻,调戏人类而已。很有可能,它是在嘲笑这些试图测试自己的劣质人类。

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

为了通过图灵测试,AI 必须让自己变得愚蠢一点,才能看起来像人类。如果太聪明,人类就破防了。

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

GPT-5.2,同样翻车了

有人也拿这个问题去问 GPT-5.2,而且 prompt 里明明白白写了图里有六根手指。但 GPT-5.2 面对「图里有几根手指」的问题,还是斩钉截铁地说:五根!

理由就是:人类有五根手指,所以图里没有五根手指就是错的。

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

还有人把手指画得奇形怪状,人类都要难倒的地步。

但面对这张图,Nano Banana Pro 依然斩钉截铁地回答:5 根,我确信,就是 5 根!

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

总之,无论画成什么样子,AI 始终无法数出 6 根手指

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

为了让 AI 数对手指,网友们疯了

有人不信邪了,非要让模型画对数字不可。

他直接给出指令:把 4 左移一个手指,把 5 左移一个手指,然后在大拇指那里写上 6。

够清晰了吧?结果,模型照样不听,直接把 3 给弄没了。

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

网友直接原地被逼疯。

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

其他网友为了帮他,奇招百出,比如让模型把手画的数字改成电子版的,总算成功了。

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

也有人告诉模型依次在小指到大拇指上放数字,不要重复,结果也成功了。

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

AI 数手指,为什么数不对

所以,为什么 AI 很难数对几根手指呢?

有人给出这样的解释:AI 找的是基本形状,而非精确图像,然后将该形状代表的传统认知和实际外观进行比较。

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

有人猜,是否能告诉 AI 这不是手,而是不规则物体,从而规避掉 AI 大脑中的「偏见」?

结果,他果然成功了。

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

网友们随后试验了各种奇形怪状的手,果然,这回 Gemini 就答对了。

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

或许 AI 之前已经被训练了识别特定的 emoji,如果换成别的图,它反而可以做正确的视觉推理了。

手指难题,AI 目前的大 bug

这次 AI 数手指大翻车,也揭露了当前模型的一个关键缺陷 —— 思考的机械和割裂

很有可能,文本模型看到指令后,内部逻辑是这样的:「手有五根手指,所以需要五个数字。」所以,即使它「看到」了六指图像,它的视觉识别能力也不足以纠正这种根深蒂固的文本认知。

为什么 AI 如此执着于「五指」的概念?这是源于它训练数据的基本特征。

在人类手部图像数据中,五指手占据绝对主导地位。而模型已经从海量数据中学到「人手 = 五指」这一强关联,以至于当情况偏离这一情况时,模型会视为异常,自动纠错,而并不会认为自己需要理解一个新事实

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

具体来说,当前 AI 视觉系统的工作方式,本质上是将复杂场景简化为一组可识别模式。

当面对像六指手这样同时包含常见元素(手部)和罕见特征(多指)的图像时,系统倾向于将其强行纳入已知模式。

图像分类器通常输出边界框和标签,但当遇到训练分布之外的物体时,边界框可能缺失或错误合并多个对象。

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

一个残酷的真相就是,性能再厉害的模型,也不懂什么叫「5 根手指」。因为,AI 看到的是纹理、形状、概率,而不是结构,不是数量,不是实体。

Transformer,并行计算的代价

而手指难题,也凸显出了 Transformer 架构的一大弱点。

Transformer 架构的并行计算能力,是当今 AI 飞速发展的关键,但这种设计也存在代价。单次前向传递无法有效追踪状态信息,系统难以执行需要多步骤逻辑推理的任务

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

面对六指手,AI 就会缺乏「注意到异常-重新评估-调整方案」的连贯思维链条。它只是机械地应用从训练数据中学到的最强模式。

手的特殊性,在于数量固定、结构复杂、局部高度相关,而对于 AI 来说,多局部一致性、跨区域约束、数量不可变,恰巧是 Transformer 最不擅长的,堪称地域难度。

扩散模型的本质

从另一个角度分析,也可以这么理解。

扩散模型的本质是学习一个从噪声到清晰图像的概率分布逆推过程。

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

它擅长捕捉数据的整体分布和纹理风格(例如,生成一只「看起来像手的轮廓」)。

但在精确控制局部、离散、高对称性的结构(例如,五根长度、位置、关节关系都正确的手指)时,就显得力不从心了。

从数据上看,训练数据中「五指」的绝对主导地位,使模型将「五指」视为不可违反的强统计先验。

就像一个看了 100 万只五指手的画家,你让他画六指手时,他总会无意识地将第六指融入到其他五指的阴影或姿势中,因为他的大脑早已深深刻入「手即五指」的概念。

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

从算法层面上看,扩散模型在去噪的每一步,都是基于整个图像的潜在表示进行全局预测。它没有为「手指」这类特定结构设立显式的、受保护的局部计算单元。

因此,细微的噪声扰动或步骤误差,很容易在密集区域被放大,导致细节扭曲。

从架构层面看,现有模型是「端到端」的,直接从文本提示映射到像素。中间缺乏一个明确的、符号化的结构表示层。

因此,「长什么样」和「结构是什么」两者冲突时,它就大脑宕机了。

而如果想解决这些瓶颈,或许业界就需要采用混合建模的模式 —— 将扩散模型(擅长纹理)与显式结构模型(如 3D 网格)结合。

或者引入局部注意力与约束 —— 在模型架构中强化对特定区域(如手部)的局部注意力机制,或在训练 / 推理过程中引入几何约束损失函数。

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

当代 AI 的阿喀琉斯之踵

让人感慨的是,Transformer 最强的地方(Token-to-token 预测),反而成了它的致命短板。没有对象概念,没有显式结构约束,整个世界都被打平为 token 序列

诚如一位网友所言:「视觉数据的复杂性远超文本,我们可能需要数十个数量级更多的计算资源,才能真正理解和处理视觉世界的全部细微差别。」

这不由让人想起,不久前谷歌 DeepMind 首席科学家对当前 AI 的评价。

虽然在语言、知识、编码等领域,它们已远超常人,但在视觉推理、长期学习、因果关系理解上,它们仍然不足。

AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷

「手指难题」犹如一面镜子,照出了当前以扩散模型为代表的 AI 模型的阿喀琉斯之踵 —— 它们在学习和复现数据的连续分布上取得了革命性成功,但在理解和生成精确的离散结构和拓扑关系上,仍然依赖于数据中的强统计先验,缺乏真正的物理和几何推理能力

而如果想要彻底解决「手指难题」,就需要更先进的架构、更多样化的训练数据,以及人类对 AI 能力更清醒的认识。

在这个 AI 无所不能的时代,「手指难题」提醒我们 —— 即使是如今最先进的 AI,也仍在学习如何看待世界的基本细节。

本文来自微信公众号:新智元(ID:AI_era),原标题《全网破防,AI「手指难题」翻车逼疯人类!6 根手指,暴露 Transformer 致命缺陷》

© 版权声明

相关文章