德克萨斯大学和新加坡国立大学研究者发现一个令人深思的计算盲区
这项由德克萨斯大学奥斯汀分校与新加坡国立大学联合开展的研究将于2026年发表在计算语言学领域的顶级会议ACL Findings上论文编号为arXiv:2604.18203v1发布于2026年4月20日。有兴趣深入了解的读者可以通过该编号查询完整原文。一、那个让AI频频出错的小把戏先来做一道题47乘以36等于多少对大多数人来说这只是一道小学数学题花几分钟列竖式就能得出答案1692。但如果把同样的题目换一种方式呈现——不是打成数字而是截一张图或者用语音说出来——这道题的难度会改变吗对于我们人类来说答案显然是不会的不管别人是写给我们看还是说给我们听算法本身没有变答案当然一样。但对于当前最先进的多模态大型语言模型也就是那些能同时看图、听声音、读文字的AI系统来说情况却远比我们想象的复杂。研究团队注意到一个奇特的现象同一道乘法题以数字文本的形式呈现时AI可能答对但把这道题渲染成图片或者转成音频说出来AI的表现就开始打折扣了。更奇怪的是即便同样是文字把47×36改写成四十七乘以四十六AI的准确率也会有所不同。这背后到底是AI看不懂还是算不来为了回答这个问题三位来自德克萨斯大学奥斯汀分校和新加坡国立大学的研究者精心设计了一套实验试图把这个问题查个水落石出。二、做一把精密的尺子算术负担指数C在正式拆解AI的乘法困境之前研究团队首先面临一个工程上的挑战如何用一个简单的数字来衡量一道乘法题有多难直觉上位数越多的乘法越难——1000乘以200当然比7乘以3要费劲得多。但光看位数还不够因为1000乘以100实际上比89乘以67要简单尽管前者的数字看起来更大。关键在于数字里面有多少个真正参与计算的非零数字因为零乘以任何数都等于零可以跳过。于是研究团队定义了一个他们称为算术负担的指标用字母C表示。计算方法是把两个操作数加起来的总位数乘以两个操作数合计的非零位数。以47乘以36为例两个数合计有4位而这4位全都是非零数字所以C等于4乘以4等于16。再看1000乘以200总位数是7但非零位只有2个1和2所以C等于7乘以2等于14难度反而更低。这个指标C的设计思路就像评估一道菜的制作难度不仅要看食材的总数量还要看有多少食材需要实际处理。一道菜里有二十种食材但其中十五种都是随便撒点盐这样的简单操作真正费工夫的只有五种那整体难度其实并不高。研究团队在后续验证中发现C虽然不完美但在预测AI准确率方面有相当强的解释力决定系数R?普遍超过0.5而且与那些考虑了进位传播、中间步骤数量的更复杂指标相比C的表现差距并不大。三、搭建考场跨模态乘法基准测试有了测量难度的尺子接下来就是搭建考场。研究团队构建了一套包含一万道配对乘法题的测试集每道题都同时以三种甚至四种形式呈现纯数字文本、数字单词文本比如forty-seven times thirty-six、将文本渲染成图片的视觉版本以及音频版本。题目的设计相当系统。研究团队预设了几种数字模板来控制操作数的结构最简单的是单个随机数字接着是两位随机数字组成的VV型三位数字的VVV型还有带有尾部零的V0V00VV0型以及非相邻非零位的V0V型。这种设计能在不改变题目形式的前提下系统地拉高或降低算术难度产生丰富多样的进位模式。参与测试的AI模型阵容相当豪华涵盖了谷歌的Gemini 2.5 Flash、阿里云的Qwen3-VL30亿和2350亿参数两个版本、OpenAI的GPT-4o和GPT-5.4以及xAI的Grok 4.20。对于需要进行更深层分析比如访问每个词的损失值的实验研究团队重点使用了Qwen3-VL的两个版本。四、看得见和算得出竟然是两回事测试结果揭示了一个相当关键的发现研究者将其称为感知与计算的分离。通俗地说研究团队设计了两类题目一类是识别题——直接问AI图片或音频里的数字是多少另一类是计算题——把这两个数字乘起来答案是什么如果AI在图片版乘法题上答错了原因可能有两种要么是它没看清楚图片里写的是什么数字感知失败要么是它看清楚了但就是算错了计算失败。实验结果非常清晰地指向了第二种原因。在感知检查中所有模型在所有模态下的正确率均超过99%——也就是说AI完全能准确读出图片里或音频里的数字。但在随后的计算环节准确率就会随着C的增长而急剧下降当C超过100时很多模型的正确率几乎趋近于零。这个发现相当于告诉我们AI的乘法失败不是因为它看不见题目而是因为它算不来。这对那些担心图片会干扰AI读数的人来说是个好消息但对于希望AI能可靠地完成计算任务的应用场景来说则揭示了一个更深层的能力边界。五、谁比谁更能抗各模型的表现大比较既然找到了难度的统一刻度C就可以在同一把尺子上比较各家AI的表现了。研究团队为每个模型在每种输入形式下分别拟合了一条预测准确率的曲线并提取了几个关键参数。其中最直观的是50%门槛——也就是当C增长到多少时这个模型的预测准确率会降到五成。门槛越高说明模型越能扛住难题。Gemini 2.5 Flash、Qwen3-VL-30B和GPT-4o表现相近50%门槛大约落在C等于50到54的区间。这意味着对这些模型来说当乘法题的算术负担超过50猜对的概率就已经降到了一半。Qwen3-VL-235B明显更强50%门槛在74到75之间展现出参数规模带来的算力优势。GPT-5.4和Grok 4.20总体表现更好但它们对输入格式更敏感——在纯数字文本或数字图片上门槛相对较高但一旦换成字母拼写的图片门槛就会明显下滑。值得注意的是不同模态之间的差异往往体现在起点截距上而不是斜率上。换句话说图片和音频模态往往从更低的基准准确率出发但随着C增长而下降的速度与文本模态差不多。数字图片通常与数字文本表现接近字母拼写的图片则是最稳定的弱点而音频在被评估的条件下并没有表现出统一的惩罚效应。还有一个特别值得一提的极端案例谷歌的Gemini 3.1 Pro。这个模型在C不超过100的原始测试范围内表现近乎完美令人叹为观止。但代价是——它的推理速度极慢每种模态需要超过一小时而其他模型只需几分钟它输出的词语数量也是其他模型的十倍以上。为此研究团队专门将测试范围扩展到C等于400才终于看到Gemini 3.1 Pro的准确率开始下滑转折点大约在C等于360附近对应的例题是一千六百多万乘以五十六亿这样的超大数字。六、AI更喜欢哪种算法口味测试揭秘搞清楚AI在哪里会出错之后研究团队进一步追问当AI计算乘法时它在脑子里或者更准确地说在权重矩阵里倾向于用哪种方法人类在做乘法时会根据题目特点选择不同策略。比如算49乘以51大多数人会想到差不多50乘以50再调整一下这叫做取整补偿法RC。算47乘以60则会自然地想到47乘以6再加个零这叫分配分解法DD。而面对87乘以96这样没有明显规律的题目老老实实列竖式逐位相乘就是列式乘法OT。研究团队设计了一个巧妙的口味测试他们为每种方法写了一段简短的开场白比如列式法从个位数字开始……或者分解法把一个因数拆成各位值……然后把这些开场白接在题目后面测量AI对哪种开场白的延续意愿更强——在统计上这体现为模型预测这段续写所需的交叉熵损失值损失越低说明这种续写越符合模型的自然倾向。结果相当一致不管是30亿参数版本还是2350亿参数版本不管是文字题还是图片题AI都对分配分解法DD表现出最低的损失值也就是最强的口味偏好。在30亿版本中DD在文字模态下的delta损失为-0.5060低于中性基准意味着更受偏爱图片模态为0.9156在2350亿版本中虽然所有策略的损失都高于中性基准但DD仍然是损失最低的一个1.4734而OT高达2.3409。列式法OT则始终是最不受AI青睐的选项。研究团队还专门测试了这个口味是真实的算法偏好还是仅仅因为某些措辞更常见。他们替换了测试用的模板措辞发现虽然替换措辞会让测量结果变得更嘈杂噪声增大但AI的整体偏好方向基本不变——就像换了口音但还是在说同一件事。这说明AI对DD的偏好不是表面的文字匹配而是有一定的实质性根基。七、能不能强行换口味LoRA适配器的失败启示既然AI有自己的算法偏好下一个问题自然是能不能通过训练让它强制使用某种特定的方法从而提升准确率研究团队尝试了一种轻量级的训练方式叫做LoRA适配器低秩适应可以把它理解为在原有AI模型基础上加了一个薄薄的行为补丁而不用重新训练整个庞大的模型。他们分别为三种算法策略各训练了一个补丁一个专门鼓励取整补偿法一个鼓励分配分解法一个鼓励列式乘法另外还有一个纯粹模仿推理格式但不强调任何特定算法的对照补丁。每个补丁大约用了一千道精心选择的例题训练。实验结果令人沮丧却也颇有启发性。在用这些补丁测试144道题每种补丁时三种算法补丁总共在432次比较中造成了114次正确率翻转——其中只有1次是从错变对另外113次是从对变错。类似地2350亿版本的模型在432次比较中有121次翻转4次变好、117次变差。就连那个只模仿推理格式、不涉及任何具体算法的对照补丁也主要带来了准确率的下降。这说明什么AI的原始内部路由机制——也就是它自发选择哪种算法策略的能力——实际上比任何人为强制设定的单一策略都要优化得更好。当外部补丁强行把AI推向某种固定套路时反而破坏了它原本灵活调度的能力。就像一个经验丰富的厨师他懂得根据食材状况随机应变而如果你强行规定他每道菜都必须用同一种烹饪手法结果反而会更糟。事后分析出错类型最常见的错误是漏掉了某个中间乘积没有发现数量级错误或进位遗漏。这进一步说明强制使用单一策略会导致AI在执行算法时丢失步骤而不是产生其他类型的错误。八、不同策略在参数空间里住得有多远为了从更底层理解这三种算法策略是否对应了AI内部真正不同的计算机制研究团队做了一个几何分析。每个LoRA补丁在训练完成后都会产生一组参数更新可以把它想象成一个指向某个方向的向量。如果两种策略的补丁在参数空间里指向几乎相同的方向余弦相似度接近1说明它们调用了类似的底层机制如果几乎垂直余弦相似度接近0则说明是完全不同的计算子空间。结果显示三种策略的补丁方向彼此几乎正交——余弦相似度全都接近零。在30亿版本中OT和DD之间的相似度只有0.0726DD和RC之间为0.1192在2350亿版本中数字更小OT和DD之间仅有0.0412DD和RC之间为0.0342。为了确认这不是随机噪声研究团队用不同的随机种子重新训练了相同策略的补丁发现同一策略的两次训练之间的相似度30亿版本约为0.2553明显高于不同策略之间的相似度30亿版本约为0.1055。这说明每种策略的补丁确实在参数空间里占据了相对独立的位置三种人类算法策略在AI内部有着各自不同的神经实现。九、当AI遇到陷阱题策略偏好有多脆弱研究团队还设计了一批专门的对抗陷阱题目用来测试AI的策略偏好在面对具有误导性的题目时会不会崩溃。比如一道反取整陷阱题会让题目表面上看起来很适合取整补偿法比如操作数接近50但实际上隐藏了一个额外的修正负担让取整法用起来反而麻烦。缺项分解陷阱则测试AI在进行分配分解时会不会漏掉某个必要的中间乘积。实验结果显示陷阱题确实会重新分配AI的策略偏好。在对抗取整陷阱时30亿版本的模型对RC策略的偏好分数从正常测试集的26.5%上升到了34.5%——也就是说陷阱题反而让模型更强烈地认为应该使用取整法恰好落入了陷阱设计者的圈套。2350亿版本的模型也有类似的变化但幅度小得多从12.4%上升到15.6%表现出更强的鲁棒性。这个发现意味着规模更大的模型不仅算术能力更强在面对误导性线索时也更不容易被带偏具有更稳定的内部判断机制。说到底这项研究告诉了我们一件很有意思的事AI的聪明比我们想象的更专一也更脆弱。它能精准地看懂任何格式呈现的数学题但真正的瓶颈在于计算本身。随着数字位数增多、非零数字变多AI的乘法准确率会以相当可预测的方式急剧下滑而且这种下滑在图片、音频、文字等各种输入形式下都惊人地相似——多模态的外壳包裹的是同一套计算能力的极限。归根结底AI更偏爱分配分解法这种偏好既有实质根基又在一定程度上受到了题目格式和操作数结构的影响。而当我们试图用轻量级训练强行改变这种偏好时反而把它原本运转良好的内部路由给搅乱了。这或许意味着对于需要可靠算术能力的应用场景与其试图训练AI掌握某种固定算法不如给它提供外部计算工具让它把读题和算题的工作拆开来做。如果你对这项研究感兴趣想要了解更多技术细节可以在arXiv上通过编号2604.18203查阅完整论文获取所有实验数据、方法细节和附录内容。---QAQ1算术负担指标C是怎么计算的为什么用这个指标A算术负担C的计算方式是两个操作数的总位数乘以两个操作数中非零位数的总数。以47乘以36为例总位数是4非零位数也是4所以C等于16。之所以选这个指标是因为它能简洁地反映乘法真正需要做的计算量——零乘任何数都是零可以跳过所以非零位数才是核心难度来源。研究发现C对AI准确率的预测力相当强R?通常超过0.5与更复杂的进位步骤计数方法相比差距不大。Q2多模态AI在乘法题上的失误到底是看错了数字还是算错了A主要是算错了而不是看错了。研究团队专门做了感知检查实验单独测试AI能否正确读出图片或音频里的数字结果所有模型在所有模态下的识别准确率均超过99%。但在随后的乘法计算中准确率随算术负担C增大而急剧下滑。这说明多模态AI的失败根源不在于感知能力而在于计算能力本身的局限。Q3为什么给AI强制训练某种乘法策略反而让准确率下降A因为AI原有的内部路由机制比任何单一固定策略都更灵活、优化得更好。轻量级LoRA适配器训练会把AI推向某种固定套路破坏它原本根据题目特点灵活调度算法的能力。实验中三种策略补丁在432次比较中造成了114次正确率翻转其中113次是从对变错。就连只模仿推理格式、不强调具体算法的对照补丁也主要带来了准确率下降说明问题出在干扰了模型原本的自然路由而非策略本身。