DeepSeek被删的论文：给AI一根手指，它就能走出迷宫

昨天晚上，DeepSeek多模态研究员陈小康在X上发了一条推，兴奋地宣布他们的新论文上线。这篇论文叫《Thinking with Visual Primitives》，讲的是怎么让AI在思考的时候「伸出手指」指东西。

但第二天一早，推文删了，GitHub上的论文也撤了。

很多人看到这个消息的时候第一反应不是「论文有问题」——实际可能是这篇论文太超前，透露太多了。

因为读完它之后你会发现，DeepSeek发现了一个GPT、Claude、Gemini集体没解好的技术瓶颈，然后给了一个朴素到有点可笑的解法。而这个解法，如果拿到产品上真正跑起来，可能会改变多模态AI的竞争格局。

引用鸿沟：多模态模型的核心缺陷

这篇论文的核心观点其实一句话就能讲清楚：目前所有多模态大模型做图像推理的方式有个根本性的缺陷。

你想象一下，一张图里密密麻麻站了25个人，你想让AI数清楚到底有几个。GPT-5.4会怎么干？Claude-Sonnet-4.6会怎么干？它们会先把图片「看」进去，转化成一段文字描述，然后在文字层面做思维链推理。「左边有个穿蓝衣服的人」「右边后排有个戴帽子的」，诸如此类。

但你想想，光是「左边第三排穿蓝色球衣那个人旁边的那个」这种描述本身已经足够模糊了。25个人挤在一起，数着数着AI就忘了刚才数到谁，数重了或者漏了，逻辑链就这么断了。

论文把这个现象起了个名字，叫Reference Gap，引用鸿沟。

跟它对应的是过去两年OpenAI、Google、Anthropic一直在解决的另一个问题——Perception Gap，感知鸿沟。怎么让模型看得更清楚，高分辨率裁切、动态分块、把图片放大再塞进去，都是冲着这个去的。

感知鸿沟解决了「看清」，引用鸿沟解决的是「指准」。看清和指准，是两回事。

朴素的解法：给AI装一根手指

DeepSeek给出的解法说出来几乎有点可笑的朴素：给AI装一根手指。

具体来说，让模型在思考过程中直接输出图片上的坐标。不是作为最终答案输出坐标，而是把坐标嵌进思考过程本身。数一个人的时候，框一个坐标，再数一个人的时候，再框一个坐标，最后数框的数量就行了。

论文管这种坐标叫「视觉原语」，两种格式，一种是bounding box框住物体，一种是point在图上戳一个位置。说是「最小的思维单元」，就像人类思考的时候不自觉地伸手指东西一样。

这个思路的好处在于，模型不需要用模糊的语言去描述「左边第三排第几个」，它直接甩出一个坐标，精确到像素级别。每一步推理都有一个具体的坐标锚着，不会出现「等等刚才查到哪了」的情况。

技术细节：284B参数的MoE模型

底座模型是DeepSeek-V4-Flash，一个284B参数的MoE模型，推理时只激活13B参数。模型脑子很大但每次只派一小部分神经元干活。

视觉编码器做了三级压缩，一张756×756的图，57万像素，一路压下去变成81个信息单元，压缩比7056倍。

我看到这时候也好奇，这还能看清东西？但论文里的实验结果说明，确实能。不光能看清，还能精确数出图里有25个人。

对比一下，同样800×800的图，Gemini-3-Flash消耗约1100个token，Claude-Sonnet-4.6约870个，GPT-5.4约740个。DeepSeek最终计算时只用90个信息单元。别人用一千多个格子来记住一张图，它用90个就够了，省下来的算力全拿去让模型「一边想一边指」。

训练数据：从10万个数据源筛出4000万样本

训练数据这块也挺有意思。DeepSeek从Huggingface等平台把所有带目标检测标签的数据集都爬了下来，初筛得到接近10万个数据源。

然后做了两轮筛选：

· 第一轮用AI审标签质量，砍掉无意义编号、私人实体、模糊缩写这种，剩4万出头 · 第二轮查框的质量，漏标太多的、框画歪了的、框大到把整张图都框住的，再砍一批，剩3万出头

最后采样去重，产出超过4000万高质量样本。4000万条数据，听起来很多，但想想这是从10万个数据源里一层一层筛出来的。

后训练：先分头练，再合并

后训练的策略是先分头练再合并。先拿框的数据训练一个专门画框的专家模型，再拿点的数据训练一个专门标点的专家模型，分开练是为了防止两种能力互相干扰。然后对两个专家分别做强化学习，最后把两个专家的能力合到一个模型里。

强化学习这块有个细节值得说。DeepSeek设计了一套多维度的打分系统：格式对不对、逻辑通不通、答案准不准，三管齐下。数据筛选也有讲究：全做对的题太简单没训练价值，全做错的题太难学不到东西，只留「有对有错」的题来练。

实验结果：迷宫任务碾压对手

论文测了四大类任务：数数、空间推理、迷宫导航、路径追踪。前两类是框的能力，后两类是点的能力。

数数这块，DeepSeek在Pixmo-Count上拿到了89.2的EM，比Gemini的88.2和GPT的76.6都要高。在自己建的细粒度数数测试集上拿到88.7，也是最高。

空间推理这块，在自己建的Spatial_Reasoning上拿到98.7，Claude是77.2，GPT是81.1，差距非常明显。

但真正让人服气的是迷宫和路径追踪这两类拓扑推理任务。

迷宫任务：给一张迷宫图，问从起点到终点有没有路。有三种形状的迷宫——方格的、圆环的、蜂巢的。DeepSeek还特意设计了一批陷阱迷宫，乍一看有路，中间某段被偷偷堵住了，你得老老实实把能走的路都试一遍才能确认走不通。

准确率对比：

· DeepSeek：66.9% · GPT-5.4：50.6% · Claude-Sonnet-4.6：48.9% · Gemini-3-Flash：49.4% · Qwen3-VL：49.6%

迷宫只有两种答案，有路或者没路，随机猜正好50%。GPT、Claude、Gemini、Qwen全在50%附近晃，跟掷硬币没什么区别。DeepSeek的66.9%不算高，但关键区别在于：它是在一步一步走的。

论文里展示了一个圆形迷宫的完整探索过程，模型先标出起点终点，走了18步，中间两次钻进死胡同退出来，最后绕出了通路。那些50%的模型呢？大概率是看起点附近走势不错就直接猜有路，根本没认真搜。

路径追踪更直观：一堆线缠在一起，问你C这条线通向哪个终点。

· DeepSeek：56.7% · GPT：46.5% · Claude：30.6% · Gemini：41.4%

Claude的30.6%有点出乎意料，终点一般四五个选项，随机猜也该有20%出头，30.6%只比瞎猜强一点点。

三个局限

论文还坦诚地写了三个局限：

输入分辨率有限制，数手指这种精细场景坐标精度还不够——这大概就是前两天DeepSeek识图模式数手指翻车的直接原因
目前需要特定触发词才能激活视觉原语模式，模型还不能自己判断什么时候该「伸手指」
拓扑推理的泛化能力有限，训练过的迷宫类型效果好，换一种新的空间结构可能掉链子

然后论文就没了，被删了。

为什么被删？三种猜测

第一种可能：论文暴露了一个还在灰度测试中的产品级模型的技术底牌。DeepSeek-V4-Flash本身已经发布了（4月24日上线），但论文里真正暴露的，是基于它搭建的那个多模态推理模型。这个模型目前连正式名称都没有，识图模式也是4月29号才开始小范围灰度，论文就把它的参数配置、训练pipeline、视觉压缩方案、强化学习的reward设计全写了进去。对于一个还在灰度、随时可能调整的产品来说，这么早把技术方案公开，等于是把还没交卷的答卷提前亮出来了。

第二种可能：论文的benchmark对比数据太具体了。跟GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash的逐项对比，而且是在自己建的测试集上做的，这些数字一旦公开，对手可以针对性地优化。更重要的是，这些数据会让对手清楚地看到DeepSeek在多模态推理上的真实实力和策略方向。对于一家还在积累阶段的公司，过早暴露实力和方向未必是好事。

第三种可能，也是最值得玩味的一种：这篇论文的思路太清晰了，清晰到任何一个团队读完之后都能复现。「给思维链加坐标锚点」这个idea本身不难理解，训练数据的构建方式论文也写得很详细，4000万条数据从哪里来、怎么筛选、后训练怎么做。对于一个资源充足的竞争对手来说，这个信息足够让他们快速跟进。

你看论文里那句「We’re still in the early stages；generalization in complex topological reasoning tasks isn’t perfect yet」——这是陈小康在那条已删推文里写的话。我们还在早期阶段。

一家在早期阶段的团队，把路线图画得这么清楚，这不是学术分享的问题了，这是战略问题。

当然，以上都是猜测。也可能就是某个内部的审批流程出了问题，或者论文里有某些表述涉及了不合适的信息。

但从论文本身的质量和内容来看，这篇被撤掉的论文指向的方向是非常明确的：多模态推理的下一步进化不在分辨率的军备竞赛上，而在于教会模型「伸出手去指」。

结语

说到底，分辨率可以再高，token可以再多，但如果AI只能在语言空间里绕圈子，永远无法真正理解空间的逻辑。

DeepSeek在这篇论文里做的事情，说人话就是给AI一根手指。手指很原始，很笨拙，但它让AI从「想象世界」变成了「触摸世界」。

66.9%的迷宫准确率离完美还远，但至少它在一步一步地走。而不像隔壁那几位，在掷硬币。

DeepSeek 多模态AI 视觉推理技术解析