昨天晚上,DeepSeek多模态研究员陈小康在X上发了一条推,兴奋地宣布他们的新论文上线。这篇论文叫《Thinking with Visual Primitives》,讲的是怎么让AI在思考的时候「伸出手指」指东西。
但第二天一早,推文删了,GitHub上的论文也撤了。
很多人看到这个消息的时候第一反应不是「论文有问题」——实际可能是这篇论文太超前,透露太多了。
因为读完它之后你会发现,DeepSeek发现了一个GPT、Claude、Gemini集体没解好的技术瓶颈,然后给了一个朴素到有点可笑的解法。而这个解法,如果拿到产品上真正跑起来,可能会改变多模态AI的竞争格局。
引用鸿沟:多模态模型的核心缺陷
这篇论文的核心观点其实一句话就能讲清楚:目前所有多模态大模型做图像推理的方式有个根本性的缺陷。
你想象一下,一张图里密密麻麻站了25个人,你想让AI数清楚到底有几个。GPT-5.4会怎么干?Claude-Sonnet-4.6会怎么干?它们会先把图片「看」进去,转化成一段文字描述,然后在文字层面做思维链推理。「左边有个穿蓝衣服的人」「右边后排有个戴帽子的」,诸如此类。
但你想想,光是「左边第三排穿蓝色球衣那个人旁边的那个」这种描述本身已经足够模糊了。25个人挤在一起,数着数着AI就忘了刚才数到谁,数重了或者漏了,逻辑链就这么断了。
论文把这个现象起了个名字,叫Reference Gap,引用鸿沟。
跟它对应的是过去两年OpenAI、Google、Anthropic一直在解决的另一个问题——Perception Gap,感知鸿沟。怎么让模型看得更清楚,高分辨率裁切、动态分块、把图片放大再塞进去,都是冲着这个去的。
感知鸿沟解决了「看清」,引用鸿沟解决的是「指准」。看清和指准,是两回事。
朴素的解法:给AI装一根手指
DeepSeek给出的解法说出来几乎有点可笑的朴素:给AI装一根手指。
具体来说,让模型在思考过程中直接输出图片上的坐标。不是作为最终答案输出坐标,而是把坐标嵌进思考过程本身。数一个人的时候,框一个坐标,再数一个人的时候,再框一个坐标,最后数框的数量就行了。
论文管这种坐标叫「视觉原语」,两种格式,一种是bounding box框住物体,一种是point在图上戳一个位置。说是「最小的思维单元」,就像人类思考的时候不自觉地伸手指东西一样。
这个思路的好处在于,模型不需要用模糊的语言去描述「左边第三排第几个」,它直接甩出一个坐标,精确到像素级别。每一步推理都有一个具体的坐标锚着,不会出现「等等刚才查到哪了」的情况。
技术细节:284B参数的MoE模型
底座模型是DeepSeek-V4-Flash,一个284B参数的MoE模型,推理时只激活13B参数。模型脑子很大但每次只派一小部分神经元干活。
视觉编码器做了三级压缩,一张756×756的图,57万像素,一路压下去变成81个信息单元,压缩比7056倍。
我看到这时候也好奇,这还能看清东西?但论文里的实验结果说明,确实能。不光能看清,还能精确数出图里有25个人。
对比一下,同样800×800的图,Gemini-3-Flash消耗约1100个token,Claude-Sonnet-4.6约870个,GPT-5.4约740个。DeepSeek最终计算时只用90个信息单元。别人用一千多个格子来记住一张图,它用90个就够了,省下来的算力全拿去让模型「一边想一边指」。
训练数据:从10万个数据源筛出4000万样本
训练数据这块也挺有意思。DeepSeek从Huggingface等平台把所有带目标检测标签的数据集都爬了下来,初筛得到接近10万个数据源。
然后做了两轮筛选:
· 第一轮用AI审标签质量,砍掉无意义编号、私人实体、模糊缩写这种,剩4万出头 · 第二轮查框的质量,漏标太多的、框画歪了的、框大到把整张图都框住的,再砍一批,剩3万出头
最后采样去重,产出超过4000万高质量样本。4000万条数据,听起来很多,但想想这是从10万个数据源里一层一层筛出来的。
后训练:先分头练,再合并
后训练的策略是先分头练再合并。先拿框的数据训练一个专门画框的专家模型,再拿点的数据训练一个专门标点的专家模型,分开练是为了防止两种能力互相干扰。然后对两个专家分别做强化学习,最后把两个专家的能力合到一个模型里。
强化学习这块有个细节值得说。DeepSeek设计了一套多维度的打分系统:格式对不对、逻辑通不通、答案准不准,三管齐下。数据筛选也有讲究:全做对的题太简单没训练价值,全做错的题太难学不到东西,只留「有对有错」的题来练。
实验结果:迷宫任务碾压对手
论文测了四大类任务:数数、空间推理、迷宫导航、路径追踪。前两类是框的能力,后两类是点的能力。
数数这块,DeepSeek在Pixmo-Count上拿到了89.2的EM,比Gemini的88.2和GPT的76.6都要高。在自己建的细粒度数数测试集上拿到88.7,也是最高。
空间推理这块,在自己建的Spatial_Reasoning上拿到98.7,Claude是77.2,GPT是81.1,差距非常明显。
但真正让人服气的是迷宫和路径追踪这两类拓扑推理任务。
迷宫任务:给一张迷宫图,问从起点到终点有没有路。有三种形状的迷宫——方格的、圆环的、蜂巢的。DeepSeek还特意设计了一批陷阱迷宫,乍一看有路,中间某段被偷偷堵住了,你得老老实实把能走的路都试一遍才能确认走不通。
准确率对比:
· DeepSeek:66.9% · GPT-5.4:50.6% · Claude-Sonnet-4.6:48.9% · Gemini-3-Flash:49.4% · Qwen3-VL:49.6%
迷宫只有两种答案,有路或者没路,随机猜正好50%。GPT、Claude、Gemini、Qwen全在50%附近晃,跟掷硬币没什么区别。DeepSeek的66.9%不算高,但关键区别在于:它是在一步一步走的。
论文里展示了一个圆形迷宫的完整探索过程,模型先标出起点终点,走了18步,中间两次钻进死胡同退出来,最后绕出了通路。那些50%的模型呢?大概率是看起点附近走势不错就直接猜有路,根本没认真搜。
路径追踪更直观:一堆线缠在一起,问你C这条线通向哪个终点。
· DeepSeek:56.7% · GPT:46.5% · Claude:30.6% · Gemini:41.4%
Claude的30.6%有点出乎意料,终点一般四五个选项,随机猜也该有20%出头,30.6%只比瞎猜强一点点。
三个局限
论文还坦诚地写了三个局限:
- 输入分辨率有限制,数手指这种精细场景坐标精度还不够——这大概就是前两天DeepSeek识图模式数手指翻车的直接原因
- 目前需要特定触发词才能激活视觉原语模式,模型还不能自己判断什么时候该「伸手指」
- 拓扑推理的泛化能力有限,训练过的迷宫类型效果好,换一种新的空间结构可能掉链子
然后论文就没了,被删了。
为什么被删?三种猜测
第一种可能:论文暴露了一个还在灰度测试中的产品级模型的技术底牌。DeepSeek-V4-Flash本身已经发布了(4月24日上线),但论文里真正暴露的,是基于它搭建的那个多模态推理模型。这个模型目前连正式名称都没有,识图模式也是4月29号才开始小范围灰度,论文就把它的参数配置、训练pipeline、视觉压缩方案、强化学习的reward设计全写了进去。对于一个还在灰度、随时可能调整的产品来说,这么早把技术方案公开,等于是把还没交卷的答卷提前亮出来了。
第二种可能:论文的benchmark对比数据太具体了。跟GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash的逐项对比,而且是在自己建的测试集上做的,这些数字一旦公开,对手可以针对性地优化。更重要的是,这些数据会让对手清楚地看到DeepSeek在多模态推理上的真实实力和策略方向。对于一家还在积累阶段的公司,过早暴露实力和方向未必是好事。
第三种可能,也是最值得玩味的一种:这篇论文的思路太清晰了,清晰到任何一个团队读完之后都能复现。「给思维链加坐标锚点」这个idea本身不难理解,训练数据的构建方式论文也写得很详细,4000万条数据从哪里来、怎么筛选、后训练怎么做。对于一个资源充足的竞争对手来说,这个信息足够让他们快速跟进。
你看论文里那句「We’re still in the early stages;generalization in complex topological reasoning tasks isn’t perfect yet」——这是陈小康在那条已删推文里写的话。我们还在早期阶段。
一家在早期阶段的团队,把路线图画得这么清楚,这不是学术分享的问题了,这是战略问题。
当然,以上都是猜测。也可能就是某个内部的审批流程出了问题,或者论文里有某些表述涉及了不合适的信息。
但从论文本身的质量和内容来看,这篇被撤掉的论文指向的方向是非常明确的:多模态推理的下一步进化不在分辨率的军备竞赛上,而在于教会模型「伸出手去指」。
结语
说到底,分辨率可以再高,token可以再多,但如果AI只能在语言空间里绕圈子,永远无法真正理解空间的逻辑。
DeepSeek在这篇论文里做的事情,说人话就是给AI一根手指。手指很原始,很笨拙,但它让AI从「想象世界」变成了「触摸世界」。
66.9%的迷宫准确率离完美还远,但至少它在一步一步地走。而不像隔壁那几位,在掷硬币。