4月底,用户发现DeepSeek的界面里悄悄多出了一个“识图模式”入口,光标移上去会弹出“图片理解功能内测中”的提示。到5月9日,DeepSeek已大范围开放该功能,多数测试账号均可使用——那个曾经只懂文字的国产大模型“尖兵”,终于睁开了“眼睛”。
一路在文本、代码和推理能力上卷到第一梯队的DeepSeek,视觉能力一直是其最明显的短板。“真实世界里的问题并不总是以文字形式出现,它们可能是一张照片、一页论文图表、一个网页截图,也可能是一个需要理解空间关系和视觉细节的现实场景。”

01 鲸鱼睁眼:4月底灰测,5月大范围开放
4月29日前后,部分用户发现DeepSeek的网页端和App端开始出现“识图模式”入口,该入口与“快速模式”“专家模式”并列,被定位为一等核心能力。
当晚,DeepSeek多模态团队负责人陈小康在社交平台发文“Now,we see you”,配图中DeepSeek标志性的鲸鱼logo摘下眼罩露出了眼睛,被广泛视为官方对多模态能力上线的确认。
到5月9日,DeepSeek大范围开放了该功能的访问权限,多数测试账号已可使用,输入框上方与“快速”“专家”模式并列的独立入口清晰可见。
02 技术突破:给模型加上“手指”,精准“指向”
DeepSeek的识图能力绝非普通的OCR文字识别,而是一种基于多模态理解的原生视觉能力——能真正理解图片里有什么、画面中在发生什么。
在功能开启的同时,DeepSeek在GitHub上发布了一篇革命性的技术论文《Thinking with Visual Primitives》(以视觉原语思考)。
DeepSeek的解法堪称精妙:它不再将点和框作为输出的后缀,而是在推理过程中将其嵌入思维链本身。模型在推理时能够一边“想”一边“指”,将抽象的语言指向到具体空间坐标,像人类一样用“指尖”消除歧义,实现精准的空间感知。
技术数据显示,这套架构实现了7056倍的视觉压缩效率,一张756×756的图片处理后仅需81个视觉KV条目,同等尺寸下Claude Sonnet 4.6约需870个。
03 看得见、读得懂、能推理:实测惊艳登场
“识图模式”灰度开放后,用户们的脑洞实测迅速铺开,展示了这项功能在日常场景中的强大能力。
有用户拍下公司附近的街景照片上传,DeepSeek几乎能准确认出每一栋建筑的名称,并在思考过程中调用世界知识完成判断,过程中并未开启联网搜索功能。
还有用户测试它的网页复刻能力,上传页面截图后,DeepSeek能准确读懂布局结构,生成接近真实效果的网页demo。有网友表示,这种感觉就像AI不只是“看见”,而是在“思考”——这对设计师和产品经理来说,让想法验证的周期大幅缩短。
04 从“读字”到“识物”:多模态已成标配能力
DeepSeek识图模式的大范围开放,反映出国产大模型竞争的重心,正在从比拼单一的文本生成能力,转变为对“全感官信息”的全面理解。从“看字”到“识物”的跨越,将极大拓宽AI的应用边界。
与此同时,深度集成DeepSeek V4多模态能力的企业智能体中台已覆盖政务、金融、制造等全链业务场景。
DeepSeek团队对多模态能力的定位与主流路径有所不同:它不仅仅将视觉理解作为输入接口,而是将视觉能力与推理深度融合,让视觉语言模型以更低的成本实现更高的实际场景理解效率,而非盲目追求评测榜单上的排名。
从4月底的小范围灰测到5月9日的大范围开放,DeepSeek仅用不到两周的时间就完成了关键跨越。这场“视觉进化”的效率与深度,再次展现了这家国产AI“尖兵”的风格——当那些依赖多模态参数刷榜的对手还在炫技时,它已经用“工程思维”让大模型变成了一双实用的“眼睛”。从文本到图像,从对话到交互,AI的体验确实变了一个维度。
与此同时,一个标志性的预告信号也已出现:在DeepSeek客户端模型选择栏中,“快速”“专家”“视觉”三个选项并列——“视觉”选项正是为接下来即将上线的满血多模态版V4预留的接口。